大数据Hadoop--3.1.3——完全分布式搭建、分发（入门）第一部分

最新推荐文章于 2024-09-18 18:42:04 发布

Carson_xcb

最新推荐文章于 2024-09-18 18:42:04 发布

阅读量585

点赞数

分类专栏： Hadoop 文章标签： hadoop 分布式 linux 大数据

caron

本文链接：https://blog.csdn.net/qq_42502354/article/details/105439541

版权

Hadoop 专栏收录该内容

46 篇文章 6 订阅

订阅专栏

首先准备三台一样的虚拟机，配置好相关设置

集群部署规划

注意：NameNode和SecondaryNameNode不要安装在同一台服务器
注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。
在这里插入图片描述

1、配置集群

（1）配置：hadoop-env.sh
如果是从搭建好的伪分布式拷贝过来的hadoop，因为已经配置过，可以直接跳

过，如果是新解压的hadoop，需要配置该项.

Linux系统中获取JDK的安装路径：

 echo $JAVA_HOME

/opt/module/jdk1.8.0_212
修改JAVA_HOME 路径：

export JAVA_HOME=/opt/module/jdk1.8.0_212

（2）核心配置文件
配置core-site.xml
cd $HADOOP_HOME/etc/hadoop
vim core-site.xml
文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定NameNode的地址-->   
<property>
   <name>fs.defaultFS</name>      
   <value>hdfs://hadoop101:9820</value>
</property>
<!-- 指定hadoop数据的存储目录  
      官方配置文件中的配置项是hadoop.tmp.dir
,用来指定hadoop数据的存储目录,此次配置用的hadoop.data.dir是自己定义的变量， 因为在hdfs-site.xml中会使用此配置的值来具体指定namenode
和 datanode存储数据的目录 
-->
<property>
   <name>hadoop.data.dir</name>
   <value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 下面是兼容性配置，先跳过 -->
<!-- 配置该caron(superUser)允许通过代理访问的主机节点 -->
<property>      
   <name>hadoop.proxyuser.caron.hosts</name>
   <value>*</value>
</property>
<!-- 配置该caron(superuser)允许代理的用户所属组 -->
<property>     
    <name>hadoop.proxyuser.caron.groups</name>
    <value>*</value>
</property>
<!-- 配置该caron(superuser)允许代理的用户-->
<property>
    <name>hadoop.proxyuser.caron.users</name>
    <value>*</value>
</property>
</configuration>

（3）HDFS配置文件
配置hdfs-site.xml
vim hdfs-site.xml
文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration>
 <!-- 指定NameNode数据的存储目录--> 
<property>   
<name>dfs.namenode.name.dir</name>   
<value>file://${hadoop.data.dir}/name</value> 
</property>
 <!--指定Datanode数据的存储目录--> 
<property>  
<name>dfs.datanode.data.dir</name>   
<value>file://${hadoop.data.dir}/data</value> 
</property>    
 <!--指定SecondaryNameNode数据的存储目录-->   
<property> 
<name>dfs.namenode.checkpoint.dir</name>  
<value>file://${hadoop.data.dir}/namesecondary</value> 
</property>
   <!-- 兼容配置，先跳过 -->   
<property>   
<name>dfs.client.datanode-restart.timeout</name>   
<value>30s</value> 
</property>
  <!-- nn web端访问地址-->
<property> 
<name>dfs.namenode.http-address</name> 
<value>hadoop101:9870</value>
</property>
  <!-- 2nn web端访问地址-->
<property>   
<name>dfs.namenode.secondary.http-address</name>  
<value>hadoop103:9868</value>
</property>
</configuration>

（4）YARN配置文件
配置yarn-site.xml
vim yarn-site.xml
文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration>   
<property>      
<name>yarn.nodemanager.aux-services</name>       
<value>mapreduce_shuffle</value>
</property>
<!--指定ResourceManager的地址-->   
<property>       
<name>yarn.resourcemanager.hostname</name>       
<value>hadoop102</value>
</property>
<!-- 环境变量的继承-->   
<property>     
<name>yarn.nodemanager.env-whitelist</name>       
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value> 
</property>
</configuration>

（5）MapReduce配置文件
配置mapred-site.xml
vim mapred-site.xml
文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!--指定MapReduce程序运行在Yarn上-->
<property>   
<name>mapreduce.framework.name</name>   
<value>yarn</value>
</property>
</configuration>

2、在集群上分发配置好的hadoop

xsync集群分发脚本之前需要创建脚本
（a）在/home/atguigu目录下创建bin目录，并在bin目录下创建xsync文件

[caron@hadoop101 hadoop] cd /home/caron
[caron@hadoop101 ~] mkdir  bin 
[caron@hadoop101 bin] touch xsync
[caron@hadoop101 bin] vim xsync

在该文件中编写如下代码

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop101 hadoop102 hadoop103
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done