完全分布式运行模式-Hadoop部署

eyupi_

已于 2022-11-02 21:28:01 修改

阅读量422

点赞数

文章标签： hadoop hdfs 大数据

于 2022-11-02 21:22:48 首次发布

本文链接：https://blog.csdn.net/eyupi_/article/details/127659264

版权

第1章完全分布式运行模式（开发重点）

编写shell脚本用于分发

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop132 hadoop133 hadoop134
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4. 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

1.1 Hadoop部署

1）集群部署规划

注意：NameNode和SecondaryNameNode不要安装在同一台服务器

注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

hadoop132

hadoop133

hadoop134

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

2）将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面

3）解压Hadoop安装包到/opt/module下面

配置hadoop之前把jdk配好（第一步解压，第二步配置环境变量）

[root@hadoop132 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

4）查看是否解压成功

[root@hadoop132 software]$ ls /opt/module/hadoop-3.1.3

5）将Hadoop添加到环境变量

（1）获取Hadoop安装路径

[root@hadoop132 hadoop-3.1.3]$ pwd

/opt/module/hadoop-3.1.3

（2）打开/etc/profile.d/my_env.sh文件

[root@hadoop132 hadoop-3.1.3]$ sudo vim /etc/profile.d/my_env.sh

在profile文件末尾添加JDK路径：（shitf+g）

#HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

（3）保存后退出 :wq

安装rsync工具

[root@hadoop132 bin]# yum -y install rsync

配置映射/etc/hosts，增加如下内容（3台机器）

192.168.6.102 hadoop132

192.168.6.103 hadoop133

192.168.6.104 hadoop134

ssh-copy-id -i /root/.ssh /id_rsa.pub root@hadoop133

配置免密登录

[root@hadoop132 ~]# ssh-keygen -t rsa

[root@hadoop132 ~]# ssh-copy-id -i /root/.ssh/id_rsa.pub root@hadoop132

[root@hadoop132 ~]# [root@hadoop132 ~]# ssh-copy-id -i /root/.ssh /id_rsa.pub root@hadoop134

3台机器重复此操作

（4）分发环境变量文件

[root@hadoop132 hadoop-3.1.3]$ xsync /etc/profile.d/my_env.sh

（5）source 使之生效（3台节点）

source /etc/profile.d/my_env.sh

1.2 配置集群

1）核心配置文件

配置core-site.xml

[root@hadoop132 .ssh]$ cd /opt/module/hadoop-3.1.3/etc/hadoop/

[root@hadoop132 hadoop]$ vim core-site.xml

文件内容如下：

<configuration>

        <!-- 指定NameNode的位置 -->

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hadoop132:8020</value>

    </property>

    <!-- 指定NameNode、DataNode、2nn数据存储的位置-->

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/opt/module/hadoop-3.1.3/data</value>

    </property>

    <!-- 代理配置-->

    <property>

        <name>hadoop.proxyuser.root.hosts</name>

        <value>*</value>

    </property>

    <property>

        <name>hadoop.proxyuser.root.groups</name>

        <value>*</value>

    </property>

   <!-- 指定web端操作的用户 -->

    <property>

        <name>hadoop.http.staticuser.user</name>

        <value>root</value>

    </property>

</configuration>

2）HDFS配置文件

配置hdfs-site.xml

[root@hadoop132 hadoop]$ vim hdfs-site.xml

文件内容如下：

<configuration>



    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hadoop134:9868</value>

    </property>

    

</configuration>

3）YARN配置文件

配置yarn-site.xml

[root@hadoop132 hadoop]$ vim yarn-site.xml

文件内容如下：

<configuration>

    

     <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop133</value>

</property>

    

<property>

        <name>yarn.nodemanager.env-whitelist</name>

        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>

    </property>



    

    <property>

        <name>yarn.scheduler.minimum-allocation-mb</name>

        <value>512</value>

    </property>

    

    <property>

        <name>yarn.scheduler.maximum-allocation-mb</name>

        <value>4096</value>

    </property>

    

    <property>

        <name>yarn.nodemanager.resource.memory-mb</name>

        <value>4096</value>

    </property>

</configuration>

4）MapReduce配置文件

配置mapred-site.xml

[root@hadoop132 hadoop]$ vim mapred-site.xml

文件内容如下：

<configuration>

    

<property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

5）配置workers

[root@hadoop132 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容：