Hadoop-3.1.3 完全分布式运行模式部署

最新推荐文章于 2022-08-09 14:47:50 发布

碎尘

最新推荐文章于 2022-08-09 14:47:50 发布

阅读量379

点赞数 1

分类专栏：大数据学习文章标签： hadoop hdfs mapreduce big data

本文链接：https://blog.csdn.net/taiyusuichen/article/details/121192622

版权

大数据学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

集群搭建前置准备

1 Hadoop部署

1.1 集群部署规划

1.2 上传下载好的hadoop-3.1.3.tar.gz并解压

集群搭建前置准备

前置准备资料可自行搜索资料

1）准备3台客户机（关闭防火墙、静态IP、主机名称）

2）安装JDK

3）配置环境变量

4）安装Hadoop

5）配置环境变量

6）配置集群

7）单点启动

8）配置ssh

9）群起并测试集群

1 Hadoop部署

1.1 集群部署规划

注意：

NameNode和SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

node1 node2 node3
HDFS
NameNode

DataNode
DataNode SecondaryNameNode DataNode
YARN NodeManager ResourceManager NodeManager NodeManager

	node1	node2	node3
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

1.2 上传下载好的hadoop-3.1.3.tar.gz并解压

 cd /opt/software/
 tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
 ls /opt/module/

1.3 将Hadoop添加到环境变量

 vim /etc/profile.d/my_env.sh
 插入以下内容：
 ##HADOOP_HOME
 export HADOOP_HOME=/opt/modules/hadoop-3.1.3
 export PATH=$PATH:$HADOOP_HOME/bin
 export PATH=$PATH:$HADOOP_HOME/sbin

2 配置集群

2.1 配置核心文件

cd $HADOOP_HOME/etc/hadoop

vim core-site.xml

文件内容：

 <?xml version="1.0" encoding="UTF-8"?>
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
     <!-- 指定NameNode的地址 -->
     <property>
         <name>fs.defaultFS</name>
         <value>hdfs://node1:9820</value>
     </property>
     <!-- 指定hadoop数据的存储目录 -->
     <property>
         <name>hadoop.tmp.dir</name>
         <value>/opt/modules/hadoop-3.1.3/data</value>
     </property>
 
     <!-- 配置HDFS网页登录使用的静态用户为root -->
     <property>
         <name>hadoop.http.staticuser.user</name>
         <value>root</value>
     </property> 
 
     <!-- 配置该xzl(superUser)允许通过代理访问的主机节点 -->
     <property>
         <name>hadoop.proxyuser.root.hosts</name>
         <value>*</value> 
     </property>
     <!-- 配置该atguigu(superUser)允许通过代理用户所属组 -->
     <property>
         <name>hadoop.proxyuser.root.groups</name>
         <value>*</value>
     </property>
     <!-- 配置该atguigu(superUser)允许通过代理的用户-->
     <property>
         <name>hadoop.proxyuser.root.groups</name>
         <value>*</value>
     </property>
 </configuration>

2.2 HDFS配置文件

vim hdfs-site.xml

文件内容：

 <?xml version="1.0" encoding="UTF-8"?>
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
     <!-- nn web端访问地址-->
     <property>
         <name>dfs.namenode.http-address</name>
         <value>node1:9870</value>
     </property>
     
     <!-- 2nn web端访问地址-->
     <property>
         <name>dfs.namenode.secondary.http-address</name>
         <value>node3:9868</value>
     </property>
     
     <!-- 测试环境指定HDFS副本的数量1 -->
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
 </configuration>

2.3 YARN配置文件

vim yarn-site.xml

文件内容：

 <?xml version="1.0" encoding="UTF-8"?>
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
     <!-- 指定MR走shuffle -->
     <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
     
     <!-- 指定ResourceManager的地址-->
     <property>
         <name>yarn.resourcemanager.hostname</name>
         <value>node2</value>
     </property>
     
     <!-- 环境变量的继承 -->
     <property>
         <name>yarn.nodemanager.env-whitelist</name>
     <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
     </property>
     
     <!-- yarn容器允许分配的最大最小内存 -->
     <property>
         <name>yarn.scheduler.minimum-allocation-mb</name>
         <value>512</value>
     </property>
     <property>
         <name>yarn.scheduler.maximum-allocation-mb</name>
         <value>4096</value>
     </property>
     
     <!-- yarn容器允许管理的物理内存大小 -->
     <property>
         <name>yarn.nodemanager.resource.memory-mb</name>
         <value>4096</value>
     </property>
     
     <!-- 关闭yarn对物理内存和虚拟内存的限制检查 -->
     <property>
         <name>yarn.nodemanager.pmem-check-enabled</name>
         <value>false</value>
     </property>
     <property>
         <name>yarn.nodemanager.vmem-check-enabled</name>
         <value>false</value>
     </property>
 </configuration>

2.4 MapReduce配置文件

vim mapred-site.xml

文件内容：

 <?xml version="1.0" encoding="UTF-8"?>
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
     <!-- 指定MapReduce程序运行在Yarn上 -->
     <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
     </property>
 </configuration>

2.5 配置workers

vim workers

在该文件中增加如下内容：

 node1
 node2
 node3

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

2.6 配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

1）配置mapred-site.xml

vim mapred-site.xml

在该文件里面增加如下配置：

     <!-- 历史服务器端地址 -->
     <property>
         <name>mapreduce.jobhistory.address</name>
         <value>node1:10020</value>
     </property>
 
     <!-- 历史服务器web端地址 -->
     <property>
         <name>mapreduce.jobhistory.webapp.address</name>
         <value>node1:19888</value>
     </property>

2.7 配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。

开启日志聚集功能具体步骤如下：

1）配置yarn-site.xml

vim yarn-site.xml

在该文件里面增加如下配置：

    <!-- 开启日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>

    <!-- 设置日志聚集服务器地址 -->
    <property>  
        <name>yarn.log.server.url</name>  
        <value>http://node1:19888/jobhistory/logs</value>
    </property>

    <!-- 设置日志保留时间为7天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>

2.8 分发Hadoop

xsync /opt/modules/hadoop-3.1.3/

分发脚本：

在/home/xzl目录下创建bin目录，并在bin目录下xsync创建文件，文件内容如下

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=2; host<4; host++)); do
        echo ------------------- node$host -------------------
        rsync -rvl $pdir/$fname $user@node$host:$pdir
done

修改脚本 xsync 具有执行权限

chmod +x xsync

调用脚本形式：

xsync 文件名称

xsync /home/atguigu/bin

注意：如果将xsync放到/home/xzl/bin目录下仍然不能实现全局使用，可以将xsync移动到/usr/local/bin目录下。

2.9 群起集群

如果集群是第一次启动，需要在node1节点格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

# 第一次启动，格式化：
    bin/hdfs namenode -format
# 在node1节点启动hdfs：
    sbin/start-dfs.sh
# 在node2节点启动yarn：
    sbin/start-yarn.sh

Web端查看HDFS的Web页面：http://node1:9870/

Hadoop群起脚本：

vim /usr/local/bin/hd

输入如下内容：

#!/bin/bash
if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi
case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh node1 "/opt/modules/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh node2 "/opt/modules/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh node1 "/opt/modules/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh node1 "/opt/modules/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh node2 "/opt/modules/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh node1 "/opt/modules/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

集群进程查看脚本：

vim /usr/local/bin/xcall

输入一下内容：

#!/bin/sh
pcount=$#
if((pcount==0));then
        echo no args...;
        exit;
fi

for((host=1; host<4; host++)); do
        echo ==================node$host==================
        ssh node$host $@
done

注意：如果提示command not found

这是因为xcall这个命令的本质是利用ssh的方式来登录到机器上，属于no-login-shell。对于这种方式，每次登录时会读取home目录下~/.bashrc文件等，但是不读取/etc/profile文件。

在~/.bashrc文件末尾加入 source /etc/profile

3 配置时间同步

1）时间服务器配置（必须root用户）

查看所有节点ntpd服务状态和开机自启动状态
sudo systemctl status ntpd
sudo systemctl is-enabled ntpd
在所有节点关闭ntp服务和自启动
sudo systemctl stop ntpd
sudo systemctl disable ntpd
修改hadoop102的ntp.conf配置文件
sudo vim /etc/ntp.conf
修改内容如下：
a）修改1（授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间）
#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
为restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
b）修改2（集群在局域网中，不使用其他互联网上的时间）
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
server 127.127.1.0
fudge 127.127.1.0 stratum 10
（3）修改hadoop102的/etc/sysconfig/ntpd 文件
[atguigu@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd
增加内容如下（让硬件时间与系统时间一起同步）
SYNC_HWCLOCK=yes
（4）重新启动ntpd服务
sudo systemctl start ntpd
（5）设置ntpd服务开机启动
sudo systemctl enable ntpd

2）其他机器配置

（1）在其他机器配置10分钟与时间服务器同步一次
sudo crontab -e
编写定时任务如下：
*/10 * * * * /usr/sbin/ntpdate hadoop102
（2）修改任意机器时间
sudo date -s "2017-9-11 11:11:11"
（3）十分钟后查看机器是否与时间服务器同步
sudo date

碎尘

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Hadoop-3.1.3 完全分布式运行模式部署

目录搭建步骤1 Hadoop部署1.1 集群部署规划1.2 上传下载好的hadoop-3.1.3.tar.gz并解压1.3 将Hadoop添加到环境变量2 配置集群2.1 配置核心文件2.2 HDFS配置文件2.3 YARN配置文件2.4 MapReduce配置文件2.5 配置workers2.6 配置历史服务器2.7 配置日志的聚集2.9 群起集群3 配置时间同步1）时间服务器配置（必须root用户）2）其他机器配置搭建步骤
复制链接

扫一扫

专栏目录