1. 框架图
2. 步骤
<1>准备三台客户机
Hadoop102、Hadoop103、Hadoop104
<2>编写集群分发脚本xsync
scp
定义
安全拷贝,scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)
基本语法
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
操作
在Hadoop102服务器,将Hadoop102的文件发送到Hadoop103
rsync
定义
远程同步工具,主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
基本语法
rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
选项参数说明
选项 功能
-a 归档拷贝
-v 显示复制过程
操作
在Hadoop102服务器,将Hadoop102同步到Hadoop103
xsync脚本
在root根目录下创建bin目录
新建脚本xsync
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
echo ==================== $host ====================
#3. 遍历所有目录,挨个发送
for file in $@
do
#4. 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录
pdir=$(cd -P $(dirname $file); pwd)
#6. 获取当前文件的名称
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file does not exists!
fi
done
done
<3>配置ssh无密码登录
原理
配置
- 进入目录
cd /root
ll -al
cd .ssh
- 生成公钥私钥
ssh-keygen -t rsa
3. 将Hadoop102的公钥发送到Hadoop103、Hadoop104
ssh-copy-id hadoop103
4. 测试连接
<4>配置集群
1. 注意
NameNode和SecondaryNameNode 不要安装在同一台服务器。
ResourceManager也很耗内存,不要和NameNode、SecondaryNameNode配置在同一台服务器上。
2. 规划
3. 配置文件说明
Hadoop配置文件分两种,默认配置文件和自定义配置文件,只有用户想修改某一个默认配置时,才需要修改自定义配置文件,更改相应属性值
<1>默认配置文件
<2>自定义配置文件
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上
<3>配置集群
- 核心配置 core-site.xml
[atguigu@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[atguigu@hadoop102 hadoop]$ vim core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置HDFS网页登录使用的静态用户为atguigu -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>atguigu</value>
</property>
</configuration>
- HDFS配置文件 hdfs-site.xml
[atguigu@hadoop102 hadoop]$ vim hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- nn web端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!-- 2nn web端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
- YARN配置文件 yarn-site.xml
[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定MR走shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
- MapReduce配置文件 mapred-site.xml
[atguigu@hadoop102 hadoop]$ vim mapred-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定MapReduce程序运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4. 在集群上分发配置好的Hadoop配置文件
[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/
5. 去103和104上查看文件分发情况
[atguigu@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[atguigu@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
<5>群起集群
1. 配置workers
vim /opt/module/hadoop-3.1.3/etc/Hadoop/workers
hadoop102
hadoop103
hadoop104
执行分发脚本
xsync workers
2. 启动集群
#<1> 初始化
如果第一次启动,需要初始化,需要在hadoop102节点格式化NameNode
hdfs namenode -format
<2>启动hdfs
在配置hdfs的服务器,即hadoop102,执行启动脚本
sbin/start-dfs.sh
http://hadoop102:9870
<3> 启动Yarn
在配置yarn的服务器,即hadoop103执行启动脚本
sbin/start-yarn.sh
http://hadoop103:8088
<4> 解决一个报错
启动hdfs时候
在环境变量中添加以下内容
<6>集群测试
测试hdfs
- 新建目录
- 上传文件
- 查看文件所在磁盘位置
测试yran
- 执行命令
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput
- 查看hdfs web 页面结果
- 查看yarn web页面结果
<7>配置历史服务器
为了查看程序的历史运行情况,需要配置一下历史服务器。
1.配置mapred-site.xml
vim mapred-site.xml
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop102:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
</property>
2. 分发配置
xsync mapred-site.xml
3. 在hadoop102启动历史服务器
mapred --daemon start historyserver
4. 查看效果
<8>配置日志聚集功能
1. 概念
应用运行完成之后,将程序运行日志信息上换到HDFS系统上。
2. 好处
方便的查看到程序运行详情,方便开发调试
3. 注意
启动日志聚集功能后,需要重新启动NodeManager、ResourceManager和HistoryServer
4. 步骤
<1>配置yarn-site.xml
<!-- 开启日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
<2>分发配置
xsync mapred-site.xml
<3>重启NodeManager、ResourceManager和HistoryServer
关闭历史服务器:mapred --daemon stop historyserver
关闭yarn :sbin/stop-yarn.sh
启动yarn :sbin/start-yarn.sh
启动 historyserver :mapred --daemon start historyserver
<4>删除HDFS上已经存在的输出文件
5. 执行WordCount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput3
6. 查看日志
<9>集群启动方式总结
1. 各个模块分开启动/停止(配置ssh是前提)
<1>整体启动/停止HDFS系统
start-dfs.sh /stop-dfs.sh
<2>整体启动/停止yarn
start-yarn.sh /stop-yarn.sh
2. 各个服务组件逐一启动/停止
<1>分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
<2>启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager
<10>两个常用脚本
- Hadoop集群启动/停止脚本
包括HDFS、Yarn、HistoryServer
cd /home/root/bin
vim myhadoop.sh
#!/bin/bash
if [ $# -lt 1 ]
then
echo "No Args Input..."
exit ;
fi
case $1 in
"start")
echo " =================== 启动 hadoop集群 ==================="
echo " --------------- 启动 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
echo " --------------- 启动 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
echo " --------------- 启动 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
echo " =================== 关闭 hadoop集群 ==================="
echo " --------------- 关闭 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
echo " --------------- 关闭 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
echo " --------------- 关闭 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
echo "Input Args Error..."
;;
esac
chmod +x myhadoop.sh
- 查看三台服务器Java程序脚本
cd /home/root/bin
vim jpsall.sh
#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
echo =============== $host ===============
ssh $host jps
done
chmod +x jpsall.sh
<11>常见端口号说明
<12>集群时间同步设置
1. 说明
如果服务器能连接外网,则不需要时间同步
不能连接外网,则需要时间同步
2. 步骤
<1> ntpd
安装ntpd : yum -y install ntp
查看ntpd状态: systemctl status ntpd
启动ntpd: systemctl start ntpd
开机启动ntpd: systemctl is-enabled ntpd
<2>修改hadoop102配置文件
vim /etc/ntp.conf
- 修改授权192.168.10.0-192.168.10.255网段上的所有机器可以从这台机器上查询和同步时间
#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
改为restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
- 修改集群在局域网中,不使用其他互联网上的时间
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
改为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
- 添加当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
server 127.127.1.0
fudge 127.127.1.0 stratum 10
- 修改hadoop102的/etc/sysconfig/ntpd 文件
vim /etc/sysconfig/ntpd
增加内容如下(让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes
- 重新启动ntpd服务
systemctl start ntpd
- 设置ntpd服务开机启动
systemctl enable ntpd
<3>其他机器配置(必须root用户)
- 关闭所有节点上ntp服务和自启动
[atguigu@hadoop103 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop103 ~]$ sudo systemctl disable ntpd
[atguigu@hadoop104 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop104 ~]$ sudo systemctl disable ntpd
- 在其他机器配置1分钟与时间服务器同步一次
[atguigu@hadoop103 ~]$ sudo crontab -e
编写定时任务如下:
*/1 * * * * /usr/sbin/ntpdate hadoop102
- 修改任意机器时间
[atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
- 1分钟后查看机器是否与时间服务器同步
[atguigu@hadoop103 ~]$ sudo date