【Hadoop】——入门：集群搭建

最新推荐文章于 2024-07-25 15:50:18 发布

那时的样子_

最新推荐文章于 2024-07-25 15:50:18 发布

阅读量870

点赞数 1

分类专栏： bigdata hadoop 文章标签： hadoop linux hdfs

本文链接：https://blog.csdn.net/qq_42000631/article/details/122421246

版权

bigdata 同时被 2 个专栏收录

39 篇文章 1 订阅

订阅专栏

hadoop

9 篇文章 0 订阅

订阅专栏

1. 框架图

在这里插入图片描述

2. 步骤

<1>准备三台客户机

Hadoop102、Hadoop103、Hadoop104

<2>编写集群分发脚本xsync

scp

定义

安全拷贝，scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

基本语法

scp    -r        $pdir/$fname             $user@$host:$pdir/$fname
命令   递归     要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称

操作

在Hadoop102服务器，将Hadoop102的文件发送到Hadoop103
在这里插入图片描述

rsync

定义

远程同步工具，主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

基本语法

rsync    -av       $pdir/$fname             $user@$host:$pdir/$fname
命令   选项参数   要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称

选项参数说明
选项功能
-a 归档拷贝
-v 显示复制过程

操作

在Hadoop102服务器，将Hadoop102同步到Hadoop103
在这里插入图片描述

xsync脚本

在root根目录下创建bin目录
新建脚本xsync

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

在这里插入图片描述

<3>配置ssh无密码登录

原理

在这里插入图片描述

配置

cd /root
ll -al
cd .ssh

生成公钥私钥

ssh-keygen -t rsa

在这里插入图片描述
3. 将Hadoop102的公钥发送到Hadoop103、Hadoop104
ssh-copy-id hadoop103

4. 测试连接

在这里插入图片描述

<4>配置集群

1. 注意

NameNode和SecondaryNameNode 不要安装在同一台服务器。
ResourceManager也很耗内存，不要和NameNode、SecondaryNameNode配置在同一台服务器上。

2. 规划

在这里插入图片描述

3. 配置文件说明

Hadoop配置文件分两种，默认配置文件和自定义配置文件，只有用户想修改某一个默认配置时，才需要修改自定义配置文件，更改相应属性值

<1>默认配置文件

在这里插入图片描述

<2>自定义配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上

<3>配置集群

核心配置 core-site.xml

[atguigu@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[atguigu@hadoop102 hadoop]$ vim core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户为atguigu -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>atguigu</value>
    </property>
</configuration>

HDFS配置文件 hdfs-site.xml

[atguigu@hadoop102 hadoop]$ vim hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

YARN配置文件 yarn-site.xml

[atguigu@hadoop102 hadoop]$ vim yarn-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

MapReduce配置文件 mapred-site.xml

[atguigu@hadoop102 hadoop]$ vim mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4. 在集群上分发配置好的Hadoop配置文件

[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

5. 去103和104上查看文件分发情况

[atguigu@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[atguigu@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

<5>群起集群

1. 配置workers

vim /opt/module/hadoop-3.1.3/etc/Hadoop/workers

hadoop102
hadoop103
hadoop104

执行分发脚本

xsync  workers

2. 启动集群

#<1> 初始化

如果第一次启动，需要初始化，需要在hadoop102节点格式化NameNode

hdfs namenode -format

<2>启动hdfs

在配置hdfs的服务器，即hadoop102，执行启动脚本

sbin/start-dfs.sh

http://hadoop102:9870

在这里插入图片描述

<3> 启动Yarn

在配置yarn的服务器，即hadoop103执行启动脚本

sbin/start-yarn.sh

http://hadoop103:8088
在这里插入图片描述

<4> 解决一个报错

启动hdfs时候
在这里插入图片描述

在环境变量中添加以下内容在这里插入图片描述

<6>集群测试

测试hdfs

新建目录
上传文件
查看文件所在磁盘位置

测试yran

执行命令

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput

查看hdfs web 页面结果
查看yarn web页面结果

<7>配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。

1.配置mapred-site.xml

vim mapred-site.xml

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

2. 分发配置

xsync mapred-site.xml

3. 在hadoop102启动历史服务器

mapred --daemon start historyserver

4. 查看效果

在这里插入图片描述

<8>配置日志聚集功能

1. 概念

应用运行完成之后，将程序运行日志信息上换到HDFS系统上。
在这里插入图片描述

2. 好处

方便的查看到程序运行详情，方便开发调试

3. 注意

启动日志聚集功能后，需要重新启动NodeManager、ResourceManager和HistoryServer

4. 步骤

<1>配置yarn-site.xml

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

<2>分发配置

xsync mapred-site.xml

<3>重启NodeManager、ResourceManager和HistoryServer

关闭历史服务器：mapred --daemon stop historyserver
关闭yarn ：sbin/stop-yarn.sh
启动yarn ：sbin/start-yarn.sh
启动 historyserver ：mapred --daemon start historyserver

<4>删除HDFS上已经存在的输出文件

5. 执行WordCount程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput3

6. 查看日志

在这里插入图片描述

<9>集群启动方式总结

1. 各个模块分开启动/停止（配置ssh是前提）

<1>整体启动/停止HDFS系统

start-dfs.sh /stop-dfs.sh

<2>整体启动/停止yarn

start-yarn.sh /stop-yarn.sh

2. 各个服务组件逐一启动/停止

<1>分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

<2>启动/停止YARN

yarn --daemon start/stop  resourcemanager/nodemanager

<10>两个常用脚本

Hadoop集群启动/停止脚本
包括HDFS、Yarn、HistoryServer

cd /home/root/bin 
vim myhadoop.sh

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

chmod +x myhadoop.sh

查看三台服务器Java程序脚本

cd /home/root/bin 
vim jpsall.sh

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

chmod +x jpsall.sh

<11>常见端口号说明

在这里插入图片描述

<12>集群时间同步设置

1. 说明

如果服务器能连接外网，则不需要时间同步
不能连接外网，则需要时间同步

2. 步骤

<1> ntpd

安装ntpd :      yum -y install ntp
查看ntpd状态:  systemctl status ntpd
启动ntpd:      systemctl start ntpd
开机启动ntpd:  systemctl is-enabled ntpd

<2>修改hadoop102配置文件

vim /etc/ntp.conf

修改授权192.168.10.0-192.168.10.255网段上的所有机器可以从这台机器上查询和同步时间

#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
改为restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

修改集群在局域网中，不使用其他互联网上的时间

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
改为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

添加当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步

server 127.127.1.0
fudge 127.127.1.0 stratum 10

修改hadoop102的/etc/sysconfig/ntpd 文件

vim /etc/sysconfig/ntpd

增加内容如下（让硬件时间与系统时间一起同步）

SYNC_HWCLOCK=yes

重新启动ntpd服务

systemctl start ntpd

设置ntpd服务开机启动

systemctl enable ntpd

<3>其他机器配置（必须root用户）

关闭所有节点上ntp服务和自启动

[atguigu@hadoop103 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop103 ~]$ sudo systemctl disable ntpd
[atguigu@hadoop104 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop104 ~]$ sudo systemctl disable ntpd

在其他机器配置1分钟与时间服务器同步一次

[atguigu@hadoop103 ~]$ sudo crontab -e

编写定时任务如下：

*/1 * * * * /usr/sbin/ntpdate hadoop102

修改任意机器时间

[atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"

1分钟后查看机器是否与时间服务器同步

[atguigu@hadoop103 ~]$ sudo date

那时的样子_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Hadoop】——入门：集群搭建

Hadoop 集群搭建
复制链接

扫一扫

专栏目录