大数据Hadoop笔记(2)：Hadoop集群搭建

最新推荐文章于 2024-10-02 08:23:00 发布

Charmot

最新推荐文章于 2024-10-02 08:23:00 发布

阅读量125

点赞数

分类专栏：大数据文章标签： hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/qq_20537963/article/details/129508218

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了使用rsync.sh脚本在多台机器上同步文件，配置Hadoop集群的步骤，包括免密登录设置、核心配置文件如core-site.xml、hdfs-site.xml等的修改，以及集群的初始化、启动和监控。此外，还提到了集群启动脚本的编写，以及处理常见问题如版本不一致和进程清理。

摘要由CSDN通过智能技术生成

搭建集群

分发文件脚本rsync.sh：可以在一台机器上将文件同时分配给多台机器，相当于批量更新文件

#rsync

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop202 hadoop203 hadoop204
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

配置免密登录

[atguigu@hadoop202 ~] ssh-keygen -t rsa
[atguigu@hadoop202 ~] ssh-copy-id hadoop202

指定自定义配置文件

core-site.xml

    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop202:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.2.3/data</value>
    </property>

hdfs-site.xml

<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop202:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop204:9868</value>
    </property>

yarn-site.xml

<!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop203</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>

mapred-site.xml

<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

配置workers

[atguigu@hadoop202 ~] vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

集群初始化

（1）如果集群是第一次启动，需要在hadoop202节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

[atguigu@hadoop202 hadoop-3.1.3]$ hdfs namenode -format

（2）启动HDFS

[atguigu@hadoop202 hadoop-3.1.3]$ sbin/start-dfs.sh

（3）在配置了ResourceManager的节点（hadoop203）启动YARN

[atguigu@hadoop203 hadoop-3.1.3]$ sbin/start-yarn.sh

（4）Web端查看HDFS的NameNode

（a）浏览器中输入：http://hadoop202:9870

-（b）查看HDFS上存储的数据信息

（5）Web端查看YARN的ResourceManager

-（a）浏览器中输入：http://hadoop203:8088

-（b）查看YARN上运行的Job信息

问题：只能下载不能预览

必须要配置主机名与ip地址的映射，否则会出问题

版本号

NameNode和DataNode，及对应的版本号

不同的两本账！不一致直接挂掉

	hadoop202	hadoop203	hadoop204
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

集群启动脚本

利用ssh远程连接依次启动每台机器的服务

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop202 "/opt/module/hadoop-3.2.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop203 "/opt/module/hadoop-3.2.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop202 "/opt/module/hadoop-3.2.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop202 "/opt/module/hadoop-3.2.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop203 "/opt/module/hadoop-3.2.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop202 "/opt/module/hadoop-3.2.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

统一查看脚本

#!/bin/bash

for host in hadoop202 hadoop203 hadoop204
do
        echo =============== $host ===============
        ssh $host jps 
done

常用端口号说明

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020 / 9000	8020 / 9000 / 9820
NameNode HTTP UI	50070	9870
YARN、MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888