【hadoop】集群配置

返返返

已于 2023-03-11 22:20:37 修改

阅读量254

点赞数

分类专栏：大数据开发文章标签： hadoop 大数据

于 2023-03-11 22:15:20 首次发布

本文链接：https://blog.csdn.net/qq_70770395/article/details/129464571

版权

大数据开发专栏收录该内容

25 篇文章 1 订阅

订阅专栏

本文介绍了如何使用脚本循环复制文件到Hadoop集群的所有节点，并详细展示了Hadoop的配置文件设置，包括core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml等。此外，还提到了SSH免密登录的配置以及启动HDFS和YARN集群的步骤。

摘要由CSDN通过智能技术生成

设置分发脚本

作用：循环复制文件到所有节点的相同目录下

脚本需要放在声明了全局环境变量的路径

echo $PATH

cd /home/用户
mkdir bin
cd bin
vim xsync

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
 echo ==================== $host ====================
 #3. 遍历所有目录，挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done

chmod +x xsync
xsync /home/atguigu/bin
将脚本复制到/bin 中，以便全局调用
sudo cp xsync /bin/   
同步环境变量配置（root 所有者）
sudo ./bin/xsync /etc/profile.d/my_env.sh
如果用了 sudo，那么 xsync 一定要给它的路径补全。
source /etc/profile

设置ssh免密登录

【Linux】ssh免密登录_岱宗夫如何、的博客-CSDN博客

部署规划

配置文件

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认

配置值时，才需要修改自定义配置文件，更改相应属性值

（ 1 ）默认配置文件：

cd $HADOOP_HOME/share/hadoop

cores-site.xml : 负责全局的配置（common）

hdfs-site.xml：负责hdfs的配置

mapred-site.xml: 负责mapreduce的配置

yarn-site.xml:负责yarn的配置

(2 ）自定义配置文件：

core-site.xml 、 hdfs-site.xml 、 yarn-site.xml 、 mapred-site.xml 四个配置文件存放在

$HADOOP_HOME/etc/hadoop 这个路径上，用户可以根据项目需求重新进行修改配置。

配置集群

core-site.xml

cd $HADOOP_HOME/etc/hadoop

vim core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 NameNode 的地址 -->
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://hadoop102:8020</value>
 </property>
 <!-- 指定 hadoop 数据的存储目录 -->
 <property>
 <name>hadoop.tmp.dir</name>
 <value>/opt/module/hadoop-3.1.3/data</value>
 </property>
 <!-- 配置 HDFS 网页登录使用的静态用户为 atguigu -->
 <property>
 <name>hadoop.http.staticuser.user</name>
 <value>atguigu</value>
 </property>
</configuration>

hdfs-site.xml

vim hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- nn web 端访问地址-->
<property>
 <name>dfs.namenode.http-address</name>
 <value>hadoop102:9870</value>
 </property>
<!-- 2nn web 端访问地址-->
 <property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>hadoop104:9868</value>
 </property>
</configuration>

yarn-site.xml

vim yarn-site.xml

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <!-- 指定 MR 走 shuffle -->
 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 <!-- 指定 ResourceManager 的地址-->
 <property>
 <name>yarn.resourcemanager.hostname</name>
 <value>hadoop103</value>
 </property>
 <!-- 环境变量的继承 -->
 <property>
 <name>yarn.nodemanager.env-whitelist</name>
 
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOME</value>
 </property>


<!-- 开启日志聚集功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property> 
 <name>yarn.log.server.url</name> 
 <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

</configuration>

mapred-site.xml

vim mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
</configuration>

分发配置文件

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

配置workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

xsync /opt/module/hadoop-3.1.3/etc

启动集群

第一次启动需要格式化NameNode

hdfs namenode -format

会产生新的集群id。NameNode和DataNode集群id不一致，会找不到之前的数据。

如果需要格式化Namenode,先停掉namenode 和 datanode 进程，删除所有机器的data和logs目录。

启动HDFS

sbin/start-dfs.sh

在配置了 ResourceManager 的节点（ hadoop103 ）启动 YARN

sbin/start-yarn.sh

Web 端查看 HDFS 的 NameNode

http://hadoop102:9870

mapred --daemon start historyserver

Web 端查看 YARN 的 ResourceManager

http://hadoop103:8088

配置历史服务器

cd /opt/module/hadoop-3.1.3/etc/hadoop

vim mapred-site.xml

<!-- 历史服务器端地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>hadoop102:19888</value>
</property>

xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

http://hadoop102:19888/jobhistory

来源：Hadoop权威指南 Tom Wbite著

b站尚硅谷

返返返

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录