准备工作:[HDFS的安装配置及常见问题]
Hadoop基础-Yarn的基本配置详细过程
详细过程转载至: XW大数据技术学习探讨
大数据系统和分布式系统的参数配置是一个很依赖经验和技巧的工作,后续会详细的讲解如何通过参数配置进行性能优化。为了简单起见,本文和以前的文章HDFS的安装配置一样,只讨论最简单的基本配置。
本文首先讨论了Yarn的背景知识,接着介绍详细的配置配置,最后介绍启动的操作。
一、预备知识
1.1 Yarn的角色及其在系统栈中的位置
图1-1描述了Yarn在系统栈中的位置, Yarn的两个角色是ResourceManager和NodeManager。需要注意的是HDFS和Yarn正常启动但无程序执行时,系统中并不存在AppMaster(ApplicationMaster)、MapTask和ReduceTask这样的进程。
在Hadoop1.x中,关于MapReduce的所有配置参数(资源分配和任务调度)都在mapred-site.xml。Hadoop2.0引入Yarn组件以后,对应也增加了配置文件,关于资源分配的配置项都在yarn-site.xml中配置。
1.2 Yarn的角色和交互
如图1-2所示,有三个主要交互需要详细说明。
- Client 向ResourceManager(RM)提交作业,RM为该作业启动 AppMaster。在作业执行过程中,Client也可以通过RM结束作业。
- AppMaster(ApplicationMaster)向ResourceManager申请作业需要的计算资源(一组容器),计算任务结束后向RM登记释放容器的资源。
- NodeManager向ResourceManager汇报节点状态,领取待执行的任务。
二、Yarn的基本配置
和HDFS的安装配置一样,先配置好主节点,然后将配置文件远程拷贝到每个从节点。此处重点关注两个配置文件。
图1-3中红色部分代表与Yarn相关的配置文件和执行脚本。与资源管理和分配相关的参数在yarn-site.xml中配置,与MapReduce编程模型相关的参数配置在mapred-site.xml中。start-yarn.sh和stop-yarn.sh分别代表启动和停止Yarn。
2.1 配置mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
/*该配置项表示使用Yarn框架来管理MapReduce程序*/
2.2 配置yarn-site.xml
关于Yarn的基本配置项有六个参数,表1-1描述了这些参数的名字和对应的物理意义。
表1-1基本参数配置项及其意义
-----yarn-site.xml 具体配置内容如下----
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>westgis101:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>westgis101:8030</value>
</property>
<property>
<name>yarn.nodemanager.resource-tracker.address</name>
<value>westgis101:8031</value>
</property>
<property>
<name>yarn.nodemanager.memory-mb</name>
<value>16GB</value>
</property>
<property>
<name>yarn.nodemanager.cpu-vcores</name>
<value>8</value>
</property>
</configuration>
---yarn-site.xml 具体配置内容------
/*此处westgis101为ResourceManager所在节点的机器名*/
/*最后两个配置参数要考虑其它守护进程也需要CPU和内存,不能100%都给Yarn*/
三、集群的操作和查看
3.1 启动集群
$HADOOP_HOME/sbin/start-dfs.sh
$HADOOP_HOME/sbin/start-yarn.sh
3.2 查看集群
HDFS
http://wetgis101:50070
/*westgis101为NameNode所在节点的机器名*/
YARN
http://wetgis101:8088
/*westgis101为ResourceManager所在节点的机器名*/
3.3 停止集群
$HADOOP_HOME/sbin/stop-yarn.sh
$HADOOP_HOME/sbin/stop-dfs.sh
具体实验步骤如下:
1、修改hadoop中etc/hadoop目录下mapred-site.xml文件 ,在标签中添加以下配置(略):
修改后的配置信息如下图所示:
2、修改hadoop中etc/hadoop/目录下的yarn-site.xml文件,在标签中添加以下配置:
3,、启动HDFS和YARN进行测试配置情况。
$HADOOP_HOME/sbin/start-dfs.sh ; $HADOOP_HOME/sbin/start-yarn.sh
4、输入进入192.168.74.31:8088(自己配置的静态IP)出现如下界面,说明配置启动成功。