yarn基本概念
yarn是负责调度mapreduce程序,hdfs是负责存储数据
1、Resource Manager
接受用户提交的分布式计算程序,并为其划分资源
管理、监控各个Node Manager上的资源情况,以便于均衡负载
2、Node Manager
管理它所在机器的运算资源(cpu + 内存)
负责接受Resource Manager分配的任务,创建容器、回收资源
yarn的配置
node manager在物理上应该跟data node部署在一起
resource manager在物理上应该独立部署在一台专门的机器上,这里和namenode配置在同一台物理机上.
1、修改配置文件:
vi yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name> <!-- 配置nodemanager的内存大小 -->
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name> <!-- 配置nodemanager的cpu核数,如果多于物理核心则平均分配-->
<value>2</value>
</property>
</configuration>
2、scp这个yarn-site.xml到其他节点
scp yarn-site.xml root@slave1:$PWD
scp yarn-site.xml root@slave2:$PWD
scp yarn-site.xml root@slave3:$PWD
3、启动yarn集群:start-yarn.sh
(注:该命令应该在resourcemanager所在的机器上执行)
4、用jps检查yarn的进程,用web浏览器查看yarn的web控制台
http://hdp20-01:8088