2.2 Hadoop-MapReduce配置YARN环境

最新推荐文章于 2020-11-30 23:14:26 发布

心雨先生

最新推荐文章于 2020-11-30 23:14:26 发布

阅读量280

点赞数 2

分类专栏：大数据-Hadoop 逐渐了解大数据文章标签： Hadoop yarn

本文链接：https://blog.csdn.net/u011418530/article/details/80331726

版权

53 篇文章 2 订阅

订阅专栏

30 篇文章 1 订阅

订阅专栏

  MapReduce是一个计算框架，可分为5个阶段 

  split-------Map------sort(洗牌)------reduce-----------数据输出 

  1，把需要分析的数据切割成片段，每个数据片段不能超过一个Block块 

  2，Map任务阶段，把切割好的数据片段读进来进行分析，有多少个片段就有多少任务，平行进行 

  3，洗牌阶段，把Map输出的数据进行排序，分组，分区等，不改变数据结构 

  4，reduce阶段，自己写处理代码，默认启动一个 

  5，输出阶段，决定reduce执行结果放哪，默认输出到HDFS某个节点 

  配置YARN环境(/hadoop-2.5.2/etc/hadoop/)： 

 
 mapred-site.xml：复制模版创建 

  <property> 

  <name>mapreduce.framework.name</name> 

  <value>yarn</value> 

  </property> 

 
 yarn-site.xml： 

  <property> 

  <name>yarn.nodemanager.aux-services</name> 

  <value>mapreduce_shuffle</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.ha.enabled</name> 

  <value>true</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.cluster-id</name> 

  <value>cluster1</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.ha.rm-ids</name> 

  <value>rm1,rm2</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.hostname.rm1</name> / 
 /定义resourcemanager服务器 

  <value>node1</value> 
 //自动定义datanode为NodeManager 

  </property> 

  <property> 

  <name>yarn.resourcemanager.hostname.rm2</name> //定义resourcemanager服务器 

  <value>node2</value> 

  </property> 

  <property> 

  <name>yarn.resourcemanager.zk-address</name> 

  <value> 
 node2:4180,node3:4180,node4:4180</value> //注意zookeeper的端口号 

  </property> 

  修改完成，scp到其他几个服务器 

  /hadoop-2.5.2/sbin下 

  start-yarn.sh 
 默认启动所有resourcemanager和datamanager节点，当前启动的服务器为resourcemanager 

  ./yarn-daemon.sh start resourcemanager 单独启动resourcemanager节点 

 
 http://node1:8088/ 访问 

  启动./start-all 需要先启动zookeeper 

关注

专栏目录