需要在mapred-site.xml文件中配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
在yarn-site.xml中配置yarn的ResourceManager节点地址以及其他的NodeManager节点:(这里暂时没给出node节点配置)
<property>
<!--yarn也是可以集群的,这个resourcemanager是用于配置集群的主节点-->
<!--yarn的RM的默认端口是多少?-->
<name>yarn.resourcemanager.hostname</name>
<value>47.106.181.93</value>
</property>
<!--用于配置yarn的普通节点,在数据调度的时候采用什么机制,这里采用的是mapreduce_shuffle机制,yarn数据调用是什么意思?比如mapreduce时,map阶段完成,此时需要把map的结果进行reduce,那么就要把map的结果数据传输到reduce运行的节点,并且对数据怎么分类传输,分组还是什么的,就由该机制决定了-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
当使用hadoop jar xx.jar com.xxx.WCRunner运行该jar的job,或者在windows本地直接运行main方法提交job时,
如果没有配置上面的属性,则不在集群中运行mapreduce,而是直接单机运行,此时只需要有文件系统就行(本地文件系统或者hdfs);
如果配置了上面的属性,那么就会使用属性中指定的yarn集群运行mapreduce程序。。当然如果不是在linux中使用hadoop jar命令运行,而是直接在windows用idea运行main方法,那么还需要配置其他的东西才能成功,具体参考:https://mp.csdn.net/postedit/91358435