准备条件
由于之前已经搭建好了高可用的完全分布式集群,YARN集群也是搭建在高可用的完全分布式集群之上的,所以直接在之前的集群上操作。如果你还没有搭建高可用的完全分布式集群,可以参考我的上一篇博客《HDFS高可用的完全分布式集群搭建过程》。
YARN集群规划
实验步骤
1、在node01进入hadoop的安装目录下的/opt/hadoop/hadoop-2.7.5/etc/hadoop
(供参考)目录下,将mapred-site.xml.template文件通过 mv mapred-site.xml.template mapred-site.xml 命令修改为mapred-site.xml文件。如下图:
然后在该文件内修改配置参数:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
2、在node01同目录下配置yarn-site.xml文件
将如下参数填到该配置文件,步骤同上。
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>cluster1</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>node01</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>node02</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>node02:2181,node03:2181,node04:2181</value>
</property>
3、在node02、node03、node04分别配置这两个配置文件。
4、在node01上启动yarn。
5、在另外一个节点上单独启动(node02)。
命令:yarn-daemon.sh start resourcemanager
6、在node01启动hdfs
命令:start-dfs.sh
7、对搭建的yarn集群进行测试
先在hdfs集群上创建/input目录,hdfs dfs -mkdir /input
在本地创建一个含多个单词的文本文件,再上传到服务器
进入/opt/hadoop/hadoop-2.7.5/share/hadoop/mapreduce
(参考)目录,运行命令:
hadoop jar hadoop-mapreduce-examples-2.7.5.jar wordcount /input /output
运行成功后会在hdfs根目录下创建一个output目录,输出该目录下的文件可以看到文本文档里面的单词被分别统计出来了,结果如下图:
8、集群搭建测试成功咯,也可以通过node01:8088在网页中查看,如下图: