今天上课学了spark-yarn的配置
主要其实是配置hadoop/etc/hadoop/yarn-site文件的内容:
/export/servers/hadoop/etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop001</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>10</value>
</property>
</configuration>
要注意的是,前面一个hadoop1需要改成自己的主机名,通常是在集群的第一个机器安装,yarn-site配置好后
xsync到另外两台机器,如果没有xsync脚本文件,详情参考编写集群分发脚本xsync_xsync集群分发脚本-CSDN博客
这个分发脚本特别好用,强推
最后就是到spark-yarn中的conf文件里更改spark.env-sh
原文件名字叫spark-env.sh.template,我们需要删除后缀
执行
mv spark-env.sh.template spark-env.sh
然后vi到文件,添加 JAVA_HOME 和 YARN_CONF_DIR 配置
export JAVA_HOME=/opt/module/jdk1.8.0_144
YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop
配置完成后需要重启yarn和hdfs才可以正常使用