Apache Spark on Yarn集群多Application并行执行
在工作中遇到向Spark集群提交多个任务,并且这些任务是需要同时执行的。但是遇到很多错误,所以把遇到的问题记录下来。
- 修改hadoop/etc/hadoop/yarn-site.xml文件
需要添加的配置
<property>
<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
<value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>
<property>
<name>yarn.scheduler.fair.allocation.file</name>
<value>/usr/local/spark/conf/fairscheduler.xml</value>
</property>
暂时先写这么多,剩下的原理后续慢慢梳理。