基于Yarn运行spark应用的进程分析

最新推荐文章于 2022-03-25 14:06:12 发布

reylee911

最新推荐文章于 2022-03-25 14:06:12 发布

阅读量1.9k

点赞数 1

分类专栏： spark hadoop

本文链接：https://blog.csdn.net/github_26054561/article/details/46378007

版权

hadoop 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

spark

4 篇文章 0 订阅

订阅专栏

首先配置HADOOP_CONF_DIR或者YARN_CONF_DIR指向hadoop集群，从而可以调用Yarn的资源管理器。

两种模式：

1，Yarn-client：

Spark driver运行在client进程中，只是利用AM(applicationMaster)向Yarn的资源管理模块申请资源。

运行此种模式只需指定参数yarn-client即可，例如：

[root@lr spark]# ./bin/spark-submit --class org.apache.spark.examples.SparkPi     --master yarn-client     --num-executors 3     --driver-memory 1g     --executor-memory 1g     --executor-cores 1         lib/spark-examples*.jar     10

准备spark driver运行环境，启动sparkContext，

AM向Yarn申请资源：

客户端提交任务：

Spark 任务开始执行，启动DAGScheduler, TaskSetManager:

启动executors:

任务结束，按如下顺序退出：

DAGScheduler à executors à MapOutTrackerActor à BlockManagerMaster à sparkContext

通过监视yarn-client模式下spark应用进程，可以看到进程启动以此如下：

SparkSubmit àExecutorLauncherà CoarseGrainedExecutorBackend

执行进程详情：

[root@lrspark]# jps
992CoarseGrainedExecutorBackend
644 SparkSubmit
12085ResourceManager
14742 Nailgun
11846DataNode
857ExecutorLauncher
988CoarseGrainedExecutorBackend
12190NodeManager
990CoarseGrainedExecutorBackend
11742NameNode

2，Yarn-cluster：

Spark driver运行在Yarn 的AM（application master）进程中，spark终端进程提交任务后便等待任务完成，定期检查任务状态。

运行此种模式只需指定参数yarn-cluster,示例：

[root@lr spark]# ./bin/spark-submit --classorg.apache.spark.examples.SparkPi    --master yarn-cluster     --num-executors 3     --driver-memory 1g     --executor-memory 1g     --executor-cores 1         lib/spark-examples*.jar     10

YARN首先为AM设置container来接受spark任务，

Spark客户端进程提交任务：

Spark客户端检查任务状态：

Spark任务结束，客户端退出：

通过监视yarn-cluster模式下spark应用进程，可以看到进程启动以此如下:

sparkSubmit --> ApplicationMaster--> CoarseGrainedExecutorBackend

执行进程详情：

[root@lrspark]# jps
2149CoarseGrainedExecutorBackend
12085ResourceManager
2117CoarseGrainedExecutorBackend
14742Nailgun
11846DataNode
2170 Jps
12190NodeManager
2126CoarseGrainedExecutorBackend
11742NameNode
1902ApplicationMaster
1583SparkSubmit

结论：

通过上述分析，可以看出yarn-client和yarn-cluster模式的主要区别就是谁负责spark应用的执行，yarn-client用ExecutorLauncher，而yarn-cluster用Yarn的ApplicationMaster。当然相同之处就是都通过Yarn的resourceManager分配资源，而且最终都是通过CoarseGrainedExecutorBackend粗粒度调度执行。

参考http://spark.apache.org/docs/latest/running-on-yarn.html