spark源码阅读——2. spark-submit流程

最新推荐文章于 2024-04-09 10:14:58 发布

ant_yi

最新推荐文章于 2024-04-09 10:14:58 发布

阅读量343

点赞数 1

分类专栏： spark（scala）文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42490528/article/details/90384071

版权

spark（scala）专栏收录该内容

48 篇文章 3 订阅

订阅专栏

任务提交流程：

几个重要的概念:

Application:用户构建的spark应用程序，包括驱动程序Driver和在工作节点上运行的Executor代码

Driver: 驱动程序，运行Application中的main函数并创建sparkcontext，sc是应用程序的入口

Executor:工作节点上启动的进程，可以运行任务task，也可以在内存或磁盘中保存数据

Task:任务，由Executor执行，spark应用的基本单元

Job:spark是惰性操作，转换操作只记录动作操作才执行，每个action动作操作都是一个job

Stage:每个Job会根据rdd依赖关系（是否有shuffle操作）划分成多个stage，stage的划分是根据DAG图来的。划分stage是为了产生taskSet，每个stage包含了一组task，即taskSet。

总结：每个application按照action划分多个job，每个job按照rdd以来划分多个stage，

每个stage包含一组task任务，交由executor执行

spark-submit：

1. 在客户端执行命令spark-submit，首先此客户端会启动一个驱动程序Driver，用来初始化sparkcontext，因为sc是spark程序的入口。（在哪台机器执行命令的就在哪启动driver，其它机器都叫executor）

2.根据spark相关配置，向Master申请所需的资源，配置的方法包括sparkconf的设置如setMaster，还有spark—submit的设置如——master

比如——master yarn，yarn模式、这就需要向yarn申请相应的资源，还有其他的参数，如需要内存1G、线程1G、cpu核数为2

3. Driver向Master提交任务，Master收到任务信息后进行任务调度，寻找比较空闲的worker节点启动executor进程，执行任务

4. 在执行任务之前，与hadoop一步步执行下去不同，spark会先生成DAG有向无环图，按照rdd的依赖关系将job划分成多个stage，每个stage就是一组task任务taskSet，由executor执行

5. executor接收taskSet后，启动多个线程，每个线程运行一个task

调度器：

1. DAGScheduler调度器：

将DAG图分解为多个stage，此时每个stage包含了一组task，即taskSet

2. TaskScheduler调度器：

接收DAGScheduler发来的taskSet，将其中的task一个个分发到worker节点的executor，

如果某个task运行失败，TaskScheduler会重试；

如果某个task一直运行不完，TaskScheduler会另启一个executor运行这个任务，哪个先运行完用哪个的结果

spark-submit源码：

spark-submit.sh调用的SparkSubmit类

org.apache.spark.deploy.SparkSubmit

spark的logo就在这里，在printVersionAndExit()，我们甚至可以改UI界面

初始化Driver，也就是创建SparkConf和SparkContext，

main函数中

首先获取参数列表，解析我们提交任务时附带的参数args

通过反射拿到我们应用中的目标类，找到这个类的main方法，调用、执行main方法

mainClass=Class.forName(childMainClass)

getMethod("main",...)

mainMethod.invoke()

创建SparkEnv运行环境，用于封装spark运行时的环境对象

创建SparkUI，在SparkUI中定义了我们在UI界面能看到的那些标签

创建TaskScheduler（用来划分task，发送到executor执行）

创建DAGScheduler（用来划分stage）

然后master通知worker启动executor

创建executor时，默认使用尽量打散的方式，尽可能分散，

如果指定core需要5个核，有3台机器，每台机器先给1个核，然后再来两个核。

还有一种，尽量集中的方式，尽量让一台机器提供。

打散方式部署慢GC快，集中方式部署快GC慢。

这期间还会对worker排序，首先得是active的，然后对于空闲的核数高的worker，

使用reverse函数把他反转放在前面。

启动executor。

然后executor向master注册

就是把参数传过去，包括workerHost、workerPort、cores等

stage划分：

划分工作由DAGScheduler完成

submitStage方法会根据依赖关系划分stage，递归的从后往前找，找父RDD，

如果是宽依赖（shuffleDependency），划分stage（newStage方法），

窄依赖就放一边继续找，直到没有父RDD。

最终每个stage就是一个taskSet

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。