Spark内核架构剖析

整个Spark工作流程主要分为两部分:

一、创建SparkContext

1.客户端在提交spark应用的机器提交一个Applicaton程序。

2.通过spark-submit方式在该机器上创建一个Driver(jvm进程)。

3.Driver会执行我们自己编写的Application应用程序,并会在当前机器上初始化SparkContext。

4.SparkContext在初始化的时候,做的最重要的事就是构造出DAGScheduler和TaskScheduler(它拥有自己的后台进程)。

5.TaskScheduler实际上是负责通过它的一个后台进程去连接Master,并向Master机器注册当前的Application程序。

6.Master接受到Application注册的请求之后,会使用自己的资源调度算法,在spark集群的Worker上为这个Application启动多个Executor(jvm进程)。

7.Executor启动之后会自己反向注册到TaskScheduler上去。

8.最终,所有的Executor都会反向注册到Driver上之后,Driver结束SparkContext初始化。会继续执行我们的Application程序的代码。

二、执行job和任务调度

1.执行代码,每执行到一个action算子,就会创建一个job。(一个Application中可以包含多个action和transformation)

2.job会提交给DAGScheduler,DAGScheduler会将job划分为多个stage,然后每个stage创建一个TaskSet。(内部存在一个stage划分算法)

3.将TaskSet提交到TaskScheduler。

4.TaskScheduler会将TaskSet里的每一个task提交到Executor上面执行。(内部有task分配算法)

5.Executor每接受到一个task,都会用TaskRunner来封装task,然后从线程池取出一个线程,执行这个task。(其中TaskRunne是将我们代码中要执行的算子以及函数进行拷贝和反序列化后执行Task.)

注意:

Task有两种,ShuffleMapTask和ResultTask,只有最后一个stage是ResultTask。至此,最终整个spark应用程序的执行,就是stage分批次作为taskset提交到executor执行,每个task针对RDD的一个partition,执行我们定义的算子和函数。以此类推,直到所有操作执行完为止!!!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值