spark源码分析之内核架构篇

最新推荐文章于 2024-07-08 09:57:31 发布

yunhao.wei

最新推荐文章于 2024-07-08 09:57:31 发布

阅读量893

点赞数

分类专栏：数据技术文章标签： spark

本文链接：https://blog.csdn.net/weixin_39478115/article/details/79293375

版权

数据技术专栏收录该内容

82 篇文章 0 订阅

订阅专栏

这里写图片描述
第一步：
在一台具有spark安装包上的机器，通过spark-submit提交Spark程序，也就是我们的Application，通过反射机制创建一个DriverActor的进程（这里所说的提交方式为standalone模式，包括client和cluster模式）
第二步：
Driver进程执行我们的application应用程序，也就是我们的代码。
第三步：
初始化SparkContext对象，最主要的两件事是构建DAGScheduler和TaskScheduler，其中DAGScheduler根据stage划分算法，将job(每次执行到一个action就会创建一个job)划分为多个stage,其中每一个stage创建一个TaskSet。TaskScheduler会通过后台一个进程连接和注册Application到Master，并向Master申请资源，并接受Executor的反注册。
第四步：
Master接受到了TaskScheduler的注册后，会根据自己的资源调度算法，通知Worker为Application启动一个乃至多个Executor，Executor启动后反向注册到TaskScheduler。
第五步：
所有的Executor全部都注册完之后（也就是executor全部都反向注册到了driver上），Driver会结束SparkContext的初始化，继续执行我们的代码。
第六步：
TaskScheduler会根据Task分配算法，将TaskSet中的每一个Task分配到Executor中去执行
第七步：
Executor接收到Task之后，会用TaskRunner来封装Task，也就是将我们代码拷贝、反序列化等，然后从Executor的线程池中取出一条执行此task（之前那些Executor是注册到TaskScheduler上，那么TaskSet中task提交到那些Executor上去执行）
第八步：
Task分为两种类型，一种为ShuffleMapTask，另一种为ResultTask，只有最后一个Stage中是ResultTask，之前的Stage中都是ShuffleMapTask。