30天搞定spark源码系列-Job，stage，task区别

最新推荐文章于 2024-05-11 23:25:53 发布

枫叶的落寞

最新推荐文章于 2024-05-11 23:25:53 发布

阅读量463

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/u013220482/article/details/106231720

版权

10 篇文章 1 订阅

订阅专栏

阅读本篇文章，你应该得到spark面试中的这几个问题的答案：

1、概念关系图

在这里插入图片描述
其实这几个概念的理解有个比较好的思路，从stage下手；
spark在任务调度这块，将stage作为核心概念，向下：stage是一系列task的集合；向上：多个stage构成一个job，而划分job的依据是遇到action类型的算子就划分一个job；

在这里插入图片描述
简单提炼一下主要的意思：

调度层就是一个有向的stage依赖图调度；
对每一个job计算一个stage依赖DAG图并且这个图保持RDD之间的依赖，在遇到一个可以物化的输出（action算子）时就划分为一个job，保证每个job里面拥有一个最小的可执行的调度模块；
job划分完成后，将一系列的stage作为task的集合（taskset）提交到集群上并在task任务调度下进行具体的执行；
一个taskset是完全独立不依赖其他的任务，并且可以在集群数据上立即执行；

在这里插入图片描述
这些注释更加明确的显示了job的划分依据，在整个依赖图遇到action算子就会通过submitJob方法提交一个job

提交一个action类型的job函数：
在这里插入图片描述
图中红色框圈选出来的分别为函数的输入和输出：
输入包含rdd，对rdd的每一个partition执行的function，失败的位置，成功结果的操作器以及一些配置；
返回值是对于这个job的同步等待器！

在这里插入图片描述
简单提炼一下主要思想：

图中标注的就是stage的划分依据：spark stage是被RDD DAG图中的shuffle边界划分的，简单来说，如果你的程序中出现了shuffle，那么就会以shuffle为界限，前面的构成一个stage，shuffle后的DAG构成一个stage；
对于窄依赖的算子，比如map，filter会形成很多的task，这些task会放到一个stage中；
对于具有shuffle类型的依赖，也就是宽依赖的话，整个DAG会形成多个stage，典型的是一个写map的输出，一个读map结果并shuffle；
整体来看，不同stage之间是以shuffle依赖来进行连接；