Spark工作机制

最新推荐文章于 2024-06-05 19:37:53 发布

Dream__Sky_

最新推荐文章于 2024-06-05 19:37:53 发布

阅读量747

点赞数 2

本文链接：https://blog.csdn.net/Dream__Sky_/article/details/79834364

版权

spark作业：

Application ：用户自定义的spark程序。用户提交后，spark为app分配资源将程序转换并执行。

Driver Program ：运行Application的main()函数并创建SparkContext。

RDD DAG ：当RDD遇到Action算子，将之前的所有算子形成一个有向无环图(DAG)。再在Spark中转化为job，提交到集群进行执行。一个app中可包含多个job。

Job ：一个RDD Graph触发的作业，往往由Spark Action算子触发，在SparkContext中通过runJob方法像Spark提交Job。
 Stage ： DAG Scheduler为每个Job会根据RDD宽窄依赖关系被切分很多个Stage，每个Stage中包含一组相同的Task，这一组Task也叫TaskSet。

Task ：一个分区对应一个Task，Task执行RDD中对应Stage中包含的算子。Task Scheduler将Task封装后放入Executor的线程池中之行。执行模式分为：FIFO(先进先出)与FAIR(公平调度)两种模式。

总结：

job，stage，task之间的关系：

Job，Stage，Task是Spark任务执行流程中的三个基本单位。其中Job是最大的单位，Job是Spark应用的action算子催生的；stage是由job拆分，在单个job内是根据shuffle算子来拆分stage的，单个stage内部可以根据操作数据的分区数划分多少个task。

一个application会启动一个Driver Program，Driver Program会启动多个job，一个job中又会根据RDD的依赖关系切分成不同的stage，stage之间形成一个DAG，DAG的每一个节点是一个stage，每个stage会生成一组TaskSet任务集，每一个Task对应一个block，在block块上执行

Dream__Sky_

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark工作机制

spark作业：Application ：用户自定义的spark程序。用户提交后，spark为app分配资源将程序转换并执行。Driver Program ：运行Application的main()函数并创建SparkContext。RDD DAG ：当RDD遇到Action算子，将之前的所有算子形成一个有向无环图(DAG)。再在Spark中转化为job，提交到集群进行执行。一个app中可包...
复制链接

扫一扫