Spark Job调度流程

最新推荐文章于 2024-05-03 22:20:58 发布

飞Link

最新推荐文章于 2024-05-03 22:20:58 发布

阅读量528

点赞数 1

分类专栏：大数据文章标签：大数据 spark 数据仓库

本文链接：https://blog.csdn.net/feizuiku0116/article/details/121483751

版权

大数据专栏收录该内容

201 篇文章 11 订阅

订阅专栏

Spark Application应用的用户代码都是基于RDD的一系列计算操作，实际运行时，这些计算操作是Lazy执行的，并不是是所有的RDD操作都会触发Spark往Cluster上提交实际作业，基本上只有一些需要返回数据或者向外部输出的操作才会触发实际计算工作（Action算子），其他的变换操作基本上只是生成对应的RDD记录依赖关系（Transformation算子）
当启动Spark Application的时候，运行MAIN函数，首先创建SparkContext对象（构建DAGScheduler和TaskScheduler）。
- 第一点：DAGScheduler实例对象
  - 将每个Job的DAG图划分为Stage，一句RDD之间的依赖为宽依赖（产生Shuffle）
- 第二点：TaskScheduler实例对象
当RDD调用Action函数（比如count、saveTextFile或foreachPartition）时，触发一个Job执行，调度中流程如下图所示：
Spark RDD通过其Transactions操作，形成了RDD血缘关系图，即DAG，最后通过Action的调用，触发Job并调度执行。
- DAGScheduler负责Stage级的调度，主要是将DAG切分成若干Stages，并将每个Stage打包成TaskSet交给TaskScheduler调度
- TaskScheduler负责Task级的调度，将DAGScheduler给过来的TaskSet按照规定的调度策略分发到Executor上执行，调度过程中SchedulerBackend负责提供可用资源，其中SchedulerBackend有多种实现，分别对接不同的资源管理系统
Spark的任务吊物总提来说分两路进行，一路是Stage级的调度，一路是Task级的调度。
一个Spark应用程序包括Job、Stage及Task：
- 第一：Job是以Action方法为界，遇到一个Action方法则触发一个Job
- 第二：Stage是Job的自己，以RDD宽依赖（即Shuffle）为界，遇到Shuffle做一次划分
- 第三：Task是Stage的自己，以并行度（分区数）来衡量，分区数是多少，则有多少个task