Spark调度系统——概述

最新推荐文章于 2022-08-01 12:53:02 发布

拾荒路上的开拓者

最新推荐文章于 2022-08-01 12:53:02 发布

阅读量658

点赞数

分类专栏： Spark Spark 2.1.0源码剖析

本文链接：https://blog.csdn.net/LINBE_blazers/article/details/90646829

版权

Spark 同时被 2 个专栏收录

59 篇文章 3 订阅

订阅专栏

Spark 2.1.0源码剖析

18 篇文章 2 订阅

订阅专栏

简单来讲，Spark调度系统用于将用户提交的“任务”调度到集群中的不同节点执行。但是Spark实现的调度系统，并非一句话所概括的这么简单。Spark资源调度分为两层：第一层是Cluster Manager（在YARN模式下为ResourceManager，在Mesos模式下为Mesos Master，在Standalone模式下为Master），将资源分配给Application；第二层是Application，进一步将资源分配给Application的各个Task。本文章主要介绍的调度系统只限于第二层。

调度的对象是什么？作业或任务。向Spark提交一个任务，Spark会交其看为一个作业（Job）。Spark首先会对Job进行一系列RDD转换，并通过RDD之间的依赖关系构建有向无环图，然后根据RDD依赖的不同将RDD划分到不同的阶段（Stage），每个阶段按照分区（Partition）的数据创建多个任务（Task），最后将这些任务提交到集群的各个运行节点上运行。

Spark调度系统主要由DAGScheduler和TaskScheduler构成：

其工作流程如下：

1）build operator DAG：用户提交的Job将首先被转换为一系列RDD并通过RDD之间的依赖关系构建DAG，然后将RDD构成的DAG提交到调度系统。
2）split graph into stage of tasks：DAGScheduler负责接收由RDD构成的DAG，将一系列RDD划分到不同的Stage。根据Stage的不同类型（目前有ResultStage和ShuffleMapStage两种），给Stage中未完成的Partition创建不同类型的Task。每个Stage将因为未完成Partition的多少，创建零到多个Task。DAGScheduler最后将每个Stage中的Task以任务集合（TaskSet）的形式提交给TaskScheduler继续处理。
3）launch tasks via cluster manager：使用集群管理器（cluster manager）分配资源与任务调度，对于失败的任务还会有一定的重试与容错机制。TaskScheduler负责从DAGScheduler接收TaskSet，创建TaskSetManager对TaskSet进行管理，将将此TaskSetManager添加到调度池中，最后将对Task的调度交给到调度后端接口（SchedulerBackend）处理。SchedulerBackend首先申请TaskScheduler，按照Task调度算法（目前有FIFO和FAIR两种）对调度池中的所有TaskSetManager进行排序，然后对TaskSet按照最大本地性原则分配资源，最后在各个分配的节点上运行TaskSet中的Task。
4）execute tasks：执行任务，并将任务中间结果和最终结果存入存储体系。

上述的4个步骤中，严格来讲只有第2步和第3步属于调度系统的范畴，第1步是将作业提交给调度系统前的准备工作，第4步也和调度系统有很多关系，例如，map任务执行成功后将唤醒下游的reduce任务。