Spark TaskSchedule思想

最新推荐文章于 2024-01-29 15:27:28 发布

u013063153

最新推荐文章于 2024-01-29 15:27:28 发布

阅读量1.2k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/u013063153/article/details/54571502

版权

Spark 专栏收录该内容

138 篇文章 6 订阅

订阅专栏

本文介绍了Spark Standalone模式下任务调度的过程。从启动Spark-shell开始，阐述了DAGScheduler划分Stage后，TaskSchedulerImpl如何通过TaskSetManager管理Task，并详细解析了TaskScheduler与SchedulerBackend之间的交互，包括Task的提交、资源分配策略以及本地性原则。还提到了默认的调度器模式FIFO，以及Task的重试机制和广播任务的限制条件。

摘要由CSDN通过智能技术生成

Standalone模式

1.当启动Spark-shell本身的时候命令终端返回的是ClientEndpoint和SparkDeploySchedulerBackend，这是因为此时还没有任何Job的触发，只是启动Application本身而已，所以只是实例化SparkContext并注册当前的应用程序给Master且从集群获得ExecutorBackend计算资源

2.DAGScheduler划分好Stage后，会通过TaskSchedulerImpl中的TaskSetManager来管理当前要运行的Stage中的所有任务TaskSet，TaskManager会根据locality aware来为Task分配计算资源、监控Task的执行状态（例如重试、慢任务进行推测式执行等）

TaskScheduler与SchedulerBackend

1.总体的底层任务调度的过程如下：

a>TaskSchedulerImpl.submitTasks主要的作用是将TaskSet加入到TaskSetManager中进行管理；

b>SchedulableBuilder.addTaskSetManager: SchedulableBuilder会确定TaskSetManager的调度顺序，然后按照TaskSetManager的locality aware来确定每个Task 具体运行在哪个ExecutorBackend中。

c>CoarseGrainedSchedulerBackend.reviveOffers:给DriverEndpoint发送ReviveOffouers，ReviveOffouers本身是一个空的case object对象，只是起到触发底层资源调度的作用，在有Task提交或计算资源变动的是时候会发送ReviveOffers作为触发器。

d>在DriverEndpoint接受ReviveOffouers并路由到makeOffers具体的方法中，在makeOffers中，首先准备好所有可以用于计算的workOffers（代表了所有可用的ExecutorBackend中可以使用的Cores信息）

e>TaskSchedulerImpl.resourceOffers为每一个Task具体分配计算资源，输入是ExecutorBackend可用的cores，输出是TaskDescription的二维数组，在其中确定了每个Task具体运行在哪个ExecutorBackend；resourceOffers到底是如何确定Task具体运行在哪个ExecutorBackend上的?

i.通过Random.shuffle方法重新洗牌所有的计算资源以寻求计算的负载均衡

ii.根据每个ExecutorBackend的cores的个数声明类型为TaskDescription的ArrayBuffer数组

iii.如果有新的ExecutorBackend分配给我们的Job，此时会调用executorAdded来获得最新的完整的可用计算资源

iv.通过调用TaskSetManager的resourceOffers最终确定每个Task具体运行在哪个ExecutorBackend的具体的Locality Level

f>通过launchTasks把任务发送给ExecutorBackend去执行

说明：

（1）Task默认的最大重试次数是4次。

（2）Spark应用程序目前支持两种调度器:FIFO、FAIR，可以通过spark-env.sh中的spark.scheduler.mode进行具体的设置；默认情况下是FIFO的模式。

（3）TaskScheduler中要负责为Task分配资源：根据计算本地性原则确定Task具体要运行在哪个ExecutorBankend中，此时程序已经具备集群中的计算资源了。

（4）TaskDescription中已经确定好了Task具体要运行在哪个ExecutorBankend中，而确定Task具体要运行在哪个ExecutorBankend中的算法是由TaskSetManager的resourceOffers决定的。

（5）数据本地优先级从高到低依次为：PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY, 其中NO_PREF是指机器本地性。

（6）每个Task默认是采用一个线程进行计算的。