Spark TaskSchedule思想

本文介绍了Spark Standalone模式下任务调度的过程。从启动Spark-shell开始,阐述了DAGScheduler划分Stage后,TaskSchedulerImpl如何通过TaskSetManager管理Task,并详细解析了TaskScheduler与SchedulerBackend之间的交互,包括Task的提交、资源分配策略以及本地性原则。还提到了默认的调度器模式FIFO,以及Task的重试机制和广播任务的限制条件。
摘要由CSDN通过智能技术生成

Standalone模式

1.当启动Spark-shell本身的时候命令终端返回的是ClientEndpoint和SparkDeploySchedulerBackend,这是因为此时还没有任何Job的触发,只是启动Application本身而已,所以只是实例化SparkContext并注册当前的应用程序给Master且从集群获得ExecutorBackend计算资源

2.DAGScheduler划分好Stage后,会通过TaskSchedulerImpl中的TaskSetManager来管理当前要运行的Stage中的所有任务TaskSet,TaskManager会根据locality aware来为Task分配计算资源、监控Task的执行状态(例如重试、慢任务进行推测式执行等)


TaskScheduler与SchedulerBackend

1.总体的底层任务调度的过程如下:

a>TaskSchedulerImpl.submitTasks主要的作用是将TaskSet加入到TaskSetManager中进行管理;

b>SchedulableBuilder.addTaskSetManager: SchedulableBuilder会确定TaskSetManager的调度顺序,然后按照TaskSetManager的locality aware来确定每个Task 具体运行在哪个ExecutorBackend中。

c>CoarseGrainedSchedulerBackend.reviveOffers:给DriverEndpoint发送ReviveOffouers,ReviveOffouers本身是一个空的case object对象,只是起到触发底层资源调度的作用,在有Task提交或计算资源变动的是时候会发送ReviveOffers作为触发器。

d>在DriverEndpoint接受ReviveOffouers并路由到makeOffers具体的方法中,在makeOffers中,首先准备好所有可以用于计算的workOffers(代表了所有可用的ExecutorBackend中可以使用的Cores信息)

e>TaskSchedulerImpl.resourceOffers为每一个Task具体分配计算资源,输入是ExecutorBackend可用的cores,输出是TaskDescription的二维数组,在其中确定了每个Task具体运行在哪个ExecutorBackend;resourceOffers到底是如何确定Task具体运行在哪个ExecutorBackend上的?

  i.通过Random.shuffle方法重新洗牌所有的计算资源以寻求计算的负载均衡

  ii.根据每个ExecutorBackend的cores的个数声明类型为TaskDescription的ArrayBuffer数组

  iii.如果有新的ExecutorBackend分配给我们的Job,此时会调用executorAdded来获得最新的完整的可用计算资源

  iv.通过调用TaskSetManager的resourceOffers最终确定每个Task具体运行在哪个ExecutorBackend的具体的Locality Level

f>通过launchTasks把任务发送给ExecutorBackend去执行


说明:

(1)Task默认的最大重试次数是4次。

(2)Spark应用程序目前支持两种调度器:FIFO、FAIR,可以通过spark-env.sh中的spark.scheduler.mode进行具体的设置;默认情况下是FIFO的模式。

(3)TaskScheduler中要负责为Task分配资源:根据计算本地性原则确定Task具体要运行在哪个ExecutorBankend中,此时程序已经具备集群中的计算资源了。

(4)TaskDescription中已经确定好了Task具体要运行在哪个ExecutorBankend中,而确定Task具体要运行在哪个ExecutorBankend中的算法是由TaskSetManager的resourceOffers决定的。

(5)数据本地优先级从高到低依次为:PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY, 其中NO_PREF是指机器本地性。

(6)每个Task默认是采用一个线程进行计算的。

(7)DAGScheduler是从数据层面考虑preferedLocation的,而TaskScheduler是从具体计算Task角度考虑计算的本地性。

(8)Task进行广播时候,AkkFrameSize大小是128MB,如果任务大于等于128MB-200K的话,则Task会直接被丢弃掉,如果小于128MB-200K的话会通过CoarseGrainedSchedulerBackend去launchTask到具体的ExecutorBackend上。


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值