Spark的TaskScheduler和DagScheduler

Spark的TaskScheduler和DagScheduler

开始研究神奇的spark。会陆续将研究的心得放上来。

在Spark中一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种TaskScheduler(是低级的调度器接口),DagScheduler(是高级的调度)

我们在创建SparkContext对象的时候,sparkcontext内部就会创建TaskScheduler和DagScheduler,奇迹从此就发生了。

其中TaskScheduler和DagScheduler的关系。
  DagScheduler:DagScheduler是一个高级的scheduler 层,他实现了基于stage的调度,他为每一个job都计算stage,跟踪哪一个rdd和stage的输出被物化(固化),以及寻找到执行job的最小的调度,然后他会将stage作为tasksets提交给底层的TaskScheduler,由TaskScheduler执行。
  除了计算stage的DAG图之外,这个调度器会决定运行task的最优的位置,这是根据当前的cache 状态,并且把这些状态传递给TaskScheduler。而且,他会在shuffle的输出出现错误(比如输出文件丢失)的时候处理失败,这时,之前老的stage就需要被重做。对于并不是由于shuffle file的丢失而造成的stage的失败,这中失败由TaskScheduler,此时TaskScheduler会在取消整个stage之前重试几次task,若重试的几次都失败了,那就会取消stage。
  TaskScheduler:每一个taskScheduler只为一个单独的SparkContext进行调度安排tasks,DAGScheduler会为每一个stage向TaskScheduler提交Tasksets(也就是说TaskSets是在DAGScheduler完成组装),TaskScheduler会负责向cluster发送tasks,并且调用backend来运行task。并且在tasks失败的时候,重试,然后会将运行task,重试task的事件返回给DAGScheduler。
所以要研究Spark的任务调度,以及执行,需要从DagScheduler–>TaskScheduler进行研究。

在Spark内部TaskScheduler的种类:
1.TaskSchedulerImpl(该调度器,实现基于moses、local、local-cluster、simr的调度)。该类还支持启动speculative task
2.YarnClientClusterScheduler
3.YarnClusterScheduler
其中YarnClientClusterScheduler和YarnClusterScheduler就是基于Yarn资源调度。

TaskScheduler中实际执行task时会调用Backend.reviveOffers,在spark内有多个不同的backend:
1.LocalBackend
2.SparkDeploySchedulerBackend
3.CoarseGrainedSchedulerBackend
4.MesosSchedulerBackend
5.YarnClientSchedulerBackend
6.SimrSchedulerBackend

参考:
1.Spark官网:https://spark.apache.org/docs/0.9.0
2.Spark源代码
3.白硕:http://baishuo491.iteye.com/
4.http://jerryshao.me/architecture/2013/04/21/Spark源码分析之-scheduler模块/
另:此博客开始,我会在每篇文章中尽量把所有的引用都明确付贴进去,以表示对他人的尊敬。

文章引入:https://yangyoupeng-cn-fujitsu-com.iteye.com/blog/2040748

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark 调度系统主要由 DAGSchedulerSchedulerBackend、ExecutorBackend、TaskScheduler 四个组件构成,它们的作用分别如下: 1. DAGScheduler:将 Spark 应用程序中的每个阶段转换为 DAG(有向无环图),并将 DAG 中的每个阶段拆分为多个任务(Task),以便在集群中执行。 2. SchedulerBackend:负责与集群管理器(如 YARN、Mesos、Standalone)交互,申请资源,并将任务分配给 Executor 进行执行。 3. ExecutorBackend:负责与 SchedulerBackend 通信,接收任务并将其分配给 Executor 进行执行。 4. TaskScheduler:将任务分配给 Executor,并监控任务的执行情况,如果任务执行失败则重新分配任务。 任务调度优先级是指在 Spark 应用程序中,不同类型的任务执行的优先级。Spark 中的任务分为两种类型:ShuffleMapTask 和 ResultTask。ShuffleMapTask 是将数据进行 shuffle 操作的任务,而 ResultTask 是将 shuffle 后的数据进行计算的任务。由于 ShuffleMapTask 消耗的资源比 ResultTask 多,因此 Spark 调度系统会优先调度 ShuffleMapTask,以提高资源利用率和计算效率。此外,可以通过设置属性 `spark.scheduler.mode` 来调整任务调度策略,有 FAIR 和 FIFO 两种模式可选。在 FAIR 模式下,Spark 会按照任务的资源需求和历史执行情况进行调度,以实现公平的资源分配和任务执行;在 FIFO 模式下,Spark 会按照任务提交的顺序进行调度,以保证任务的执行顺序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值