【Spark】DAGScheduler源码浅析

最新推荐文章于 2020-07-16 16:06:00 发布

JasonDing1354

最新推荐文章于 2020-07-16 16:06:00 发布

阅读量2.1k

点赞数

分类专栏：【Spark】文章标签： spark

本文链接：https://blog.csdn.net/JasonDing1354/article/details/46895397

版权

本文深入解析Spark的DAGScheduler，包括其主要职责、实例化过程、作业提交与调度的详细步骤，如runJob函数、submitJob函数及handleJobSubmitted函数的工作原理。文章还提及了Stage划分依据及TaskScheduler的角色。后续文章将进一步探讨依赖性分析和Stage源码。

摘要由CSDN通过智能技术生成

DAGScheduler

DAGScheduler的主要任务是基于Stage构建DAG，决定每个任务的最佳位置

记录哪个RDD或者Stage输出被物化

面向stage的调度层，为job生成以stage组成的DAG，提交TaskSet给TaskScheduler执行

重新提交shuffle输出丢失的stage

每一个Stage内，都是独立的tasks，他们共同执行同一个computefunction，享有相同的shuffledependencies。DAG在切分stage的时候是依照出现shuffle为界限的。

DAGScheduler实例化

下面的代码是SparkContext实例化DAGScheduler的过程：

  @volatile private[spark] var dagScheduler: DAGScheduler = _
  try {
    dagScheduler = new DAGScheduler(this)
  } catch {
    case e: Exception => {
      try {
        stop()
      } finally {
        throw new SparkException("Error while constructing DAGScheduler", e)
      }
    }
  }

下面代码显示了DAGScheduler的构造函数定义中，通过绑定TaskScheduler的方式创建，其中次构造函数去调用主构造函数来将sc的字段填充入参：

private[spark]
class DAGScheduler(
    private[scheduler] val sc: SparkContext,
    private[scheduler] val taskScheduler: TaskScheduler,
    listenerBus: LiveListenerBus,
    mapOutputTracker: MapOutputTrackerMaster,
    blockManagerMaster: BlockManagerMaster,
    env: SparkEnv,
    clock: Clock = new SystemClock())
  extends Logging {

  def this(sc: SparkContext, taskScheduler: TaskScheduler) = {
    this(
      sc,
      taskScheduler,
      sc.listenerBus,
      sc.env.mapOutputTracker.asInstanceOf[MapOutputTrackerMaster],
      sc.env.blockManager.master,
      sc.env)
  }

  def this(sc: SparkContext) = this(sc, sc.taskScheduler)

最低0.47元/天解锁文章

JasonDing1354

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Spark】DAGScheduler源码浅析

DAGSchedulerDAGScheduler的主要任务是基于Stage构建DAG，决定每个任务的最佳位置记录哪个RDD或者Stage输出被物化面向stage的调度层，为job生成以stage组成的DAG，提交TaskSet给TaskScheduler执行重新提交shuffle输出丢失的stage 每一个Stage内，都是独立的tasks，他们共同执行同一个compu
复制链接

扫一扫

专栏目录