Spark 源码解析 : DAGScheduler中的DAG划分与提交

最新推荐文章于 2025-06-05 21:10:03 发布

置顶

听风的蜗牛

最新推荐文章于 2025-06-05 21:10:03 发布

阅读量6.6k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： spark内核文章标签： spark 源码解析 DAGScheduler DAG 任务

本文链接：https://blog.csdn.net/zhouzx2010/article/details/51965196

本文详细介绍了Spark运行架构，重点解析了DAGScheduler如何根据RDD之间的依赖关系形成DAG，并进行Stage划分。在Action触发后，DAGScheduler提交TaskSet给TaskScheduler。接着，深入探讨了DAGSchedulerEventProcessLoop的角色，以及DAGScheduler在handleJobSubmitted方法中创建ResultStage和提交Stage的过程。最后，简述了Stage提交的逻辑，为后续TaskSet的提交和TaskScheduler的调度打下基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Spark 运行架构

  Spark 运行架构如下图： 

  各个RDD之间存在着依赖关系，这些依赖关系形成有向无环图DAG，DAGScheduler对这些依赖关系形成的DAG，进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。完成了Stage的划分,DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskScheduler 负责具体的task调度,在Worker节点上启动task。 

 
 二、源码解析：DAGScheduler中的DAG划分 

 
     当RDD触发一个Action操作（如：colllect）后，导致SparkContext.runJob的执行。而在SparkContext的run方法中会调用DAGScheduler的run方法最终调用了DAGScheduler的submit方法：

 
       def submitJob[T, U](
    
           rdd: RDD[T],
    
           func: (TaskContext, Iterator[T]) => U,
    
           partitions: Seq[Int],
    
           callSite: CallSite,
    
           resultHandler: (Int, U) => Unit,
    
           properties: Properties): JobWaiter[U] = {
        
         // Check to make sure we are not launching a task on a partition that does not exist.
    
         val maxPartitions = rdd.partitions.length
    
         partitions.find(p => p >= maxPartitions || p < 0).foreach {
        
         p =>
    
           throw new IllegalArgumentException(
    
             "Attempting to access a non-existent partition: " + p + ". " +
    
               "Total number of partitions: " + maxPartitions)
    
         }
    
         val jobId = nextJobId.getAndIncrement()
    
         if (partitions.size == 0) {
        
           // Return immediately if the job is running 0 tasks
    
           return new JobWaiter[U](this, jobId, 0, resultHandler)
    
         }
    
         assert(partitions.size > 0)
    
         val func2 = func.asInstanceOf[(TaskContext, Iterator[_]) => _]
    
         val waiter = new JobWaiter(this, jobId, partitions.size, resultHandler)
    
         //给eventProcessLoop发送JobSubmitted消息
    
         eventProcessLoop.post(JobSubmitted(
    
           jobId, rdd, func2, partitions.toArray, callSite, waiter,
    
           SerializationUtils.clone(properties)))
    
         waiter