spark提交job任务,源码分步骤拆解

本文详细介绍了Spark作业提交的整个流程,包括任务提交、DAG图创建、计算Task运行的最佳位置以及TaskSet的创建。从driver进程的创建到executor的启动,再到DAGScheduler如何拆解任务为DAG图,以及TaskScheduler如何根据stage划分taskset并提交到executor执行。文章深入到源码层面,解析每个关键步骤的具体实现。
摘要由CSDN通过智能技术生成

流程

  1. spark客户端提交job
  2. 通过反射创建driver进程
  3. driver创建sparkContext对象
  4. 初始化sparkContext过程中,构建DAGScheduler和TaskScheduler
  5. TaskScheduler根据后台进程去连接Master向Master注册Application
  6. Master接收到Application的注册后,根据资源调度算法,在spark集群中为app启动多个executor
  7. master为每一个executor分配资源
  8. executor反向注册至driver,drvier完成sparkContext初始化、
  9. DAGScheduler根据任务进行job拆解成DAG图,划分stage
  10. TaskScheduler根据stage划分taskset
  11. taskScheduler会把Taskset里面的每一个pipeline提交到executor中执行
  12. 每一个executor都有一个线程池 ,executor会从根据每一个线程运行给一个TaskRunner
  13. 每一个task根据partition执行算子和函数

分步骤拆解详细流程

提交任务

提交任务行为是由执行算子创建的,比如foreach,count,collect等,标志性的表现就是在这些算子的源码中有一条sc.runJob,而其他转化型算子返回的是rdd,并不执行run操作

DAG图创建

  1. sc类中1928行runjob方法执行,会执行其中的dagScheduler的runJob方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值