Spark Job调度流程

  • Spark Application应用的用户代码都是基于RDD的一系列计算操作,实际运行时,这些计算操作是Lazy执行的,并不是是所有的RDD操作都会触发Spark往Cluster上提交实际作业,基本上只有一些需要返回数据或者向外部输出的操作才会触发实际计算工作(Action算子),其他的变换操作基本上只是生成对应的RDD记录依赖关系(Transformation算子)

  • 当启动Spark Application的时候,运行MAIN函数,首先创建SparkContext对象(构建DAGScheduler和TaskScheduler)。

    • 第一点:DAGScheduler实例对象
      • 将每个Job的DAG图划分为Stage,一句RDD之间的依赖为宽依赖(产生Shuffle)
    • 第二点:TaskScheduler实例对象
      在这里插入图片描述
  • 当RDD调用Action函数(比如count、saveTextFile或foreachPartition)时,触发一个Job执行,调度中流程如下图所示:
    在这里插入图片描述

  • Spark RDD通过其Transactions操作,形成了RDD血缘关系图,即DAG,最后通过Action的调用,触发Job并调度执行。

    • DAGScheduler负责Stage级的调度,主要是将DAG切分成若干Stages,并将每个Stage打包成TaskSet交给TaskScheduler调度
    • TaskScheduler负责Task级的调度,将DAGScheduler给过来的TaskSet按照规定的调度策略分发到Executor上执行,调度过程中SchedulerBackend负责提供可用资源,其中SchedulerBackend有多种实现,分别对接不同的资源管理系统
  • Spark的任务吊物总提来说分两路进行,一路是Stage级的调度,一路是Task级的调度。

  • 一个Spark应用程序包括Job、Stage及Task:

    • 第一:Job是以Action方法为界,遇到一个Action方法则触发一个Job
    • 第二:Stage是Job的自己,以RDD宽依赖(即Shuffle)为界,遇到Shuffle做一次划分
    • 第三:Task是Stage的自己,以并行度(分区数)来衡量,分区数是多少,则有多少个task
      在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值