spark作业:
Application : 用户自定义的spark程序。用户提交后,spark为app分配资源将程序转换并执行。
Driver Program : 运行Application的main()函数并创建SparkContext。
RDD DAG : 当RDD遇到Action算子,将之前的所有算子形成一个有向无环图(DAG)。再在Spark中转化为job,提交到集群进行执行。一个app中可包含多个job。
Job : 一个RDD Graph触发的作业,往往由Spark Action算子触发,在SparkContext中通过runJob方法像Spark提交Job。
Stage : DAG Scheduler为每个Job会根据RDD宽窄依赖关系被切分很多个Stage,每个Stage中包含一组相同的Task,这一组Task也叫TaskSet。
Task : 一个分区对应一个Task,Task执行RDD中对应Stage中包含的算子。Task Scheduler将Task封装后放入Executor的线程池中之行。执行模式分为:FIFO(先进先出)与FAIR(公平调度)两种模式。
总结:
job,stage,task之间的关系:
Job,Stage,Task是Spark任务执行流程中的三个基本单位。其中Job是最大的单位,Job是Spark应用的action算子催生的;stage是由job拆分,在单个job内是根据shuffle算子来拆分stage的,单个stage内部可以根据操作数据的分区数划分多少个task。
一个application会启动一个Driver Program,Driver Program会启动多个job,一个job中又会根据RDD的依赖关系切分成不同的stage,stage之间形成一个DAG,DAG的每一个节点是一个stage,每个stage会生成一组TaskSet任务集,每一个Task对应一个block,在block块上执行