Spark工作机制





spark作业:


Application : 用户自定义的spark程序。用户提交后,spark为app分配资源将程序转换并执行。


Driver Program : 运行Application的main()函数并创建SparkContext。


RDD DAG : 当RDD遇到Action算子,将之前的所有算子形成一个有向无环图(DAG)。再在Spark中转化为job,提交到集群进行执行。一个app中可包含多个job。


Job : 一个RDD Graph触发的作业,往往由Spark Action算子触发,在SparkContext中通过runJob方法像Spark提交Job。

Stage : DAG Scheduler为每个Job会根据RDD宽窄依赖关系被切分很多个Stage,每个Stage中包含一组相同的Task,这一组Task也叫TaskSet。


Task : 一个分区对应一个Task,Task执行RDD中对应Stage中包含的算子。Task Scheduler将Task封装后放入Executor的线程池中之行。执行模式分为:FIFO(先进先出)与FAIR(公平调度)两种模式。


总结:


job,stage,task之间的关系:


Job,Stage,Task是Spark任务执行流程中的三个基本单位。其中Job是最大的单位,Job是Spark应用的action算子催生的;stage是由job拆分,在单个job内是根据shuffle算子来拆分stage的,单个stage内部可以根据操作数据的分区数划分多少个task。






一个application会启动一个Driver Program,Driver Program会启动多个job,一个job中又会根据RDD的依赖关系切分成不同的stage,stage之间形成一个DAG,DAG的每一个节点是一个stage,每个stage会生成一组TaskSet任务集,每一个Task对应一个block,在block块上执行
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值