Spark任务提交流程

standalone模式

  1. spark-submit提交程序后,dirver和application向master注册
  2. 创建SparkContext对象,其中包含DAGScheduler和TaskScheduler
  3. driver把application信息注册给master后,master会根据App信息去worker节点起executor
  4. executor内部会创建运行Task的线程池,然后把启动的executor反向注册给driver
  5. DAGScheduler负责把Spark作业转化成stage的DAG,根据宽窄依赖切分stage,然后把stage封装成TaskSet的形式发送给TaskScheduler,同时DAGScheduler还会处理由于shuffle数据丢失导致的失败
  6. TaskScheduler维护所有的TaskSet,分发Task给各个节点的Executor,监控Task的运行状态,负责重试失败的Task
  7. tak运行完成后,sparkContext向Master注销,释放资源

yarn-client模式

  1. spark-submit在提交的时候发送给RM,请求启动ApplicationMaster(AM),分配一个container,在某个NodeManager(NM)启动AM,但是这里的AM只是一个ExecutorLancher,功能有限
  2. AM启动后会找RM申请container,启动Executor,AM连接其他的NM,用container的资源来启动Executor,Executor会反向注册到本地的driver上
  3. driver发送task给Executor,计算完成后,driver回收Executor的结果

yarn-cluster模式

  1. 由client向RM提交请求,并向HDFS上传jar包
  2. ApplicationsMaster(AMST)向Scheduler申请空闲container
  3. Scheduler向AMST返回空闲的container信息
  4. RM根据返回的信息向NM申请资源
  5. 分配创建一个container并创建Spark Application Master (SAM)此时SAM上运行的是SparkDriver
  6. SAM启动后,和RM通信,请求根据任务信息向RM申请container来启动executor
  7. RM将申请到的资源信息返回给SAM
  8. SAM根据返回的资源信息去请求对应的NM分配container来启动executor
  9. NM收到请求会启动相应的container来启动executor
  10. executor启动成功后向SAM反向注册
  11. executor和SAM完成交互
  12. 后续的DAGScheduler,TaskScheduler,shuffle等操作和standalone模式一样
  13. 等到所有的任务执行完后,SAM向RM取消注册释放资源
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值