spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程

目录

 

1、spark的任务调度

2、spark的运行架构

3、基于wordcount程序剖析spark任务的提交、划分、调度流程


1、spark的任务调度

  • (1) Driver端运行客户端的main方法,构建SparkContext对象,在SparkContext对象内部依次构建DAGScheduler和TaskScheduler对象;
  • (2) Driver端按照rdd的一系列算子操作顺序,来生成DAG有向无环图;
  • (3) DAGScheduler对象在拿到DAG有向无环图之后,按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task,最后将这些task封装在一个一个的taskSet集合中,然后把taskSet发送给TaskScheduler对象;
  • (4) TaskScheduler得到taskSet集合之后,依次遍历取出每一个task,将之提交到worker节点上的executor进程中运行。
  • (5) 所有task运行完成,整个任务也就结束了。

2、spark的运行架构

  • (1) Driver端向资源管理器Master发送注册和申请计算资源的请求
  • (2) Master通知对应的worker节点启动executor进程(计算资源);
  • (3) executor进程向Driver端发送注册并且申请task请求(反向注册);
  • (4) Driver端运行客户端的main方法构建SparkContext对象,在SparkContext对象内部依次构建DAGScheduler和TaskScheduler;
  • (5) 按照客户端代码和rdd的一系列操作顺序,生成DAG有向无环图
  • (6) DAGScheduler拿到DAG有向无环图之后,按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task,最后封装在一个一个的taskSet集合中,然后把taskSet发送给TaskScheduler
  • (7) TaskScheduler得到taskSet集合之后,依次遍历取出每一个task提交到worker节点上的executor进程中运行
  • (8) 所有task运行完成,Driver端向Master发送注销请求,Master通知Worker关闭executor进程,Worker上的计算资源得到释放,最后整个任务也就结束了。

3、基于wordcount程序剖析spark任务的提交、划分、调度流程

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值