spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程

最新推荐文章于 2022-09-05 18:02:44 发布

fengge18306

最新推荐文章于 2022-09-05 18:02:44 发布

阅读量355

点赞数

本文链接：https://blog.csdn.net/fengge18306/article/details/106154459

版权

(1) Driver端运行客户端的main方法，构建SparkContext对象，在SparkContext对象内部依次构建DAGScheduler和TaskScheduler对象；
(2) Driver端按照rdd的一系列算子操作顺序，来生成DAG有向无环图；
(3) DAGScheduler对象在拿到DAG有向无环图之后，按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task，最后将这些task封装在一个一个的taskSet集合中，然后把taskSet发送给TaskScheduler对象；
(4) TaskScheduler得到taskSet集合之后，依次遍历取出每一个task，将之提交到worker节点上的executor进程中运行。
(5) 所有task运行完成，整个任务也就结束了。

(1) Driver端向资源管理器Master发送注册和申请计算资源的请求；
(2) Master通知对应的worker节点启动executor进程(计算资源)；
(3) executor进程向Driver端发送注册并且申请task请求（反向注册）；
(4) Driver端运行客户端的main方法，构建SparkContext对象，在SparkContext对象内部依次构建DAGScheduler和TaskScheduler；
(5) 按照客户端代码和rdd的一系列操作顺序，生成DAG有向无环图；
(6) DAGScheduler拿到DAG有向无环图之后，按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task，最后封装在一个一个的taskSet集合中，然后把taskSet发送给TaskScheduler
(7) TaskScheduler得到taskSet集合之后，依次遍历取出每一个task提交到worker节点上的executor进程中运行
(8) 所有task运行完成，Driver端向Master发送注销请求，Master通知Worker关闭executor进程，Worker上的计算资源得到释放，最后整个任务也就结束了。

关注