目录
3、基于wordcount程序剖析spark任务的提交、划分、调度流程
1、spark的任务调度
- (1) Driver端运行客户端的main方法,构建SparkContext对象,在SparkContext对象内部依次构建DAGScheduler和TaskScheduler对象;
- (2) Driver端按照rdd的一系列算子操作顺序,来生成DAG有向无环图;
- (3) DAGScheduler对象在拿到DAG有向无环图之后,按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task,最后将这些task封装在一个一个的taskSet集合中,然后把taskSet发送给TaskScheduler对象;
- (4) TaskScheduler得到taskSet集合之后,依次遍历取出每一个task,将之提交到worker节点上的executor进程中运行。
- (5) 所有task运行完成,整个任务也就结束了。
2、spark的运行架构
- (1) Driver端向资源管理器Master发送注册和申请计算资源的请求;
- (2) Master通知对应的worker节点启动executor进程(计算资源);
- (3) executor进程向Driver端发送注册并且申请task请求(反向注册);
- (4) Driver端运行客户端的main方法,构建SparkContext对象,在SparkContext对象内部依次构建DAGScheduler和TaskScheduler;
- (5) 按照客户端代码和rdd的一系列操作顺序,生成DAG有向无环图;
- (6) DAGScheduler拿到DAG有向无环图之后,按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task,最后封装在一个一个的taskSet集合中,然后把taskSet发送给TaskScheduler
- (7) TaskScheduler得到taskSet集合之后,依次遍历取出每一个task提交到worker节点上的executor进程中运行
- (8) 所有task运行完成,Driver端向Master发送注销请求,Master通知Worker关闭executor进程,Worker上的计算资源得到释放,最后整个任务也就结束了。
3、基于wordcount程序剖析spark任务的提交、划分、调度流程