Spark-资源调度、任务调度、粗粒度资源申请

最新推荐文章于 2021-01-13 19:48:06 发布

oJueQiang123456

最新推荐文章于 2021-01-13 19:48:06 发布

阅读量390

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/oJueQiang123456/article/details/87956657

版权

13 篇文章 0 订阅

订阅专栏

一、概述

二、执行流程: (x)指的是上图的第x步

1、启动集群

2、启动application的时候创建Driver对象。

3、new SparkContext()(3)：

创建DAGcheduler、TaskScheduler对象。TaskScheduler中创建了ClietActor来和Master通信，创建了DriverActor备用等待Worker中的Executer的注册。
TaskScheduler向Master申请资源(4)。
Master收到请求之后筛选满足资源的节点，在Worder上启动Executor(5)。
筛选满足资源的过程：1)、根据--executor-memory参数筛选出剩余可用内存大于等于该内存的机器，2)、根据--executor-cores参数按类型分配：分散策略(剩余核数倒叙，然后从大到小依次一个一个的分配)、集中策略(剩余核数优先集中往一台机器分配，直到核不够再往另外一台机器分配)
Executor启动之后反向注册给TaskScheduler，Driver掌握了一批计算资源(6)。

4、rdd4.forreach(7):

DAGScheduler拿到每个job中的RDD依赖关系形成DAG有向无环图(8)。
依照RDD的宽窄依赖切割job划分成stage(8)。
将stage封装成TaskSet对象提交给TaskScheduler(8)。
TaskScheduler会遍历TaskSet拿到一个个的task(9)，发送到Executor中的TheadPool线程池中去执行(10)，并监控task执行回收结果(11)。

三、流程归类：

四、Spark的粗粒度资源申请

五、MR细粒度资源申请

关注

专栏目录