Spark的资源申请与任务调度

最新推荐文章于 2023-02-24 11:10:05 发布

wuyue_fighting

最新推荐文章于 2023-02-24 11:10:05 发布

阅读量785

点赞数 1

分类专栏： Spark 文章标签： Spark 资源申请任务调度

本文链接：https://blog.csdn.net/qq_39093097/article/details/96719898

版权

Spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

今天也要努力学习

粗粒度资源申请和细粒度资源申请

粗粒度资源申请(Spark）

在**Application执行之前，将所有的资源申请完毕，当资源申请成功后，才会进行任务的调度，当所有的task执行完成后，才会释放这部分资源。**

优点：在Application执行之前，所有的资源都申请完毕，每一个task运行时直接使用资源就可以了，不需要task运行时在执行前自己去申请资源，task启动就快了，task执行快了，stage执行就快了，job就快了，application执行就快了。

缺点：直到最后一个task执行完成才会释放资源，集群的资源无法充分利用。当数据倾斜时更严重。

细粒度资源申请（MapReduce）

Application执行之前不需要先去申请资源，而是直接执行，让job中的每一个task在执行前自己去申请资源，task执行完成就释放资源。

优点：集群的资源可以充分利用。

缺点：task自己去申请资源，task启动变慢，Application的运行就相应的变慢了。

任务调度流程图

这里写图片描述

各个RDD之间存在着依赖关系，这些依赖关系就形成有向无环图DAG，DAGScheduler对这些依赖关系形成的DAG进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskScheduler 负责具体的task调度,最后在Worker节点上启动task。

DAGScheduler

DAGScheduler对DAG有向无环图进行Stage划分。记录哪个RDD或者 Stage 输出被物化（缓存），通常在一个复杂的shuffle之后，通常物化一下(cache、persist)，方便之后的计算。重新提交shuffle输出丢失的stage（stage内部计算出错），默认重试4次，四次之后意味application失败。job给TaskScheduler 将 Taskset 传给底层调度器 – spark-cluster TaskScheduler – yarn-cluster YarnClusterScheduler – yarn-client YarnClientClusterScheduler
TaskScheduler

为每一个TaskSet构建一个TaskSetManager 实例管理这个TaskSet 的生命周期数据本地性决定每个Task最佳位置提交 taskset( 一组task) 到集群运行并监控，task执行失败的时候TaskScheduler进行重试，默认重试3次，三次之后以为这task所在的job失败。 推测执行：碰到计算缓慢任务需要放到别的节点上重试重新提交Shuffle输出丢失的Stage给DAGScheduler，就是新开一个task重头处理同一个数据，谁先执行完就获取谁的执行结果。带来的问题：重复提交，慢的task提交的操作不能被返回，注意ETL操作下关闭推测执行，默认是关闭的；适用场景是出现节点负载压力过大。

wuyue_fighting

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark的资源申请与任务调度

今天也要努力学习粗粒度资源申请和细粒度资源申请粗粒度资源申请(Spark）在**Application执行之前，将所有的资源申请完毕，当资源申请成功后，才会进行任务的调度，当所有的task执行完成后，才会释放这部分资源。**优点：在Application执行之前，所有的资源都申请完毕，每一个tas...
复制链接

扫一扫

专栏目录