Spark计算模型RDD（5）——DAG的生成和Spark的任务调度

最新推荐文章于 2023-04-06 23:45:58 发布

Fenggms

最新推荐文章于 2023-04-06 23:45:58 发布

阅读量2.3k

点赞数 1

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fenggms/article/details/82891718

版权

Spark 专栏收录该内容

27 篇文章 2 订阅

订阅专栏

DAG

DAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就形成了DAG，根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。
对于窄依赖，partition的转换处理在一个Stage中完成计算。
对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依据。
在这里插入图片描述

Spark任务调度

任务调度流程图

在这里插入图片描述
各个RDD之间存在着依赖关系，这些依赖关系就形成有向无环图DAG。
DAGScheduler对这些依赖关系形成的DAG进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskScheduler 负责具体的task调度,最后在Worker节点上启动task。

DAGScheduler

（1）DAGScheduler对DAG有向无环图进行Stage划分。
（2）记录哪个RDD或者 Stage 输出被物化（缓存），通常在一个复杂的shuffle之后，通常物化一下(cache、persist)，方便之后的计算。
（3）重新提交shuffle输出丢失的stage（stage内部计算出错）给TaskScheduler
（4）将 Taskset 传给底层调度器
a）– spark-cluster TaskScheduler
b）– yarn-cluster YarnClusterScheduler
c）– yarn-client YarnClientClusterScheduler

相关概念：

Job
调用RDD的一个action，如count，即触发一个Job，spark中对应实现为ActiveJob，DAGScheduler中使用集合activeJobs和jobIdToActiveJob维护Job。
Stage
代表一个Job的DAG的调度阶段，在宽依赖处被切分，切分后每一个部分即为一个Stage。
Stage分为ShuffleMapStage和ResultStage，一个Job切分的结果是0个或多个ShuffleMapStage加一个ResultStage。

Task
最终被发送到Executor执行的任务，和stage的ShuffleMapStage和ResultStage对应，其实现分为ShuffleMapTask和ResultTask。

TaskScheduler

为每一个TaskSet构建一个TaskSetManager 实例管理这个TaskSet 的生命周期
数据本地性决定每个Task最佳位置
提交 taskset( 一组task) 到集群运行并监控
推测执行，碰到计算缓慢任务需要放到别的节点上重试
重新提交Shuffle输出丢失的Stage给DAGScheduler

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Fenggms CSDN认证博客专家 CSDN认证企业博客

码龄8年

181: 原创

30万+: 周排名

212万+: 总排名

26万+: 访问

: 等级

4062: 积分

125: 粉丝

110: 获赞

23: 评论

422: 收藏

私信

关注

热门文章

分类专栏

Linux 1篇
ETL工具 1篇
flink 14篇
hadoop 22篇
Scala 14篇
数据仓库 4篇
好用的工具 1篇
Hive 12篇
Spark 27篇
Hadoop辅助系统 25篇
kafka 8篇
HBase 11篇
数据库 20篇
storm 7篇
ELK 11篇
其他 2篇

最新评论

数据分析概述
阿里数据专家: AIGC ChatGPT ，BI商业智能，可视化Tableau, PowerBI, FineReport，数据库Mysql Oracle， Office， Python ，ETL Excel 2021 实操，函数，图表，大屏可视化案例实战 http://t.csdn.cn/zBytu
Scala安装、IDEA插件安装及IDEA创建Scala项目
Tisfy: 这让我想起了先贤的一句话：闲门向山路，深柳读书堂。
Flink SQL客户端
YeomanM: 大佬，这个权限找不到怎么解决[code=plain] OCI runtime exec failed: exec failed: container_linux.go:370: starting container process caused: exec: "./sql-client.sh": permission denied: unknown [/code]
Flink Table API示例
ctotalk: 挺好
HDFS的Java API操作-使用FileSystem方式访问数据
yebai: 6666666

大家在看

Postman：Postman API测试：参数化请求与变量使用 557

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。