Spark的任务调度流程(Driver 内部运行流程)

最新推荐文章于 2024-04-26 22:39:30 发布

北部的雪

最新推荐文章于 2024-04-26 22:39:30 发布

阅读量394

点赞数

文章标签：大数据分布式 spark 数据仓库 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s1275200879/article/details/129956316

版权

Spark的核心是基于RDD来实现的，Spark任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，然后将每个Stage中的任务（Task）分发到指定的节点去运行得到最终的结果。

大概流程如下:

当Spark程序遇到1个Action算子时, 会产生一个Job任务, 首先你代码层面上要创建一个SparkContext 对象, 同时其底层也会创建 DAGScheduler 和 TaskScheduler .

首先DAGScheduler 负责生成 DAG 执行流程图 , 划分阶段Stage, 并确定每个阶段有多少个线程,

然后把每个阶段的线程放置到一个TaskSet中, 提交给TaskScheduler , TaskScheduler遍历每一个TaskSet , 将其尽可能均衡地分配给 Executor 来运行, 最后Driver 进行监控管理即可.

这个我引用知乎的一张图方便理解:

了解这个流程你要明白几个词的意思:

Job（作业）：由Action算子触发生成的由一个或多个Stage组成的计算作业。

Stage（调度阶段）：每个Job会根据RDD的宽依赖被切分为多个Stage，每个Stage都包含一个TaskSet。

TaskSet（任务集）：一组关联的，但相互之间没有shuffle依赖关系的Task集合。一个TaskSet对应的调度阶段。

Task（任务）：RDD中的一个分区对应一个Task，Task是单个分区上最小的处理流程单元。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的任务调度流程(Driver 内部运行流程)

Spark的核心是基于RDD来实现的，Spark任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，然后将每个Stage中的任务（Task）分发到指定的节点去运行得到最终的结果。然后把每个阶段的线程放置到一个TaskSet中, 提交给TaskScheduler , TaskScheduler遍历每一个TaskSet , 将其尽可能均衡地分配给 Executor 来运行, 最后Driver 进行监控管理即可.一个TaskSet对应的调度阶段。
复制链接

扫一扫

北部的雪 CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

187万+: 周排名

116万+: 总排名

1086: 访问

: 等级

31: 积分

0: 粉丝

1: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

Spark的任务调度流程(Driver 内部运行流程)
CSDN-Ada助手: 非常感谢用户分享这篇关于Spark任务调度流程的博客！阐述了Driver内部的运行流程，让我们对Spark的工作原理有了更深入的理解。希望用户能够继续坚持创作，分享更多有价值的知识，并且可以考虑从实际案例出发，深入探讨某些核心概念或者技术。期待用户更多的优秀作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
数仓建模的思考点
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)使用标准目录；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。