Spark 教程 - Spark调度系统

用心去追梦

于 2024-07-13 15:47:00 发布

阅读量247

点赞数 4

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33240556/article/details/140401198

版权

Spark 的调度系统是其高效执行大规模数据处理任务的关键组成部分。它负责管理和优化任务的分配，确保资源的有效利用。以下是关于 Spark 调度系统的几个核心概念和机制：

1. DAGScheduler（有向无环图调度器）

DAGScheduler 负责将用户提交的 Spark 作业转化为一系列阶段（Stage），这些阶段形成了一个有向无环图（DAG）。每个阶段可以进一步分解为多个任务（Task），这些任务将在各个工作节点上并行执行。DAGScheduler 的主要职责包括：

作业划分：将复杂的 Spark 作业拆分为多个任务组成的阶段，通常在 shuffle 操作处划分阶段。
任务调度：决定各个阶段的执行顺序，考虑依赖关系和数据局部性。
资源申请：向底层调度器（如 TaskScheduler）请求执行任务所需的资源。

2. TaskScheduler（任务调度器）

TaskScheduler 负责接收来自 DAGScheduler 的任务，并将这些任务分配给集群中的 Executor 执行。它主要完成以下工作：

任务分配：根据 Executor 的可用资源和数据本地性原则，将任务分配给合适的 Executor。
任务监控：跟踪任务的执行状态，如任务完成、失败或被取消，并根据需要重新安排失败的任务。
资源管理：与资源管理器（如 YARN 或 Mesos）交互，获取和释放资源。

3. Executor（执行器）

Executor 是 Spark 应用在工作节点上启动的进程，负责实际执行任务。每个 Executor 可以同时运行多个任务，并且有自己的内存管理机制来存储数据（如 RDD 的分区）。Executor 接收来自 TaskScheduler 的任务，执行计算并将结果返回给 Driver。

4. 任务与阶段的调度策略

任务调度策略：Spark 支持 FIFO（先进先出）、FAIR（公平）等多种调度模式，可以根据应用场景选择合适的调度策略。
数据局部性：Spark 调度器会优先尝试将任务分配到数据所在的节点，以减少数据在网络中的传输，提高执行效率。局部性级别包括 PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL 和 ANY，从最优到最劣。

5. 动态资源分配

Spark 支持动态资源分配，允许应用程序根据当前工作负载动态请求和释放资源。当作业需要更多资源时，可以向资源管理器请求额外的 Executor；当作业接近完成，空闲的 Executor 将被回收，资源得以高效利用。

综上所述，Spark 的调度系统通过高度优化的阶段划分、智能的任务分配策略、细致的数据局部性考虑以及动态资源管理，实现了高效、灵活的大数据处理能力。

用心去追梦

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用心去追梦 CSDN认证博客专家

CSDN认证企业博客

4490: 原创

4129: 周排名

129: 总排名

261万+: 访问

: 等级

7万+: 积分

1万+: 粉丝

2万+: 获赞

137: 评论

2万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

Kafka中如何保证消息的顺序性？
码踏云端: 精品干货，收藏了！博主的文章一直都是我的学习指南，内容详实，让我从中获益良多，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，你的博客内容深入浅出，总是让我不再感到学习的困难，期待你的下一次精彩分享。
Seata中如何处理分支事务失败导致的全局事务回滚？
码踏云端: 博主的文章一直都是我的学习指南，内容详实，让我从中获益良多，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，你的博客内容深入浅出，总是让我不再感到学习的困难，期待你的下一次精彩分享。
Seata中的分支事务锁机制是如何工作的？
码踏云端: 每一个论点都精准而深刻。如此精彩的内容，让人读后深受启发，难以忘怀。用词考究，逻辑清晰，将复杂的观点简洁生动地呈现，无疑是这个时代的理性之声。真心佩服，期待更多杰作！
css 设置字体微软雅黑
码农小筑: 文章提供了清晰的指导，用CSS设置微软雅黑字体，强调了使用英文双引号和提供备选字体的重要性。示例代码直观易懂，提醒我们确保字体安装和考虑跨平台兼容性，很有实用价值。
Spring Data JPA 实战 - JPA配置多个数据源
Faro: 配置多数据源可以参考官方文档 https://docs.spring.io/spring-boot/how-to/data-access.html#howto.data-access.use-multiple-entity-managers https://github.com/spring-projects/spring-data-examples/blob/main/jpa/multiple-datasources/src/main/java/example/springdata/jpa/multipleds/order/OrderConfig.java

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。