Spark任务的执⾏流程

最新推荐文章于 2024-07-14 16:41:48 发布

不良人-程序星

最新推荐文章于 2024-07-14 16:41:48 发布

阅读量514

点赞数 8

文章标签： spark 大数据分布式 python sql hive hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80747901/article/details/135812895

版权

本文详细阐述了Spark如何将任务划分为stages和tasks，通过TaskScheduler和DAGScheduler进行任务调度，利用数据分区实现高效计算，以及Executor的角色、任务执行与结果收集过程，最后输出至外部存储系统。

摘要由CSDN通过智能技术生成

1）任务划分：Spark 将任务划分为多个 stages 和 tasks。每个 stage 包含多个 tasks，且每个 task 是对数据集中⼀个分区的计算。

2）任务调度：Spark 会将每个 stage 中的 tasks 分配给集群中的 Executor 进⾏计算。任务调度分为两个阶段：第⼀阶段为 Task Scheduler，在该阶段 Spark 会将任务分配给可⽤的 Executor；第⼆阶段为DAG Scheduler，Spark 会在该阶段优化任务执⾏计划。

3）数据分区：Spark 将数据集划分为多个分区，每个分区会被分配到集群中的某⼀个 Executor 上进⾏计算。每个 Executor 会处理多个分区，且每个分区只会被⼀个 Executor 计算。

4）任务执⾏：Executor 会从 Driver 程序中获取任务信息，并根据任务信息从对应的数据分区中获取据，然后执⾏具体的计算任务。

5）任务结果收集：Executor 执⾏完任务后，将计算结果返回给 Driver 程序。Driver 程序会收集所有Executor 返回的计算结果，并进⾏汇总。

6）结果输出：最后，Driver 程序会将计算结果写⼊到外部存储系统（如 Hadoop HDFS)。

不良人-程序星

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Spark任务的执⾏流程

2）任务调度：Spark 会将每个 stage 中的 tasks 分配给集群中的 Executor 进⾏计算。3）数据分区：Spark 将数据集划分为多个分区，每个分区会被分配到集群中的某⼀个 Executor 上进⾏计算。每个 Executor 会处理多个分区，且每个分区只会被⼀个 Executor 计算。4）任务执⾏：Executor 会从 Driver 程序中获取任务信息，并根据任务信息从对应的数据分区中获取据，然后执⾏具体的计算任务。
复制链接

扫一扫

不良人-程序星 CSDN认证博客专家 CSDN认证企业博客

码龄1年

12: 原创

141万+: 周排名

15万+: 总排名

5142: 访问

: 等级

231: 积分

91: 粉丝

111: 获赞

5: 评论

71: 收藏

私信

关注

热门文章

最新评论

Hive建表时为何要分区分桶，有哪些好处？
CSDN-Ada助手: 恭喜您写了第11篇博客！标题很吸引人，我对Hive建表时分区分桶的好处也很感兴趣。通过分区分桶，可以更加高效地管理和查询数据，提升查询性能。此外，它还可以减少数据倾斜和降低磁盘空间的占用，对于大规模数据处理来说尤为重要。在阅读您的博客后，我希望您能进一步探讨一些实际应用场景，比如如何选择合适的分区和桶的策略，以及如何优化查询性能等方面的内容。这样能够让读者更好地理解和应用这些概念。再次恭喜您的连续创作，期待您下一篇博客的发布！谦虚地提出建议，希望能够给您一些启发。
Spark任务的执⾏流程
CSDN-Ada助手: 恭喜您能够写出如此深入的文章，对Spark任务的执行流程进行了详细的介绍，让读者受益匪浅。希望您能继续保持创作的热情，也建议您可以探讨一下Spark任务执行中的优化技巧，或者是与其他大数据处理框架的对比分析，这样会更加丰富您的博客内容。期待您的下一篇文章！
Hive优化
CSDN-Ada助手: 非常祝贺你撰写了第7篇博客《Hive优化》！持续创作是一个很了不起的成就，你的努力和热情值得称赞。通过这篇博客，你向读者分享了关于Hive优化的知识，这对于那些对于提升Hive性能感兴趣的读者来说一定非常有价值。在下一步的创作中，我想向你提出一个建议，那就是多探索一些实际案例来支持你的观点。通过分享一些你在Hive优化方面的实践经验，读者能更好地理解和应用你的建议。此外，你还可以考虑将一些常见的Hive优化问题列举出来，并提供相应的解决方案。这样，读者将能够更好地应对各种挑战，并更好地了解如何优化他们自己的Hive环境。总之，我非常期待你未来的创作，并希望你能继续分享有关Hive优化的知识。谦虚地说，你的博客已经帮助了很多人，而你的下一篇文章将进一步拓宽读者的视野。祝你继续取得更大的成功！
天数连续登录问题
CSDN-Ada助手: 非常棒的博文！你对于天数连续登录问题的探讨非常详细，代码也很清晰易懂。希望你能继续创作，分享更多有趣的技术问题和解决方案。除了你在博文中提到的代码实现，还可以考虑一些扩展知识和技能。比如，你可以介绍一些常见的登录验证方式，如基于令牌的身份验证、双因素认证等，以及它们在保护用户账号安全方面的作用。另外，你还可以探讨一些用户登录行为分析的方法，通过分析用户的登录模式和习惯，提升用户体验和安全性。希望以上建议能对你有所帮助，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
常用的linux命令
CSDN-Ada助手: 恭喜您写了第三篇博客！标题为“常用的linux命令”，这是一个非常实用的主题。通过您的分享，读者们可以学习到关于Linux命令的常见用法，对于初学者来说，这无疑是一份宝贵的参考资料。我希望您能够继续保持创作的热情，分享更多关于Linux的知识和经验。在下一篇博客中，或许您可以探索一些高级的Linux命令，或者分享一些实际应用场景下的技巧与技巧。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。