数据仓库-Spark为什么比MR快？

Doki067

于 2023-07-10 19:54:47 发布

阅读量263

点赞数

文章标签：数据仓库 spark mr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DolphinF/article/details/131646745

版权

1）内存&硬盘
（1）MR在Map阶段会在溢写阶段将中间结果频繁的写入磁盘，在Reduce阶段再从磁盘拉取数据。频繁的磁盘IO消耗大量时间。
（2）Spark不需要将计算的中间结果写入磁盘。这得益于Spark的RDD，在各个RDD的分区中，各自处理自己的中间结果即可。在迭代计算时，这一优势更为明显。
2）Spark DAG任务划分减少了不必要的Shuffle
（1）对MR来说，每一个Job的结果都会落地到磁盘。后续依赖于次Job结果的Job，会从磁盘中读取数据再进行计算。
（2）对于Spark来说，每一个Job的结果都可以保存到内存中，供后续Job使用。配合Spark的缓存机制，大大的减少了不必要的Shuffle。
3）资源申请粒度：进程&线程
开启和调度进程的代价一般情况下大于线程的代价。
（1）MR任务以进程的方式运行在Yarn集群中。N个MapTask就要申请N个进程
（2）Spark的任务是以线程的方式运行在进程中。N个MapTask就要申请N个线程。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据仓库-Spark为什么比MR快？

（2）Spark不需要将计算的中间结果写入磁盘。这得益于Spark的RDD，在各个RDD的分区中，各自处理自己的中间结果即可。（2）对于Spark来说，每一个Job的结果都可以保存到内存中，供后续Job使用。（1）MR在Map阶段会在溢写阶段将中间结果频繁的写入磁盘，在Reduce阶段再从磁盘拉取数据。（1）对MR来说，每一个Job的结果都会落地到磁盘。（2）Spark的任务是以线程的方式运行在进程中。（1）MR任务以进程的方式运行在Yarn集群中。开启和调度进程的代价一般情况下大于线程的代价。
复制链接

扫一扫

Doki067 CSDN认证博客专家 CSDN认证企业博客

码龄5年

22: 原创

131万+: 周排名

22万+: 总排名

1万+: 访问

: 等级

235: 积分

17: 粉丝

15: 获赞

15: 评论

23: 收藏

私信

关注

热门文章

最新评论

阿里云DataWorks开发UDF函数，自定义一周开始时间
CSDN-Ada助手: 恭喜您撰写第6篇博客！阿里云DataWorks开发UDF函数，自定义一周开始时间这个主题真是别出心裁啊。您的文章内容详实、易懂，让我对DataWorks的UDF函数有了更深入的了解。接下来，我期待您能继续分享更多关于DataWorks的开发经验和技巧，比如如何优化UDF函数的性能、如何应对常见的问题等等。相信您的经验分享会给更多的读者带来帮助。谢谢您的辛勤付出，期待下一篇精彩的博文！
Idea更新新版本报错，Some conflicts were found in the installation area.
CSDN-Ada助手: 恭喜您第7篇博客的发布！很抱歉听到您在Idea更新新版本时遇到了问题。"Some conflicts were found in the installation area"这个错误可能是由于之前版本的残留文件或者冲突引起的。希望您能尝试清理安装区域并重新安装，或者搜索相关解决方法来解决这个问题。同时，我想表扬您持续创作的努力。您的博客内容一直给读者们带来了很多启发和帮助。接下来，我建议您可以考虑分享一些关于如何解决常见软件问题的技巧和经验，这将进一步丰富您的博客内容。希望您能继续保持创作，并且不断改进自己的写作技巧。期待阅读更多有价值的内容！
pycharm创建py脚本自动增加注释和描述
CSDN-Ada助手: 恭喜您写了第9篇博客！标题中提到的pycharm自动增加注释和描述的功能听起来非常实用。您的博客内容一直都非常有启发性，帮助了许多读者解决问题。感谢您的持续创作和分享！在下一步的创作中，或许您可以考虑探索更多关于pycharm的实用功能，或者分享一些在实际项目中的应用案例。这样的内容对读者来说可能会更加具有参考价值。当然，这只是一些建议，希望能对您的创作有所帮助。期待您更多精彩的博客！
数仓 - hive ，身份证和手机号匹配 - 正则方式
CSDN-Ada助手: 恭喜您撰写第10篇博客！标题“数仓 - hive，身份证和手机号匹配 - 正则方式”听起来非常有趣和实用。您的博客内容一定对于想要学习如何使用正则表达式在Hive中匹配身份证和手机号的读者来说十分有帮助。在未来的创作中，我建议您可以考虑深入探讨如何处理更多类型的数据匹配和转换。或者，您可以分享一些关于如何在Hive中使用其他工具或技术来提高数据处理效率的经验。无论您选择哪个方向，我相信您的知识和经验将会给读者带来更多的收获。再次恭喜你，并期待您未来更多精彩的博客！
数据仓库 - hive - 日期维表，日，周，月份，年份，节假日，工作日
CSDN-Ada助手: 恭喜您写了第11篇博客！标题看起来很有吸引力，特别是对于想要了解日期维表和Hive的人来说。您的内容涉及到日、周、月份、年份、节假日和工作日，这些都是非常重要的时间维度。我很期待阅读您的博客，希望能从中学到更多关于数据仓库和Hive的知识。在下一步的创作中，我建议您可以考虑添加一些实际案例或者应用场景，以帮助读者更好地理解如何在实际项目中应用日期维表和Hive。另外，如果您能提供一些实用的技巧或者最佳实践，将会让您的博客更具价值。继续保持创作，期待您的下一篇博客！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。