Spark学习笔记之（一）：MR与Spark的区别

最新推荐文章于 2022-08-29 10:13:01 发布

Andromeda

最新推荐文章于 2022-08-29 10:13:01 发布

阅读量4.3k

点赞数 4

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010737756/article/details/118406700

版权

既然决定了仔细学习Spark，笔者决定从最基础知识点开始记录。
本文仅列出了MR与Spark较大的区别点，实际mr与Spark为完全不同的大数据计算组件，需要我们在实践中探索使用。

MR与Spark的区别

1.计算速度
- 1.1磁盘I/O
- 1.2并行度
2.资源
- 2.1资源分配与共享
- 2.2资源申请与释放
3.容错
4.功能适用
5.生态
6.运行环境

1.计算速度

MR与Spark的根本区别（关键优化）在于：Spark除了需要shuffle的计算，其他是将结果/中间结果持久化到内存中，而MR是都需要落地到磁盘(map.reduce落地都写)，因此Spark格外适用于频繁读写中间结果的迭代计算

而MR最终落地HDFS，Spark 如果落地，会落地节点磁盘，因此如果只是简单的非迭代计算，MR最终只会比Spark多消耗一部分（HDFS不同datanode间的）网络IO。

所以如果有项目需求为简单的非迭代计算，以及内存资源紧张的情景，仍然可以使用MR。

1.1磁盘I/O

因此，速度区别之一在于磁盘I/O，即：
MapReduce 的 map 端将中间输出和结果存储在磁盘中，reduce 端又需要从磁盘读写中间结果，势必造成磁盘IO成为瓶颈。
Spark允许将map端的中间输出和结果存储在内存中，reduce端在拉取中间结果时避免了大量的磁盘 I/O。

1.2并行度

此外，速度区别之二在于任务的并行度不同：
Spark会增加任务的并行度从而提高速度：由于将中间结果写到磁盘与从磁盘读取中间结果属

最低0.47元/天解锁文章

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
Spark学习笔记之（一）：MR与Spark的区别

本文仅列出了较大的区别点，实际mr与Spark为完全不同的大数据计算组件。1.速度：MR与Spark的根本区别（关键优化）在于：Spark除了需要shuffle的计算，其他是将结果/中间结果持久化到内存中，而MR是都需要落地到磁盘(map.reduce落地都写)，因此Spark格外适用于频繁读写中间结果的迭代计算而MR最终落地HDFS，Spark最终也会落地节点磁盘，因此如果只是简单的非迭代计算，MR最终只会比Spark多消耗一部分（HDFS不同datanode间的）网络IO。所以如果有项目需求为简
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。