Spark为何比MapReduce更快？Spark基于内存计算什么意思？

二十六画生的博客

已于 2022-05-29 22:41:08 修改

阅读量2.1k

点赞数 3

分类专栏： Hive Spark Hadoop MapReduce 文章标签： spark MapReduce 更快基于内存

于 2021-03-07 18:23:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010002184/article/details/114491745

版权

Hive Spark Hadoop MapReduce 专栏收录该内容

162 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Spark在速度上优于MapReduce，原因包括：Spark任务以线程方式快速启动，多数操作在内存中完成减少磁盘I/O，shuffle阶段通过索引加速，并可缓存数据以避免重复加载。MapReduce则因进程启动慢，频繁数据落盘及排序，以及多个MapReduce作业间的磁盘依赖导致效率较低。Spark的内存计算特性在于任务间数据通信通过内存，而非硬盘，但shuffle阶段仍需硬盘参与。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 spark的task是线程，启动更快；mr的task是进程

2 spark的很多操作是在内存进行，只有shuffle操作才会把数据落盘；mr的很多操作，包括shuffle，都会把数据落盘

3 可忽略，mr的中间文件也有索引。 spark的shuffle阶段对中间结果文件建立有索引文件，读取更快；mr对中间文件没有建立索引文件；

4 spark的shuffle阶段启用bypass时不会对中间结果文件进行排序；mr的shuffle阶段包含3次排序；

5 spark可以对反复用到的数据进行缓存，避免多次加载花费时间；mr不能把多次用到的数据缓存起来

----------------------------

MapReduce慢的原因：

多个MapReduce串联执行时，依赖于HDFS输出的中间结果
MapReduce在处理复杂的DAG（有向无环图）时会产生大量的数据序列化、数据copy和磁盘I/O开销

Spark快的原因：

Spark基于内存，尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle
Spark对于反复用到的数据进行了缓存
Spark对于DAG进

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

二十六画生的博客 你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。