spark比MapReduce快的原因是什么？（比较完整）

最新推荐文章于 2024-06-29 07:15:00 发布

Jenrey

最新推荐文章于 2024-06-29 07:15:00 发布

阅读量1.3w

点赞数 6

分类专栏：大数据开发文章标签： spark比MapReduce快的原因是什么？

本文链接：https://blog.csdn.net/JENREY/article/details/84873874

版权

1、spark是基于内存进行数据处理的，MapReduce是基于磁盘进行数据处理的

MapReduce的设设计：中间结果保存在文件中，提高了可靠性，减少了内存占用。但是牺牲了性能。
Spark的设计：数据在内存中进行交换，要快一些，但是内存这个东西，可靠性不如磁盘。所以性能方面比MapReduce要好。
DAG计算模型在迭代计算上还是比MapReduce的效率更高

2、spark中具有DAG有向无环图，DAG有向无环图在此过程中减少了shuffle以及落地磁盘的次数

Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型。一般而言，DAG 相比MapReduce 在大多数情况下可以减少 shuffle 次数。Spark 的 DAGScheduler 相当于一个改进版的 MapReduce，如果计算不涉及与其他节点进行数据交换，Spark 可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘 IO 的操作。但是，如果计算过程中涉及数据交换，Spark 也是会把 shuffle 的数据写磁盘的！有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop 也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中，减少数据加载耗时，所以 Spark 跑机器学习算法比较在行（需要对数据进行反复迭代）。Spark 基于磁盘的计算也是比 Hadoop 快。刚刚提到了 Spark 的 DAGScheduler 是个改进版的 MapReduce，所以 Spark天生适合做批处理的任务。Hadoop 的 MapReduce 虽然不如 spark 性能好，但是 HDFS 仍然是业界的大数据存

最低0.47元/天解锁文章

Jenrey

关注

6
点赞
踩
33

收藏

觉得还不错? 一键收藏
2
评论
spark比MapReduce快的原因是什么？（比较完整）

1、spark是基于内存进行数据处理的，MapReduce是基于磁盘进行数据处理的MapReduce的设设计：中间结果保存在文件中，提高了可靠性，减少了内存占用。但是牺牲了性能。Spark的设计：数据在内存中进行交换，要快一些，但是内存这个东西，可靠性不如磁盘。所以性能方面比MapReduce要好。DAG计算模型在迭代计算上还是比MapReduce的效率更高2、spark中具有DAG有...
复制链接

扫一扫