Spark相比MapReduce的优势

最新推荐文章于 2024-06-15 20:39:43 发布

ZHBR_F1

最新推荐文章于 2024-06-15 20:39:43 发布

阅读量7.1k

点赞数 1

分类专栏：大数据文章标签： spark mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZHBR_F1/article/details/72356429

版权

大数据专栏收录该内容

20 篇文章 0 订阅

订阅专栏

MapReduce是Apache Hadoop中用于大规模数据集计算的并行计算框架，目前被广泛应用于企业的离线数据处理上。但是因为种种原因，MapReduce的性能并不理想。而Spark作为数据处理框架界的后起之秀，很多方面都超过了MapReduce。下面来列出MapReduce的不足以及Spark对其的改进。

MapReduce:

仅支持Map和Reduce两种操作
Map中间结果需要写磁盘
任务调度和启动开销大
无法充分利用内存
Map和Reduce都需要排序
不适合迭代计算

Spark：

丰富的API（Java、Scala、Python、R四种语言，sort、join等高效算子）
DAG执行引擎，中间结果不落盘
线程池模型减少task启动开销
充分利用内存，减少磁盘IO
避免不必要的排序操作
适合迭代计算，比如机器学习算法

当然，Spark相比MapReduce还是有一个明显的缺点，就是内存的消耗是比较大的。在超大规模数据集离线计算并且时效性要求不高的情况下可以考虑优先使用MapReduce。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Spark相比MapReduce的优势

MapReduce是Apache Hadoop中用于大规模数据集计算的并行计算框架，目前被广泛应用于企业的离线数据处理上。但是因为种种原因，MapReduce的性能并不理想。而Spark作为数据处理框架界的后起之秀，很多方面都超过了MapReduce。下面来列出MapReduce的不足以及Spark对其的改进。MapReduce:仅支持Map和Reduce两种操作Map中间结果需要写磁盘任务调
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。