Spark相比MapReduce的优势

最新推荐文章于 2024-01-21 03:30:51 发布

ZHBR_F1

最新推荐文章于 2024-01-21 03:30:51 发布

阅读量7k

点赞数 1

分类专栏：大数据文章标签： spark mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZHBR_F1/article/details/72356429

版权

大数据专栏收录该内容

20 篇文章 0 订阅

订阅专栏

MapReduce是Apache Hadoop中用于大规模数据集计算的并行计算框架，目前被广泛应用于企业的离线数据处理上。但是因为种种原因，MapReduce的性能并不理想。而Spark作为数据处理框架界的后起之秀，很多方面都超过了MapReduce。下面来列出MapReduce的不足以及Spark对其的改进。

MapReduce:

仅支持Map和Reduce两种操作
Map中间结果需要写磁盘
任务调度和启动开销大
无法充分利用内存
Map和Reduce都需要排序
不适合迭代计算

Spark：

丰富的API（Java、Scala、Python、R四种语言，sort、join等高效算子）
DAG执行引擎，中间结果不落盘
线程池模型减少task启动开销
充分利用内存，减少磁盘IO
避免不必要的排序操作
适合迭代计算，比如机器学习算法

当然，Spark相比MapReduce还是有一个明显的缺点，就是内存的消耗是比较大的。在超大规模数据集离线计算并且时效性要求不高的情况下可以考虑优先使用MapReduce。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Spark相比MapReduce的优势

MapReduce是Apache Hadoop中用于大规模数据集计算的并行计算框架，目前被广泛应用于企业的离线数据处理上。但是因为种种原因，MapReduce的性能并不理想。而Spark作为数据处理框架界的后起之秀，很多方面都超过了MapReduce。下面来列出MapReduce的不足以及Spark对其的改进。MapReduce:仅支持Map和Reduce两种操作Map中间结果需要写磁盘任务调
复制链接

扫一扫

专栏目录

ZHBR_F1 CSDN认证博客专家 CSDN认证企业博客

码龄7年

69: 原创

18万+: 周排名

98万+: 总排名

20万+: 访问

: 等级

2500: 积分

67: 粉丝

39: 获赞

16: 评论

112: 收藏

私信

关注

热门文章

分类专栏

F1 30篇
微服务 16篇
前端 19篇
研发管理 5篇
消息队列 10篇
大数据 20篇
数据库 5篇
安全 5篇
图形 17篇
运维 4篇

最新评论

F1V3.0-图形-GIS基础知识
tre6uerje: 这是国产的软件吗
F1V3.0-图形-GIS基础知识
ckshj123: 国内有没有和大疆类似的建模无人机产品啊？
使用大数据技术处理风电场机组采集数据
ljs_888: 您好，数据能分享一点吗，谢谢！
使用大数据技术处理风电场机组采集数据
ljs_888: 您好，数据能分享一点吗，谢谢！
Kafka基础运维
石臻臻的杂货铺: https://shirenchuang.blog.csdn.net/article/details/118215928 【kafka运维】Kafka全网最全最详细运维命令合集(精品强烈建议收藏!!!)

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。