Spark与MR的区别

cluse_ld

已于 2022-08-29 15:47:13 修改

阅读量552

点赞数

分类专栏： spark MapReduce 文章标签： spark mr 大数据

于 2022-08-29 10:13:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Laoddaaa/article/details/126578032

版权

spark 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

1. 速度

spark把运算的中间数据存放在内存中，迭代效率更高；
mapreduce的中间结果需要落盘，这样必然会涉及到IO，影响性能；

2. 容错性

spark容错性高，它通过弹性分布式数据集RDD来实现高效容错，RDD是一组分布式的存储在节点内存中的只读性质的数据集，这些集合是弹性的，某部分丢失或者出错，可以通过整个数据集的计算流程的血缘关系来重建。
mapreduce的容错只能重新计算，成本较高。

3. 适用性

spark更加通用，spark提供了transformation和action这两大类的多个API，另外还有流式处理sparkstreaming模块、图计算GraphX。
mapreduce只提供map和reduce两种操作，流计算以及其他模块的支持比较缺乏。

4. 框架和生态

Spark框架和生态更复杂适用范围更广，首先由RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等，很多时候spark作业都需要根据不同的业务场景的需要进行调优，以达到性能要求。
MR框架及其生态相对较为简单，对性能的要求也相对小弱，但是运行很稳定，适合长期后台运行及离线海量数据挖掘。

5. 运行环境

spark大致有四种运行模式：local本地模式、standalone使用Spark自带的资源管理框架运行spark应用、yarn将spark应用提交到yarn上运行、mesos与yarn类似；
MR运行在yarn上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cluse_ld CSDN认证博客专家 CSDN认证企业博客

码龄3年

187: 原创

32万+: 周排名

43万+: 总排名

5万+: 访问

: 等级

1899: 积分

8: 粉丝

22: 获赞

15: 评论

83: 收藏

私信

关注

热门文章

分类专栏

23春招复习 2篇
大数据面经 2篇
zookeeper 5篇
计算机网络 4篇
jdk 3篇
集合 3篇
LeetCode 27篇
spark 18篇
hive 10篇
MapReduce 5篇
JUC 15篇
JVM 1篇
剑指 Offer 60篇
scala 4篇
hbase 2篇
sqoop 1篇
kafka 8篇
flume 3篇
hadoop 4篇
Yarn 2篇
hdfs 5篇

最新评论

携程面经1
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
ArrayList和LinkedList的区别
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
同步锁的分类
路遥万里: 太全面了吧
CC23 最长的连续元素序列长度
cluse_ld: 你不是我第一个铁粉天理难容
CC23 最长的连续元素序列长度
路遥万里: 博主666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。