Spark相对于MapReduce的优势对比

最新推荐文章于 2024-07-12 10:07:24 发布

your_blue_sky

最新推荐文章于 2024-07-12 10:07:24 发布

阅读量5.3k

点赞数 1

分类专栏：大数据-Hadoop 文章标签： spark mapreduce 优势对比

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/papaaa/article/details/81738300

版权

大数据-Hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Spark相对于MapReduce的优势

MapReduce存在的问题

1. MapReduce框架局限性

　　1）仅支持Map和Reduce两种操作
　　2）处理效率低效。

　　　　a）Map中间结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据; 任务调度和启动开销大;
　　　　b）无法充分利用内存
　　　　c）Map端和Reduce端均需要排序
　　3）不适合迭代计算(如机器学习、图计算等)，交互式处理(数据挖掘) 和流式处理(点击日志分析)

2. MapReduce编程不够灵活

-　　1）尝试scala函数式编程语言

Spark

高效(比MapReduce快10~100倍)

　　1）内存计算引擎，提供Cache机制来支持需要反复迭代计算或者多次数据共享，减少数据读取的IO开销
　　2）DAG引擎，减少多次计算之间中间结果写到HDFS的开销
　　3）使用多线程池模型来减少task启动开稍，shuffle过程中避免不必要的sort操作以及减少磁盘IO操作
易用
　　1）提供了丰富的API，支持Java，Scala，Python和R四种语言
　　2）代码量比MapReduce少2~5倍
与Hadoop集成读写HDFS/Hbase 与YARN集成
丰富的API（Java、Scala、Python、R四种语言，sort、join等高效算子）
DAG执行引擎，中间结果不落盘
线程池模型减少task启动开销
充分利用内存，减少磁盘IO
避免不必要的排序操作
适合迭代计算，比如机器学习算法

容错：

1.当执行中途失败时，MapReduce会从失败处继续执行，因为它是依赖于硬盘驱动器的。
但是Spark就必须从头开始执行，这样MapReduce相对节省了时间。

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

your_blue_sky CSDN认证博客专家 CSDN认证企业博客

码龄15年

40: 原创

19万+: 周排名

191万+: 总排名

19万+: 访问

: 等级

1753: 积分

20: 粉丝

76: 获赞

17: 评论

187: 收藏

私信

关注

热门文章

分类专栏

最新评论

HDFS机架感知概念及配置实现
菜菜的大数据开发之路: 写了这么多累字，手动字一定很吧！欢迎回访我的博客码
高维稀疏特征的时候，lr 的效果会比 gbdt 好
leekwoksun: 说的太棒了
ubuntu关闭apt-get代理、设置http代理
人间三千事，淡然一笑间: cat: /etc/enviroment: No such file or directory 拼错·了兄弟
ubuntu redis服务
旺仔OO糖: 学习的道路上一起进步，也期待你的关注与支持
ubuntu关闭apt-get代理、设置http代理
香草菠萝蜜: 真的是太感谢博主您了，解决了我一直没能解决的问题，我就是在ubuntu中开了代理，但是每次执行apt update的命令一直会出现各种错误，前前后后尝试过各种换源换代理，始终不能解决，导致我一直不能安装docker。还好今天看了您的文章，真的是因为apt命令也配置了代理，直接sudo rm /etc/apt/apt.conf，就终于能正常安装了,哎，太感谢拉

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。