spark相比MapReduce的优势

最新推荐文章于 2023-06-20 14:12:53 发布

VIP文章 JackLi_csdn

最新推荐文章于 2023-06-20 14:12:53 发布

阅读量1.6k

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JackLi31742/article/details/51516701

版权

spark 比Hadoop快的原因：数据本地性、调度优化、传输优化，最主要的是基于内存计算和引入了DAG。Hadoop的计算结果在磁盘中，spark是在内存中；数据计算任务需要多个步骤时，Hadoop需要引入Oozie等工具，但是spark有DAG

Hadoop中，每一个job 的计算结果都会存储在hdfs中，所以每一步计算都要进行硬盘的IO，大大增加了系统的延迟。

对rdd的操作可以像函数式编程中操作内存中的集合一样直观，简便

MapReduce会将中间数据存放于硬盘中，而spark会把中间数据缓存在内存中，从而减少了很多IO导致的延迟，而且spark把迭代过程中每一步的计算结果都缓存在内存中，所以非常适合各类迭代算法

在任务（task）级别，spark的并行机制是多线程模型，而MapReduce是多进程模型

spark 随时可以把计算好的rdd缓存在内存中，以便下次计算时使用，大幅度减少了硬盘读写的开销，而且缓存rdd的时候，它所有的依赖关系也会被一并存下来，所以持久化的rdd有自动的容错机制，如果rdd的任一分区丢失了，通过使用原先创建它的转换操作，它将会被自动重算

同时惰性求值的设计可以让spark的运算更加高效和快速。比如在行动操作first()的时候开始真正的运算，只扫描第一个匹配的，不需要读取整个文件。
参考：
http://f.dataguru.cn/thread-629612-1-1.html
http://lxw1234.com/archives/2016/05/666.htm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark相比MapReduce的优势

1、引入了新的ANSI SQL解析器，并支持子查询功能。 Spark 2.0可以运行所有99个TPC-DS查询（需求SQL：2003中的很多功能支持）。 2、简化了API：参考： http://f.dataguru.cn/thread-629612-1-1.html http://lxw1234.com/archives/2016/05/666.htm
复制链接

扫一扫

专栏目录

JackLi_csdn CSDN认证博客专家 CSDN认证企业博客

码龄8年

242: 原创

6万+: 周排名

1万+: 总排名

16万+: 访问

: 等级

3420: 积分

14: 粉丝

33: 获赞

6: 评论

88: 收藏

私信

关注

热门文章

分类专栏

最新评论

shell使用
qismidlei: 字都能打歪来，变成语言
命令使用
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(2)增加条理清晰的目录；(3)使用标准目录。
shell使用
CSDN-Ada助手: 运维最常用的变成语言应该是shell和python，你觉得有没有其他语言也会是运维必备？
192.168.1.0/24
鱼粥的唐七: 24位：主机位8位----全0的是网络地址，用来标志这个网络；全1的是广播地址，用来代表这个网络上的所有主机。
java8
Kelly—zxy: Lambda 表达式学习了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。