spark比mapreduce快的一个原因

最新推荐文章于 2024-02-20 16:03:48 发布

little_newBee

最新推荐文章于 2024-02-20 16:03:48 发布

阅读量3.4k

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/little_newbee/article/details/80915472

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

接触spark时间不长，但是有些概念还是没有太校准，于是回顾了一下spark的文档。读到shuffle操作那块发现spark的shuffle操作后的reduce也是存储到文件然后从文件中读取。以前一直以为spark快是因为这部分操作是在内存中执行，也就是reduce操作从内存中读取shufflemaptask的结果。看来以后学知识还是要扎实一点，慢一点没有关系。

上面指出了，spark也是从文件中读取shuffle结果，那快速的原因在哪里呢？

rdd缓存，rdd计算是可以设置缓存的
map缓存，map的结果也是会被缓存的，以便以后利用。（以上这两点是官网找到的）
对shuffle操作的优化，生成的中间文件减少了，那么磁盘io就会减少。
由于mapreduce会对数据进行排序，所以reduce操作必须等到文件全部生成并进行排序之后才可以进行。spark不是这种自动排序，因此可以生成一点，刷新ShuffleMapTask缓冲区到文件中，然后直接进行reduce

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
spark比mapreduce快的一个原因

接触spark时间不长，但是有些概念还是没有太校准，于是回顾了一下spark的文档。读到shuffle操作那块发现spark的shuffle操作后的reduce也是存储到文件然后从文件中读取。以前一直以为spark快是因为这部分操作是在内存中执行，也就是reduce操作从内存中读取shufflemaptask的结果。看来以后学知识还是要扎实一点，慢一点没有关系。上面指出了，spark也是从文件...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。