spark比mapreduce快的一个原因

接触spark时间不长,但是有些概念还是没有太校准,于是回顾了一下spark的文档。读到shuffle操作那块发现spark的shuffle操作后的reduce也是存储到文件然后从文件中读取。以前一直以为spark快是因为这部分操作是在内存中执行,也就是reduce操作从内存中读取shufflemaptask的结果。看来以后学知识还是要扎实一点,慢一点没有关系。

上面指出了,spark也是从文件中读取shuffle结果,那快速的原因在哪里呢?

  1. rdd缓存,rdd计算是可以设置缓存的
  2. map缓存,map的结果也是会被缓存的,以便以后利用。 (以上这两点是官网找到的)
  3. 对shuffle操作的优化,生成的中间文件减少了,那么磁盘io就会减少。
  4. 由于mapreduce会对数据进行排序,所以reduce操作必须等到文件全部生成并进行排序之后才可以进行。spark不是这种自动排序,因此可以生成一点,刷新ShuffleMapTask缓冲区到文件中,然后直接进行reduce
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值