Hadoop 和 Spark中shuffle阶段的区别

1. 排序方式不同

hadoop的shuffle阶段会map端输出的进行排序分区
Spark的shuffle阶段不会对map输出的数据进行排序

2. 溢出不同

hadoop阶段有存在一个环形缓冲区,当缓冲区达到阈值(默认80%)的时候,会将数据溢出到磁盘中,并最终形成一个输出文件,而Spark虽然存在溢出,但不必须存在这个溢出过程,文件都是在并发在写,最后不需要合并成一个

3.数据结构不同

hadoop的shuffle阶段是基于文件的数据结构
Spark的shuffle阶段是基于RDD的数据结构,计算性能要比hadoop要高

4.shuffle Fetch操作和数据计算粒度不同处理完

hadoop的Fetch是粗粒度的,一边进行Fetch操作一边进行reduce操作,只要有一个map完成reduce就可以工作了,Spark是细粒度的,一边进行Fetch操作一边等所有数据全部进行aggregate操作

5.性能优化角度不同

hadoop的shuffle阶段比较单一,而Spark的shuffle阶段会使用不同类型的参数和不同类型的shuffle Write方式

6.copy方式不同

hadoop采用框架jetty,Spark则是采用netty或者socket流

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值