1. 排序方式不同
hadoop的shuffle阶段会map端输出的进行排序分区
Spark的shuffle阶段不会对map输出的数据进行排序
2. 溢出不同
hadoop阶段有存在一个环形缓冲区,当缓冲区达到阈值(默认80%)的时候,会将数据溢出到磁盘中,并最终形成一个输出文件,而Spark虽然存在溢出,但不必须存在这个溢出过程,文件都是在并发在写,最后不需要合并成一个
3.数据结构不同
hadoop的shuffle阶段是基于文件的数据结构
Spark的shuffle阶段是基于RDD的数据结构,计算性能要比hadoop要高
4.shuffle Fetch操作和数据计算粒度不同处理完
hadoop的Fetch是粗粒度的,一边进行Fetch操作一边进行reduce操作,只要有一个map完成reduce就可以工作了,Spark是细粒度的,一边进行Fetch操作一边等所有数据全部进行aggregate操作
5.性能优化角度不同
hadoop的shuffle阶段比较单一,而Spark的shuffle阶段会使用不同类型的参数和不同类型的shuffle Write方式
6.copy方式不同
hadoop采用框架jetty,Spark则是采用netty或者socket流