Spark 1.2以后默认用SortShuffleManager
不同点:
Mapreduce Shuffle | Spark Shuffle | |
map端大文件的索引文件 | 没有 | 有 |
map端输出的文件是否有序 | 有序 | 如果启用byPass机制则不会排序,反之会排序 |
reduce端读取文件 | 直接读取map输出的大文件 | 先读取索引文件 |
启用byPass机制的触发条件:
- shuffle
Spark 1.2以后默认用SortShuffleManager
不同点:
Mapreduce Shuffle | Spark Shuffle | |
map端大文件的索引文件 | 没有 | 有 |
map端输出的文件是否有序 | 有序 | 如果启用byPass机制则不会排序,反之会排序 |
reduce端读取文件 | 直接读取map输出的大文件 | 先读取索引文件 |
启用byPass机制的触发条件: