distribute by:控制着在map端如何分区,按照什么字段进行分区,要注意均衡 sort by:每个reduce按照sort by 字段进行排序,reduce的数量按照默认的数量来进行,当然可以指定。 最终可以进行归并排序得出结果。 适用于数据量比较大的排序场景。 order by:reduce只有一个,在一个reduce中完成排序,使用于数据量小的场景。