1.order by:对输入的数做全局排序,因此只有一个reduce,即使设置多个reduce,也不生效
2.sort by:为每个reduce产生一个排序文件,多个reduce内部进行排序,如果只有一个reduce,那么全局有序;如果有多个reduce,则保证每个reduce文件内部有序.
3.distribute by:按照指定字段将数据分到不同的reduce,如果不指定就按照一行的哈希值进行分区,结合sort by使用,distribute by 在前,sort by 在后.
4.cluster by:当distribute by 和 sort by 使用同一字段时就可以直接使用cluster by代替