order by
全局排序,reduceTask个数设置大于1也没用,默认只会走一个reduce任务,否则无法保证全局排序
sort by和 distribute by
这两个一般一起使用 按照distribute by后边的字段先进行分区,然后再按照sort by后边的字段进行排序,reduceTask任务个数会等于distribute by字段分区的个数。
cluster by
当sort by 和 distribute by 的字段一样时,就可以用cluster by 代替。
当有100个部门,我需要分三个区,每个区内都按部门编号排序就可以使用这个排序