order by :全排序
sort by :部分排序(分区内有序):
Distrbute By :类似MR中Partition,进行分区,结合sort by使用。
cluster by :当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC。
可以设置reduces的个数:
set mapreduce.job.reduces=5
可以看到reduce tasks 数量为:5