distribute by
DISTRIBUTE BY是控制map的输出在reducer是如何划分的
DISTRIBUTE BY是控制在map端如何拆分数据给reduce端的。
DISTRIBUTE BY可以控制某个特定行应该到哪个reducer。
distribute by 是根据has取模的结果来分区
````

如果有order ,顺序如下
cluster by
partition by 根据字段名分区的
基本与上图一致