distribute by
DISTRIBUTE BY是控制map的输出在reducer是如何划分的
DISTRIBUTE BY是控制在map端如何拆分数据给reduce端的。
DISTRIBUTE BY可以控制某个特定行应该到哪个reducer。
distribute by 是根据has取模的结果来分区
````
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210331171748267.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pva2VydGlnZXI=,size_16,color_FFFFFF,t_70)
如果有order ,顺序如下
cluster by
partition by 根据字段名分区的
基本与上图一致