order by是在一个reduce中进行数据的排序
sort by是在不同的reduce中进行数据的排序,执行了局部排序之后可以为接下去的全局排序提高不少的效率(其实就是做一次归并排序就可以做到全局排序了)。
distribute by是聚合,指定map分配到哪个reduce
distribue by和sort by结合起来可以在数据量很大时可以将相同的数据分到同一reduce中去排序
distribute by 和sort by=cluster by
order by是在一个reduce中进行数据的排序
sort by是在不同的reduce中进行数据的排序,执行了局部排序之后可以为接下去的全局排序提高不少的效率(其实就是做一次归并排序就可以做到全局排序了)。
distribute by是聚合,指定map分配到哪个reduce
distribue by和sort by结合起来可以在数据量很大时可以将相同的数据分到同一reduce中去排序
distribute by 和sort by=cluster by