- order by
order by是全局排序,会将所有的数据分发到一个reduce中去。 - sort by
sort by 是是对每个reduce中的数据进行排序,确保单个reduce中的数据都是有序的,这样后续对数据使用一次归并排序就可确保数据全局有序。 - distribute by
distribute by 会将数据按照字段进行hash,确保相同内容的数据都分发到同一个reduce中,一般配合 sort by 字段使用。 - cluster by
cluster by 相当于 distribute by 和 sort by 合用,不过 cluster by 只能使用升序排列。
hive中的四大排序
最新推荐文章于 2024-08-03 11:02:55 发布