Hive的Order/Sort/Cluster/Distribute by比较

锐明清风

已于 2024-03-30 11:31:05 修改

阅读量430

点赞数 3

分类专栏： hive 文章标签： hive hadoop 数据仓库

于 2024-03-30 10:37:48 首次发布

本文链接：https://blog.csdn.net/coder184/article/details/137139236

版权

hive 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

sort by和cluster by的区别：

distribute by：

总结

前言

Hive中这四种by各有区别，相互之间衔接一些联系，值得简单总结一下，有利于不同场景下的切换使用。

一、基本介绍

order by：

根据字段列，对行进行排序

语法：

colOrder: ( ASC | DESC )
colNullOrder: (NULLS FIRST | NULLS LAST)           -- (Note: Available in Hive 2.1.0 and later)
orderBy: ORDER BY colName colOrder? colNullOrder? (',' colName colOrder? colNullOrder?)*
query: SELECT expression (',' expression)* FROM src orderBy

示例：

## 对col1的列值，进行降序排序，空值置于首位
select col1 from t1 order by col1 desc nulls first

sort by：

根据字段列，对行进行排序

语法：

colOrder: ( ASC | DESC )
sortBy: SORT BY colName colOrder? (',' colName colOrder?)*
query: SELECT expression (',' expression)* FROM src sortBy

示例：

## 对col1的列值，进行降序排序
select col1 from t1 sort by col1 desc

order by和sort by的区别：

order by保证在输出结果中，全局有序；sort by只能保证reducer内有序，二者作用范围不同！

换言之，输出只产生一个reducer时，二者的执行结果一致；

输出产生多个reducer时，二者的执行结果绝大可能会存在差异；

order by如果要保证全局有序，会在reducer阶段排序完之后，再进行归并排序，所以当设置多个reducer时，order by势必比sort by更消耗性能；

故order by和sort by的使用需视场景而定，能使用sort by的时候，尽量使用sort by！

cluster by：

Cluster By 是 Distribute By 和 Sort By 的快捷方式

示例：

## 根据col1进行cluster，先distribute，再sort
SELECT col1, col2 FROM t1 CLUSTER BY col1

sort by和cluster by的区别：

二者区别是：后者多出一个distribute by的处理环节；

即cluster，先进行distribute by，再进行sort by；

而sort by，显然只进行sort by；

distribute by：

根据字段列，将数据行分配到不同的reducer；

规则是：先将全部的reducer进行编号，数据行最终被分配到哪个reducer，取决于计算得出的编号，计算方法是：编号=hash(字段值) % reducer的数量；

示例：

## 根据col1将数据行分配到不同的reducer中
SELECT col1, col2 FROM t1 DISTRIBUTE BY col1

用户可以指定 Distribute By 和 Sort By，而不是指定 Cluster By，因此分区列和排序列可以不同。

示例：

## 根据col1，将数据行分配到不同的reducer，在每个reducer中按照col1升序，col2降序
SELECT col1, col2 FROM t1 DISTRIBUTE BY col1 SORT BY col1 ASC, col2 DESC

总结

只使用sort by，数据随机分配到reducer中，不会出现数据倾斜问题；

使用cluster by或者distribute by，因为使用了hash的规则，有很大可能会出现数据倾斜问题；

总而言之，根据场景选择合适的by。

锐明清风

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Hive的Order/Sort/Cluster/Distribute by比较

Hive中这四种by各有区别，相互之间衔接一些联系，值得简单总结一下，有利于不同场景下的切换使用。根据字段列，对行进行排序)*## 对col1的列值，进行降序排序，空值置于首位只使用sort by，数据随机分配到reducer中，不会出现数据倾斜问题；使用cluster by或者distribute by，因为使用了hash的规则，有很大可能会出现数据倾斜问题；总而言之，根据场景选择合适的by。
复制链接

扫一扫

专栏目录