Hive的分组排序方法-row_number

最新推荐文章于 2024-06-22 19:55:29 发布

jiajiahebangbang

最新推荐文章于 2024-06-22 19:55:29 发布

阅读量9.5k

点赞数 1

分类专栏： HIVE 文章标签： hive

本文链接：https://blog.csdn.net/u014571011/article/details/51907822

版权

HIVE 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这个方法总而言之就是帮助用户减少工作量

比如，如下结构：

CREATE TABLE user_order(
user_id int COMMENT '用户ID'
pro_id int COMMENT '产品ID',
value STRING COMMENT '价格' 
)

查出每个用户买的价值最高的两个用品，如果不用row_number费点时间也是可以写出来的，但是用row_number就比较快捷：
SELECT user_id,pro_id,value FROM ( SELECT user_id,pro_id,value, row_number() over (PARTITION BY user_id OREDER BY value DESC) as flag WHERE flag<=2 );
除Row_number外还有rank,dense_rank
以下是语法：
rank() over([partition by col1] order by col2)
dense_rank() over([partition by col1] order by col2)
row_number() over([partition by col1] order by col2)

功能差不多，但是有细微的差别
rank排序时出现相等的值时会有并列，即值相等的两条数据会有相同的序列值
row_number的排序不允许并列，即使两条记录的值相等也不会出现相等的排序值
dense_rank排序的值允许并列，但会跳跃的排序，像这样：1,1,3,4,5,5,7.