Hive 用ROW_NUMBER取每组top n

本文介绍了如何在Hive中利用ROW_NUMBER函数获取每个分组内的第一条数据。从0.11.0版本起,Hive提供了ROW_NUMBER()函数,通过配合PARTITION BY进行分组和ORDER BY进行排序,可以方便地实现这一需求。示例代码展示了如何使用该函数,以及如何根据生成的序列rn选取每组的top n记录。
摘要由CSDN通过智能技术生成

今天用hive查数据时需要取每个分组的第一条数据,查了一发现hive 已经从0.11.0版本加入row_number函数,可以满足查询的需求。

ROW_NUMBER() 是从1开始,按照顺序,生成分组内记录的序列
用法如下:

ROW_NUMBER() OVER (partition BY COLUMN_A ORDER BY COLUMN_B ASC/DESC) rn

rn 是排序的别名执行时每组的编码从1开始
partition by:类似hive的建表,分区的意思;COLUMN_A 是分组字段
order by :排序,默认是升序,加desc降序;COLUMN_B 是排序字段

列如:

SELECT 
g_field,
day
pv,
ROW_NUMBER() OVER(PARTITION BY g_field ORDER BY pv desc) AS rn 
FROM test ;

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值