HIVE实现count分组统计后提取分组列中的TOP1

背景,有一个需求就是有一张用户办理产品渠道表,表中的数据字段如下

用户ID    产品ID   渠道 ID  

然后需要统计不同的产品ID下面哪一个渠道ID对应的用户数最多,把最大的那个渠道ID找出来和产品ID一一对应上。

在这个需求上使用了HIVE的开窗函数来实现,具体实现SQL语句如下

select pro_id,qudao_code from 
(select pro_id,qudao_code,row_number() over(partition by pro_id order by a.num desc) rank from 
(select pro_id , qudao_code ,count(distinct user_id) as num from user_pro group by pro_id,qudao_code)a)b
where b.rank=1

将此SQL拆解开来分为了三步来实现,第一步就是按照产品ID和渠道ID来进行一个统计分组,得到不同的产品ID在不同的渠道ID下的用户数;第二步就是对第一步的结果进行一个用户数量的降序的排序按照产品ID来分组;第三步就是对第二步排序获取编号后的数据取出排第一的数据,那么就得到对应的产品ID,渠道ID一对一。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值