背景,有一个需求就是有一张用户办理产品渠道表,表中的数据字段如下
用户ID 产品ID 渠道 ID
然后需要统计不同的产品ID下面哪一个渠道ID对应的用户数最多,把最大的那个渠道ID找出来和产品ID一一对应上。
在这个需求上使用了HIVE的开窗函数来实现,具体实现SQL语句如下
select pro_id,qudao_code from
(select pro_id,qudao_code,row_number() over(partition by pro_id order by a.num desc) rank from
(select pro_id , qudao_code ,count(distinct user_id) as num from user_pro group by pro_id,qudao_code)a)b
where b.rank=1
将此SQL拆解开来分为了三步来实现,第一步就是按照产品ID和渠道ID来进行一个统计分组,得到不同的产品ID在不同的渠道ID下的用户数;第二步就是对第一步的结果进行一个用户数量的降序的排序按照产品ID来分组;第三步就是对第二步排序获取编号后的数据取出排第一的数据,那么就得到对应的产品ID,渠道ID一对一。