hive窗口函数经典案列--over()函数

博客详细介绍了如何利用Hive的窗口函数over(),解决每个用户在每月的最高单月访问次数以及截至该月的累计访问总量问题。提供了两种方法,包括一种不推荐的笛卡尔积解决方案。
摘要由CSDN通过智能技术生成

每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数

原始数据
三个字段的意思:
用户名,月份,访问次数
A,2015-01,5 
A,2015-01,15 
B,2015-01,5 
A,2015-01,8 
B,2015-01,25 
A,2015-01,5 


目标数据
用户名,月份,访问次数  最大访问次数  总访问次数
A 1 20 20 20 
A 2 10 30 20 
...
B 4 50 82 82

解决方法:

方法一:

select name, 
month,
 pv, 
sum(pv) over (partition by name order by month asc rows between unbounded preceding and current row) as spv,
max(pv) over (partition by name order by month asc rows between unbounded preceding and current row) as mpv from exercise_pv_temp;

第一个要点:sum max count min avg partition by name order by month asc rows between unbounded preceding and current row partition by name:严格来说是分区,事实上,你完全可以理解成是分组
order by month asc: 每组数据按照month升序排序 

rows between A and B: 到底哪些记录作为一组来计算,添加一个窗口的边界

A:unbounded preceding (从起始数据开始)
3 preceding (当
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值