Hive grouping sets 多维度交叉清洗数据

工作中经常会遇到需要多维度交叉清洗数据的情况,比如计算每天的活跃用户数,需要知道每天整体dau,同时也需要知道不同平台如Android、iOS各自的dau,

一般情况下这种情况可能需要写两个query,第一个query仅按日期 group by,第二个query按日期+平台 group by,

针对这种情况Hive提供了grouping sets,可以用更简洁的方式通过一个query实现相同的效果。

语法结构如下:

select day_id,platform,count(distinct user_id) dau
from table_name
group by day_id,platform
grouping sets(
(day_id),
(day_id,platform)
)

grouping sets中的(day_id),(day_id,platform)代表两个group by组合,相当于两个query使用了不同的group by逻辑union all的结果

select day_id,'' platform,count(distinct user_id) dau
from table_name
group by day_id

union all
select day_id,platform,count(distinct user_id) dau
from table_name
group by day_id,platform

grouping sets可以让我们在处理多维度交叉数据时变的方便很多,极大减少了相关代码量及运算效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值