工作中经常会遇到需要多维度交叉清洗数据的情况,比如计算每天的活跃用户数,需要知道每天整体dau,同时也需要知道不同平台如Android、iOS各自的dau,
一般情况下这种情况可能需要写两个query,第一个query仅按日期 group by,第二个query按日期+平台 group by,
针对这种情况Hive提供了grouping sets,可以用更简洁的方式通过一个query实现相同的效果。
语法结构如下:
select day_id,platform,count(distinct user_id) dau
from table_name
group by day_id,platform
grouping sets(
(day_id),
(day_id,platform)
)
grouping sets中的(day_id),(day_id,platform)代表两个group by组合,相当于两个query使用了不同的group by逻辑union all的结果
select day_id,'' platform,count(distinct user_id) dau
from table_name
group by day_id
union all
select day_id,platform,count(distinct user_id) dau
from table_name
group by day_id,platform
grouping sets可以让我们在处理多维度交叉数据时变的方便很多,极大减少了相关代码量及运算效率