hive通过grouping sets多维度组合去重统计避免使用distinct

最新推荐文章于 2024-07-28 22:09:44 发布

浮云6363

最新推荐文章于 2024-07-28 22:09:44 发布

阅读量3.1k

点赞数 1

分类专栏： # hive 大数据相关

本文链接：https://blog.csdn.net/lz6363/article/details/104467982

版权

大数据相关同时被 2 个专栏收录

94 篇文章 1 订阅

订阅专栏

hive

52 篇文章 3 订阅

订阅专栏

在hive中，如果遇到多维度组合统计，并且要进行去重统计，例如统计不同维度组合的访问用户数，比如统计运营商、手机品牌、网络类型的用户数，怎样避免不用ditinct（因为distinct效率低），并且grouping__id和以前维度组合保持一致呢？

select * from temp.temp_active_user_info t limit 10;

在这里插入图片描述
实现方法一：通过grouping sets和distinct进行统计

select grouping__id as group_id, 
       nvl(phone_brand, '剔重汇总') phone_brand, 
       nvl(network_type, '剔重汇总') network_type, 
       nvl(provider_name, '剔重汇总') provider_name, 
       count(distinct user_id) user_num
  from temp.temp_active_user_info t
 group by phone_brand,     --1
          network_type,    --2
          provider_name    --4
grouping sets (
 (phone_brand),      --1
 (network_type, provider_name)   --6
);

统计结果
在这里插入图片描述
实现方法二：通过grouping sets将user_id加入维度组合再进行group by统计

select group_id, phone_brand, network_type, provider_name, count(1) user_num
  from 
  (
    select cast(grouping__id as bigint)&7 as group_id,--一定要先将grouping__id转换为数值类型 
           nvl(phone_brand, '剔重汇总') phone_brand, 
           nvl(network_type, '剔重汇总') network_type, 
           nvl(provider_name, '剔重汇总') provider_name, 
           user_id
      from temp.temp_active_user_info t
     group by phone_brand,     --1
              network_type,    --2
              provider_name,   --4
              user_id          --8
    grouping sets (
     (phone_brand, user_id),      --9&7=1
     (network_type, provider_name, user_id)   --14&7=6
    )
  ) t
 group by group_id, phone_brand, network_type, provider_name
;