hive、spark、presto 中的增强聚合-grouping sets、rollup、cube

广阔天地大有可为

已于 2023-10-13 10:58:26 修改

阅读量1.4k

点赞数 2

分类专栏： Hive SQL 文章标签： hive spark hadoop

于 2023-09-19 12:40:50 首次发布

本文链接：https://blog.csdn.net/weixin_42845827/article/details/132970245

版权

Hive 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

SQL

1 篇文章 0 订阅

订阅专栏

1、什么是增强聚合和多维分析函数？

2、grouping sets - 指定维度组合

3、with rollup - 上卷维度组合

4、with cube - 全维度组合

5、Grouping__ID、grouping() 的使用场景

6、使用增强聚合会不会对查询性能有提升呢？

7、对grouping sets、with cube、with rollup 的优化

1、什么是增强聚合和多维分析函数？

增强聚合指的是：

在SQL中使用分组聚合查询时，使用 grouping sets、rollup、cube 语句进行操作

在常见的数据引擎中都支持这种语法，比如hive、spark、presto、ck、flinkSQL

使用增强聚合不仅可以简化SQL代码，而且还能对SQL语句的性能有所提升

多维分析指的是：

SQL语法中的多维分析指的是多种维度组合的分析，而不是多种维度的分析

hive官网链接：hive官网

2、grouping sets - 指定维度组合

功能说明：

对指定的分组字段进行多种维度组合的聚合计算

hive-语法：

-- TODO 必须开区map端合并
select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping__id
from 表名 [where ]
group by A,B,C 
grouping sets( (A),(A,B),(A,B,C),..维度组合 )

presto、FlinkSQL、SparkSQL-语法：

select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
grouping sets( (A),(A,B),(A,B,C),..维度组合 )

语法区别：

1、hiveSQL中 group by 后面必须添加分组的字段

presto、flinksql、sparksql group by 后面不需要指定分组字段

2、hiveSQL中可以使用 grouping__id字段

presto、flinksql、sparksql 中并没有提供 grouping__id字段，需要使用grouping(a,b,c) 函数来计算

代码示例(HiveSQL):

-- TODO 必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','郑州市','高开区','张3' union all 
      select '河南省','郑州市','高开区','张4' union all 
      select '河南省','郑州市','高开区','张5' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area grouping sets (
    (prov,city,area),
    (prov)
)
;

代码示例(presto、flinkSQL、sparkSQL):

SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),
              ('河北省','石家庄市','新华区','张2'),
              ('河南省','郑州市','高开区','张3'),
              ('河南省','郑州市','高开区','张4'),
              ('河南省','郑州市','高开区','张5'),
              ('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by grouping sets (
    (prov,city,area),
    (prov)
)
;

3、with rollup - 上卷维度组合

功能说明：

上卷维度组合，较grouping sets相比，不需要指定维度组合

GROUP BY a, b, c, WITH ROLLUP 等价于

GROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (a), ( ))

hive-语法：

-- TODO 必须开区map端合并
select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping__id
from 表名 [where ]
group by A,B,C 
with rollup

presto、FlinkSQL、SparkSQL-语法：

select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
rollup(A,B,C)

代码示例(HiveSQL):

-- 1.必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','郑州市','高开区','张3' union all 
      select '河南省','郑州市','高开区','张4' union all 
      select '河南省','郑州市','高开区','张5' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area with rollup
;

代码示例(presto、flinkSQL、sparkSQL):

SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),
              ('河北省','石家庄市','新华区','张2'),
              ('河南省','郑州市','高开区','张3'),
              ('河南省','郑州市','高开区','张4'),
              ('河南省','郑州市','高开区','张5'),
              ('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by rollup(prov,city,area) 
;

4、with cube - 全维度组合

功能说明：

多维度组合，会计算所有分组字段的维度组合，较grouping sets相比，不需要指定维度组合

GROUP BY a, b, c, WITH CUBE 等价于

GROUP BY a, b, c GROUPING SETS ( (a, b, c), (a, b), (b, c), (a, c), (a), (b), (c), ( ))

cube(key1,key2...) 维度组合数：

hive-语法：

-- TODO 必须开区map端合并
select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping__id
from 表名 [where ]
group by A,B,C 
with cube

presto、FlinkSQL、SparkSQL-语法：

select 
     维度A
    ,维度B
    ,维度C
    ,聚合函数(度量字段) 
    ,grouping(A,B,C) as grouping_id
from 表名 [where ]
group by
cube(A,B,C)

代码示例(HiveSQL):

-- 1.必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','郑州市','高开区','张3' union all 
      select '河南省','郑州市','高开区','张4' union all 
      select '河南省','郑州市','高开区','张5' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area with cube
;

代码示例(presto、flinkSQL、sparkSQL):

SELECT prov,city,area,count(1),grouping(prov,city,area) as grouping_id
FROM (VALUES  ('河北省','石家庄市','新华区','张1'),
              ('河北省','石家庄市','新华区','张2'),
              ('河南省','郑州市','高开区','张3'),
              ('河南省','郑州市','高开区','张4'),
              ('河南省','郑州市','高开区','张5'),
              ('河南省','新乡市','中华区','张6')) AS person_info_df (prov,city,area,name)
group by cube(prov,city,area) 
;

5、Grouping__ID、grouping() 的使用场景

功能说明：

可以用来判断分组字段是否参与聚合，下面为 Grouping__ID 、grouping() 计算逻辑

使用场景：

当使用 grouping sets、with rollup、with cube进行聚合时，对不参与聚合的字段会使用null进行填充，这就导致查询结果中分组字段为null时，无法区分是填充的null还是分组字段本身的null

遇到上述情况，可以使用下面两种解决方式

1、将分组字段中的null进行替换处理，比如9999、other、其他

2、使用 Grouping__ID 或者 grouping() 进行区分

6、使用增强聚合会不会对查询性能有提升呢？

测试用例-grouping sets：

-- TODO 必须开区map端合并
set hive.map.aggr=true;
SELECT prov,city,area,count(1),grouping__id
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city,area grouping sets (
    (prov,city,area),
    (prov,city),
    (prov)
)
;

测试用例-group by + union all：

set hive.map.aggr=true;
SELECT prov,city,area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6'
) AS person_info_df
group by prov,city,area

union all 

SELECT prov,city,null as area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov,city

union all 

SELECT prov,null as city,null as area,count(1)
FROM (select '河北省' as prov,'石家庄市' as city,'新华区' as area,'张1' as name union all 
      select '河北省','石家庄市','新华区','张2' union all 
      select '河南省','新乡市','中华区','张6') AS person_info_df
group by prov

对比执行计划：