1、数据准备
企业一 部门一 张三1
企业一 部门二 张三2
企业一 部门三 张三3
企业一 部门四 张三4
企业二 部门一 李四1
企业二 部门二 李四2
企业二 部门三 李四3
企业二 部门四 李四4
企业三 部门一 王二1
企业三 部门二 王二2
企业三 部门三 王二3
企业三 部门四 王二4
2、建测试表
CREATE TABLE qc_test.dsw_test_group (
company string,
department string,
`employee` string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
load data local inpath '/home/test/dusw/test_group_set.txt' overwrite into table qc_test.dsw_test_group;
3、测试grouping sets效果
运行如下sql:
select grouping__id, nvl(company,'所有企业'),nvl(department,'所有部门'),count(1) as userCnt
from qc_test.dsw_test_group
group by company,department
grouping sets((company,department),company,department,())
order by grouping__id;
结果如下:
0 所有企业 所有部门 12
1 企业二 所有部门 4
1 企业三 所有部门 4
1 企业一 所有部门 4
2 所有企业 部门二 3
2 所有企业 部门三 3
2 所有企业 部门一 3
2

本文通过数据准备、创建测试表和实际测试,详细介绍了Hive中grouping sets的使用。grouping sets能实现多维度聚合,并且比单独group by后union all效率更高,因为它减少了job数量和分组的编号不会因组合顺序变化而变化。
最低0.47元/天 解锁文章
396

被折叠的 条评论
为什么被折叠?



