Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having

最新推荐文章于 2024-05-29 11:54:13 发布

Mike_H

最新推荐文章于 2024-05-29 11:54:13 发布

阅读量1.1w

点赞数 1

本文链接：https://blog.csdn.net/Mike_H/article/details/50161407

版权

本文介绍了Hive中的数据聚合操作，包括基于Group By的基本聚合函数，如COUNT、SUM等，并详细讲解了高级聚合GROUPING SETS、ROLLUP和CUBE的使用，以及聚合条件HAVING的应用。通过示例展示了这些功能如何帮助在Hive中进行多级汇总和条件过滤。

摘要由CSDN通过智能技术生成

今天跟大家介绍一些 Hive 中的高级操作-数据聚合。这里主要根据以下三部分向大家介绍一下Hive 中常见的聚合：

基于 Group By 的基本聚合函数
高级聚合 -- GROUPING SETS & ROLLUP and CUBE
聚合条件 -- Having

1. 基于 Group by 的基本聚合函数

数据聚合是基于特定的条件使用数据汇总的形式来收集和表达更多的信息。Hive 提供了一些内置的聚合函数,如MAX, MIN, AVG等等。Hive 还支持高级的聚合: GROUPING SETS, ROLLUP, CUBE,分析函数[analytic functions],以及 windowing。
Hive 的基本内置的聚合函数通常使用GROUP BY子句。如果没有GROUP BY子句指定,默认情况下它是对整个表进行聚合。除了聚合函数, 所有其他 select 的列也必须包含在GROUP BY子句中(分析函数除外)。以下是几个例子使用内置的聚合函数:
注意：关于窗口函数 & 分区表函数请参考 SQL Windowing 项目: http://blog.csdn.net/mike_h/article/details/50245995

没有GROUP BY字段的聚合：

<span style="font-size:12px;">jdbc:hive2://> SELECT count(*) AS row_cnt FROM employee;
+----------+
| row_cnt |
+----------+
| 5 |
+----------+
1 row selected (60.709 seconds</span>

对 GROUP BY字段进行聚合：

<span style="font-size:12px;">jdbc:hive2://> SELECT sex_age.sex, count(*) AS row_cnt 
. . . . . . .> FROM employee 
. . . . . . .> GROUP BY sex_age.sex;
+--------------+----------+
| sex_age.sex | row_cnt |
+--------------+----------+
| Female | 2 |
| Male | 3 |
+--------------+----------+
2 rows selected (100.565 seconds)</span>

--select 字段名必须包含在 Group by 字段中

<span style="font-size:12px;">jdbc:hive2://> SELECT name, sex_age.sex, count(*) AS row_cnt 
. . . . . . .> FROM employee GROUP BY sex_age.sex;
Error: Error while compiling statement: FAILED: SemanticException [Error 10025]: Line 1:7 Expression not in GROUP BY key 'name' (state=42000,code=10025) </span>

如果我们必须要 SELECT 一些 GROUP BY 中没有的字段, 我们有两种方法：