大数据之Hive常用聚合函数

最新推荐文章于 2024-05-12 19:33:50 发布

转身成为了码农

最新推荐文章于 2024-05-12 19:33:50 发布

阅读量690

点赞数 4

文章标签：大数据 hive hadoop

本文链接：https://blog.csdn.net/alphonse_10/article/details/135385793

版权

本文详细介绍了ApacheHive中常用的聚合函数，如COUNT(),SUM(),AVG(),MIN(),MAX(),以及如何配合GROUPBY进行分组统计。同时涵盖了标准差、方差、协方差、相关系数等高级统计计算方法，并提到了NULL值处理和不同函数在Hive版本中的适用性。

摘要由CSDN通过智能技术生成

在 Apache Hive 中，聚合命令是指使用聚合函数对一组数据进行计算，并返回单个值的过程。以下是一些常用的Hive聚合函数：

COUNT()：

COUNT(*)  -- 统计所有行数，包括NULL值
COUNT(column_name)  -- 统计指定列非NULL值的数量

SUM()：

SUM(salary)  -- 计算salary列的所有值总和

AVG()：

AVG(age)  -- 计算age列的平均年龄

MIN() 和 MAX()：

MIN(order_date)  -- 找出最早的订单日期
MAX(sales_amount)  -- 找出最高的销售额

标准差与方差：
- STDDEV_POP()：计算整个总体的标准差。
- STDDEV_SAMP()：计算样本的标准差。
- VARIANCE() 或 VAR_POP()：计算整个总体的方差。
- VAR_SAMP()：计算样本的方差。
```
STDDEV_POP(salary)  -- 计算salary列的总体标准差
VAR_SAMP(weight)  -- 计算weight列的样本方差
```
分组统计：
聚合函数通常配合GROUP BY子句一起使用，对不同分组的数据分别应用聚合操作。
```
SELECT department, AVG(salary), MAX(salary)
FROM employees
GROUP BY department;
```
其他聚合函数：
- COVAR_POP() 和 COVAR_SAMP()：计算两个列之间的协方差（总体和样本）。
- CORR()：计算两列间的相关系数。
- PERCENTILE() 和 PERCENTILE_APPROX()：计算列值的百分位数。
- COLLECT_SET() 和 COLLECT_LIST()：收集一组唯一值或者所有值到一个集合。

注意：这些聚合函数不能应用于具有NULL值的列，除非明确指定了处理NULL的方式（例如，在某些数据库系统中可以使用COUNTIF()等函数）。此外，某些聚合函数可能在Hive的不同版本中支持程度不同，建议查阅最新的Hive文档以获取最准确的信息。

关注