大数据之Hive常用聚合函数

本文详细介绍了ApacheHive中常用的聚合函数,如COUNT(),SUM(),AVG(),MIN(),MAX(),以及如何配合GROUPBY进行分组统计。同时涵盖了标准差、方差、协方差、相关系数等高级统计计算方法,并提到了NULL值处理和不同函数在Hive版本中的适用性。
摘要由CSDN通过智能技术生成

在 Apache Hive 中,聚合命令是指使用聚合函数对一组数据进行计算,并返回单个值的过程。以下是一些常用的Hive聚合函数:

  1. COUNT()

    • 计算行数或特定列的非空值数量。
    COUNT(*)  -- 统计所有行数,包括NULL值
    COUNT(column_name)  -- 统计指定列非NULL值的数量
    
  2. SUM()

    • 对数值类型的列求和。
    SUM(salary)  -- 计算salary列的所有值总和
    
  3. AVG()

    • 计算平均值。
    AVG(age)  -- 计算age列的平均年龄
    
  4. MIN()MAX()

    • 找出一列中最小和最大的值。
    MIN(order_date)  -- 找出最早的订单日期
    MAX(sales_amount)  -- 找出最高的销售额
    
  5. 标准差与方差

    • STDDEV_POP():计算整个总体的标准差。
    • STDDEV_SAMP():计算样本的标准差。
    • VARIANCE()VAR_POP():计算整个总体的方差。
    • VAR_SAMP():计算样本的方差。
    STDDEV_POP(salary)  -- 计算salary列的总体标准差
    VAR_SAMP(weight)  -- 计算weight列的样本方差
    
  6. 分组统计
    聚合函数通常配合GROUP BY子句一起使用,对不同分组的数据分别应用聚合操作。

    SELECT department, AVG(salary), MAX(salary)
    FROM employees
    GROUP BY department;
    
  7. 其他聚合函数

    • COVAR_POP()COVAR_SAMP():计算两个列之间的协方差(总体和样本)。
    • CORR():计算两列间的相关系数。
    • PERCENTILE()PERCENTILE_APPROX():计算列值的百分位数。
    • COLLECT_SET()COLLECT_LIST():收集一组唯一值或者所有值到一个集合。

注意:这些聚合函数不能应用于具有NULL值的列,除非明确指定了处理NULL的方式(例如,在某些数据库系统中可以使用COUNTIF()等函数)。此外,某些聚合函数可能在Hive的不同版本中支持程度不同,建议查阅最新的Hive文档以获取最准确的信息。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值