1、HiveSQL中 聚合操作时null和''对结果的影响
代码示例:
with temp as
(select null as a
union all
select '111' as a
union all
select '222' as a
union all
select '333' as a
union all
select '' as a
)
select sum(a), -- null 不会参与运算,'' 会转换成0
avg(a), -- null 不会参与运算,'' 会转换成0
min(a),
max(a),
count(1), -- 统计整表记录数(包含null,'')
count(a), -- 统计指定字段的行数(不包含null)
count(*) -- 统计整表记录数(包含null,'')
from temp;
运行结果:
HiveSQL语义下,会自动将''转换为0,这种方式不推荐,建议在构建模型表时数值类型的数据还是用int来存储,避免歧义的发生
关于统计记录数:
count(1) = count(*) 都用来统计表的记录数(包含null)
count(id) = count(id) where id != null 用来统计指定字段不为null的行数
关于聚合函数:
sum() : null 不会参与运算,'' 会转换成0
avg(a), null 不会参与运算,'' 会转换成0,注意 ''行记录也会参与分母行数计算
min(id),null 不会参与运算,‘’ 空值会参与计算
max(id),null 不会参与运算,‘’ 空值会参与计算