count(*)、count(1)、count(字段)的区别

一个散步者的梦

已于 2022-09-18 21:48:01 修改

阅读量1.1k

点赞数

分类专栏： SQL HIVE 文章标签： sql 数据库

于 2022-09-18 21:43:55 首次发布

本文链接：https://blog.csdn.net/me_to_007/article/details/126923409

版权

SQL 同时被 2 个专栏收录

11 篇文章 2 订阅

订阅专栏

HIVE

10 篇文章 0 订阅

订阅专栏

在统计记录行中常常会使用到count函数，通常有count(*),count(1),count(字段)这几种写法，在实际执行中可能有些许区别。

count(字段)
如果字段中包含null，不会被统计记录行
count(*)
如果是null也会被统计记录行。在HIVE中，count(*)在统计记录行时，不会读取表数据，只会用到文件中每一行的偏移量，偏移量是数据写入HDFS文件时HDFS添加的。
count(1)
与count(*)类似，如果是null也会被统计记录行。

count(列)会涉及字段的筛选，以及数据序列化和反序列化，相对count(*)和count(1)的性能会更占优。在不同数据存储格式里，这个结论不一定成立。例如，在ORC文件中（HIVE中），count算子可以直接读取索引中的统计信息，三者最后的表现性能差异不大。

现在有一张表user_tb，字段name（包含null）：

name
alice
bob
null
mary

sql语句：select count(1) as tb_cnt,count(name) as name_cnt from user_tb，返回：

tb_cnt	name_cnt
4	3

其他聚合函数，比如max(字段),min(字段),sum(字段)同count(字段)也是一样的，在计算时会跳过null。
有点不同的是，如果一个字段全是null，count(字段)返回的是0，即没有该字段记录行，而sum(字段)返回的是null。
或可这么理解：null一般可理解为不确定，如果该字段值不确定，进行求和返回也是不确定。