本篇博客主要整理并亲自验证一下count(*), count(1)和count(column-name)的区别,本部的内容主要参考stackoverflow,除此之外,对聚集函数中是否包含NULL值进行了验证。
本文所有测试数据基于macOS10.14.3,mysql5.7.25。
一、数据
本文主要使用2张数据表,分别是user和product表,其中,user表的“name”和“product_id”字段是varchar类型,“id”和“record”是int类型;product表的“id”是varchar类型,“price”是double类型。两个表都没有设置主键和外键。
其数据如下:
①user表
name | id | record | product_id |
---|---|---|---|
A | 1 | 10 | id1 |
A | 2 | 5 | id2 |
A | 3 | 1 | id2 |
B | 6 | NULL | id4 |
B | NULL | 1 | id3 |
NULL | 4 | NULL | id3 |
NULL | 5 | 2 | NULL |
NULL | NULL | NULL | NULL |
②product表
id | price |
---|---|
id1 | 25.00 |
id2 | 75.00 |
id3 | 100.00 |
注意:上表中的NULL不是字符串NULL,而是表示mysql中的填充符NULL。
二、sql语句
1、count(column-name)
count(column-name): 统计column-name所在列non-NULL的记录数;重复的非NULL元素多次计数。
count(distince(column-name)): 统计column-name所在列non-NULL的记录,且去重,也就是重复的non-NULL元素只计数一次。
下面是关于二者的例子:
SELECT COUNT(name) FROM user # 输出为5,只计算non-NULL值
SELECT COUNT(DISTINCT(name)) FROM user # 输出为2,DISTINCT(name)包含NULL值,但是count()之后就不再包括
2、count(*) vs count(1)
count(*): 统计所有数据的行数(含有NULL的也计算在内)
count(1): 功能和count(*)一样,输出结果也一样,性能也没差别。
①举例1:
SELECT COUNT(*) FROM user # 输出为8,包含null值,某一个字段为null或者所有字段都为null的行都包括在内
SELECT COUNT(1) FROM user # 输出为8,包含null值,某一个字段为null或者所有字段都为null的行都包括在内
②举例2:
SELECT product.id, COUNT(*)
FROM user
LEFT JOIN product ON user.product_id=product.id
GROUP BY product.id
将count(*)换成count(1)的结果也是一样的,其结果(二者结果一样):
执行计划(二者结果一样)如下:
注:在30w的数据量上使用count(*)和count(1),发现时间性能也是一样的。当count(*)和count(1)选择时,一般选择使用count(*),mysql官方语句也给出的count(*)[官方文档:counting-rows]。
3、其他聚集函数
在别人的博客上看到一句话:所有聚集函数中,除了COUNT(*)计算NULL值之外,其他的都是自动只将non-NULL值计算在内。这里举些例子验证一下这个问题。
SELECT SUM(record) FROM user #输出为19,只计算non-NULL的值
SELECT COUNT(record) FROM user #输出为5,只计算non-NULL的数目
SELECT AVG(record) FROM user #输出为3.8,只计算non-NULL的数目
SELECT COUNT(DISTINCT(record)) FROM user # 输出为4,DINTINCT(record)是包含null的,但是COUNT()之后就不包括null了
SELECT MAX(record) FROM user # 输出为10
SELECT MIN(record) FROM user # 输出为1,所以只计算包含non-NULL的值,NULL是不默认为0的
4、其他
另外,这里顺便说明一下FORMAT()和ROUND()的区别:
SELECT FORMAT(1234.4476566555,5) # 输出为1,234.44766,四舍五入,返回类型是字符串,所以会自动加逗号
SELECT ROUND(1234.4476566555,5) # 输出为1234.44766,四舍五入,FORMAT和ROUND功能一样,都是四舍五入,但是FORMAT会自动加逗号,而ROUND不会
SELECT ROUND(now(), '%Y %m %d %h') # 返回当前时间
三、总结
- 验证了聚集函数关于NULL值的处理:除了count(*)之外的其他聚集函数(包括count(column-name), sum(), avg(), max(), min())都只操作non-NULL的值。
- count(1)和count(*)在mysql中没有区别,无论是结果还是性能都是相同的。(在其他数据库中是否一致不确定)
参考文章:
[1] count() vs count(column-name) - which is more correct? [duplicate]
[2] COUNT() vs. COUNT(1) vs. COUNT(pk): which is better? [duplicate]