详解聚合函数count()

最新推荐文章于 2024-06-28 11:29:59 发布

一觀者也

最新推荐文章于 2024-06-28 11:29:59 发布

阅读量3.4k

点赞数 2

分类专栏： MySQL 文章标签： mysql

原文链接：https://time.geekbang.org/column/intro/139

版权

MySQL 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

语法

COUNT(expr)

返回 select 语句检索到的行中非NULL值的数目。若找不到匹配的行,则 COUNT(expr) 返回0。

mysql> select * from users;
+----+------+----------+
| id | name | password |
+----+------+----------+
|  1 | yhq  | a1       |
|  2 | qhh  | NULL     |
+----+------+----------+
2 rows in set

mysql> select count(name) from users;
+-------------+
| count(name) |
+-------------+
|           2 |
+-------------+
1 row in set

mysql> select count(password
) from users;
+-----------------+
| count(password) |
+-----------------+
|               1 |
+-----------------+
1 row in set

COUNT(*)

返回检索行的数目，不论其是否包含 NULL 值。

mysql> select * from users;
+----+------+----------+
| id | name | password |
+----+------+----------+
|  1 | yhq  | a1       |
|  2 | qhh  | NULL     |
+----+------+----------+
2 rows in set

mysql> select count(*
) from users;
+----------+
| count(*) |
+----------+
|        2 |
+----------+
1 row in set

COUNT(DISTINCT expr,[expr…])

返回不同的非NULL值数目。若找不到匹配的项，则 COUNT(DISTINCT)返回0。

mysql> select * from users;
+----+------+----------+
| id | name | password |
+----+------+----------+
|  1 | yhq  | a1       |
|  9 | test | a2       |
|  8 | yqy  | NULL     |
|  2 | qhh  | a1       |
+----+------+----------+
4 rows in set

mysql> select count(distinct(password)) from users;
+---------------------------+
| count(distinct(password)) |
+---------------------------+
|                         2 |
+---------------------------+
1 row in set

不同的 count 用法(基于 InnoDB 引擎)

count(主键 id)

InnoDB 引擎会遍历整张表，把每一行的 id 值都取出来，返回给 server 层。server 层拿到 id 后，判断是不可能为空的，就按行累加。

count(1)

InnoDB 引擎遍历整张表，但不取值。server 层对于返回的每一行，放一个数字“1”进去，判断是不可能为空的，按行累加。

单看这两个用法的差别的话，你能对比出来，count(1)执行得要比 count(主键 id)快。因为从引擎返回 id 会涉及到解析数据行，以及拷贝字段值的操作。

count(字段)

如果这个字段是定义为not null的话，一行行地从记录里面读出这个字段，判断不能为null，按行累加；

如果这个“字段”定义允许为null，那么执行的时候，判断到有可能是null，还要把值取出来再判断一下，不是null才累加。

count(*)

并不会把全部字段取出来，而是专门做了优化，不取值。count(*)肯定不是 null，按行累加。

按照效率排序的话，count(字段)<count(主键id)<count(1)≈count(*)，所以我建议你，尽量使用count(*)。

InnoDB是索引组织表，主键索引树的叶子节点是数据，而普通索引树的叶子节点是主键值。所以，普通索引树比主键索引树小很多。对于count(*)这样的操作，遍历哪个索引树得到的结果逻辑上都是一样的。因此，MySQL 优化器会找到最小的那棵树来遍历。在保证逻辑正确的前提下，尽量减少扫描的数据量，是数据库系统设计的通用法则之一。

实现方式

在不同的 MySQL 引擎中，count(*)有不同的实现方式。

MyISAM引擎把一个表的总行数存在了磁盘上,因此执行count（*）在这里插入代码片的时候会直接返回这个数，效率很高。
InnoDB引擎执行count（*）的时候，需要把数据一行一行地从引擎里面读出来，然后累积计数。

如果加了where条件的话，MyISAM 表也是不能返回得这么快的。

为什么 InnoDB 不跟 MyISAM 一样，也把数字存起来呢？

因为即使是在同一个时刻的多个查询，由于多版本并发控制（MVCC）的原因，InnoDB 表应该返回多少行也是不确定的。

假设表中现在有 10000 条记录

会话 A 先启动事务并查询一次表的总行数；
会话 B 启动事务，插入一行后记录后，查询表的总行数；
会话 C 先启动一个单独的语句，插入一行记录后，查询表的总行数。

会话 A	会话 B	会话 C
begin;
select count(*) from users;
		insert into users(插入一行);
	begin;
	insert into users(插入一行);
select count(*) from users;(`返回10000`)	select count(*) from users;(`返回10002`)	select count(*) from users;(`返回10001`)

在最后一个时刻，三个会话 A、B、C 会同时查询表 t 的总行数，但拿到的结果却不同。

这和InnoDB的事务设计有关系，可重复读是它默认的隔离级别，在代码上就是通过多版本并发控制，也就是 MVCC 来实现的。每一行记录都要判断自己是否对这个会话可见，因此对于count(*)请求来说，InnoDB只好把数据一行一行地读出依次判断，可见的行才能够用于计算基于这个查询的表的总行数。

table_rows 能代替 count(*)吗？

mysql> show table status \G
*************************** 1. row ***************************
           Name: users
         Engine: InnoDB
        Version: 10
     Row_format: Dynamic
           Rows: 5
 Avg_row_length: 3276
    Data_length: 16384
Max_data_length: 0
   Index_length: 0
      Data_free: 0
 Auto_increment: 6
    Create_time: 2020-07-12 23:51:19
    Update_time: 2020-07-12 23:55:30
     Check_time: NULL
      Collation: utf8_unicode_ci
       Checksum: NULL
 Create_options:
        Comment: