14.1 count(*)函数的实现
count(*)在MySQL不同的引擎中存在不同的实现方式:
- MyISAM引擎:把表的总行数存在磁盘上,能直接返回count(*)的结果
- InnoDB引擎:需要对数据进行一行一行地累加计数
前提都是没有where子句,如果MyISAM也不能这么快返回结果。
InnoDB为什么不学学MyISAM: InnoDB由于MVVC特性的存在,一个事务不知道这个数据的当前版本是否对它来说是可见的,需要一个一个去核对。
MySQL对count(*)的优化: 在保证逻辑正确的情况下,InnoDB会去寻找体型最小的那颗索引树,减少扫描的数据量,普通索引树的叶子节点毕竟只存放主键值嘛。
show table status指令: 在show table status
指令出现的信息也会有Rows列,但这个数据也只是采样估算得来的,就像是索引计数一样。
14.2 对count(*)计数方案
缓存系统保存计数: 使用Redis对表的行数进行计数,最大问题在于在并发情况下,由于Redis和MySQL是两个不同的数据存储系统,不支持分布式事务,无法拿到精确一致的视图,最终会导致所获得计数值不精确的问题。
数据库保存计数: 将表的行数统一计数到计数表A中。InnoDB支持事务,我们可以很轻松地利用事务的特性来解决这个问题,因为事务之间存在隔离性。
如下这张图,会话B就因为对当前会话A对表修改不可见,就还是能获取精确的行数统计。
14.3不同count函数用法的区别
我们有count(*),count(主键 id),count(字段),count(1)等写法。
先来看下count()函数的语义: count() 是一个聚合函数,对于返回的结果集,一行行地判断,如果 count 函数的参数不是 NULL,累计值就加 1,否则不加。最后返回累计值。
count(字段
)和count(主键 id)
,则表示返回满足条件的数据行里面,参数“字段”不为 NULL 的总个数。
COUNT(常量)
,和 COUNT(*)
表示的是直接查询符合条件的数据库表的行数。
count(1)和count(*): 在MySQL文档中指出,两种方式是一样的的,不存在任何不同,但由于 SQL92定义的标准统计行数的语法建议使用count(*)
。 InnoDB 引擎遍历整张表,但不取值。server 层对于返回的每一行,判断是不可能为空的,按行累加。
count(字段)和count(主键 id): 遍历索引树,将相应字段取出返回,判断是否为NULL/不为NULL,进行计数返回。
效率排名: count(字段)<count(主键 id)<count(1)≈count(*)。
练习问题:
- count函数的语义?
- count(*)在MySQL不同引擎中的实现?
- 不同引擎对count(*)的优化?
- count()函数不同用法之间的差异?
- count(*)的计数方案?