在开发的过程中,我们经常有需求要计算一个表的行数,很多人都会想到可以直接使用select count(*) from table
。但是随着系统记录不断变多,这条语句也会变慢,今天我么就聊一聊count(*)这个语句如何实现的。
count(*)的实现
在MySQL中count(*)由于引擎的不同,实现的方式也是不一样的。
- 在MyISAM中有一一个表的总行数存在了磁盘中,使用count(*)可以直接返回
- 在InnoDB引擎中,执行count(*),会把数据一行一行从引擎中读出,然后累计
这也就造成了为什么随着数据量越来越大,执行count(*)语句越来越慢。
可能有些人用过show table status命令,发现这个命令的输出结果也有一个Rows用于显示多少行,但是这个能替代count(*)吗,很显然不可以的。这个行数其实是通过采样估算得来的,据官方文档所说误差可能达到40%到50%。
count的不同用法
在使用过程中我们可能也会看到有人使用count(主键id)、count(字段)、count(1)。我么就来比较一下,这几种方式的而效率问题。
首先count()是一个聚合函数,它是计算返回的结果集,如果不为NULL就累计加1。
count(主键id),InnoDB引擎会遍历整个表,然后把每一行id取出,MySQL的server层拿到id后,判断不为空的,累计加1。
count(1),同样InnoDB引擎遍历整张表,但是不取值,server层对于返回的每一行直接放一个1进去,所以肯定不为空,直接按行累加。
这两者比较count(1)少了一个引擎解析数据的过程,相对而言快一点。
count(字段)首先这个字段如果定义的是不为空,那么server层直接取出数据判断一下不为空,按行累加。如果这个字段可以为空,那么执行的过程判断到是空的,还需把数据取出来,再判断一下,不是空,才累加。
count(*)有点例外,并不会把所有字段都取出来,而是专门做了优化,直接扫描主键索引记录,不取值直接累加。
所以按照效率排序,coun(字段)<count(主键id)<count(1)≈count(*)