在mysql里面,统计表的行数,大部分情况下,大家都采用select count(1) from table_name where pkid>0 and xxxxx and xxxxxx;这样的方式,去数据库表查下返回结果。这种情况下,在表小的时候,很快返回,当表越来越大的时候,就会特别慢。特别是查询表总记录数的情况下。select count(1) from table_name where plid>0;
我们先来看下count的方案,mysql一般有2种存储引擎:
1、MyISAM引擎把一个表的总行数存在了磁盘上,因此执行count(*)的时候会直接返回这个数,效率很高(没有where查询条件)
2、InnoDB引擎并没有直接将总数存在磁盘上,在执行count(*)函数的时候需要一行一行的将数据读出来,然后累计总数。
目前绝大部分的应用都采用的是InnoDB存储引擎,那是否有其它解决方案来提升count的效率呢?还是有的,我们分几种情况来分析下。
1、比较粗放的方法:
a)show table status;里面能拿到,但是官方说有40%的概率是有误差,毕竟状态统计不是那么实时的。
b)直接去查系统表,information_schem.tables里面有一个字段table_rows,里面记录表的总行数,但是这个也不是最新的统计,应该是有延迟的。
2、需要实时统计的
那就只能count去查询了,count()是一个聚合函数,对于返回的结果集,一行行地判断,如果count函数的参数不是NULL,累计值就加1,否则不加。最后返回累计值。w我们看下不同count的写法之间的差异:
a):count(*),这个一般现在很少用了,这种一般是直接累计行数累加得到总行数。
b):count(id):InnoDB引擎会遍历整张表,把每一行的id值都取出来,返回给server层。server层拿到id后,判断是不可能为空的,就按行累加。
c):count(1):InnoDB引擎遍历整张表,但不取值。server层对于返回的每一行,放一个数字1进去,判断是不可能为空的,按行累加。
d):count(字段):count(*):不会把全部字段取出来,而是专门做了优化,不取值。count(*)肯定不是null,按行累加。如果这个“字段”是定义为not null的话,一行行地从记录里面读出这个字段,判断不能为null,按行累加;如果这个字段定义允许为null,那么执行的时候,判断到有可能是null,还要把值取出来再判断一下,不是null才累加。
看到了这几种的差异,我们判断得出大概的效率:count(字段)<count(主键id)<count(1)≈count(*)。
3、采用缓存系统,存量+增量
比如一天之前的行数,存储在redis里面,近一的行数,直接去查数据库,两者累加,就拿到了表的总行数。