高性能MySQL——Count(1) OR Count(*)?

如果问一个程序员MySQL中SELECT COUNT(1)和SELECT COUNT(*)有什么区别,会有很多人给出这样的答案“SELECT COUNT(*)”最终会转化成“SELECT COUNT(1),而SELECT COUNT(1)省略了转换的这一步,所以SELECT COUNT(1)效率更高“,甚至有一些面试官也会给出类似的答案。最近在看一些历史遗留代码,绝大多数统计数量的SQL都在用SELECT COUNT(1),觉得有必要搞清楚这个问题。

首先,以我们最常见的两种数据库表引擎MyISAM和Innodb来讲。

MyISAM

MyISAM在统计表的总行数的时候会很快,但是有个大前提,不能加有任何WHERE条件。这是因为:MyISAM对于表的行数做了优化,具体做法是有一个变量存储了表的行数,如果查询条件没有WHERE条件则是查询表中一共有多少条数据,MyISAM可以做到迅速返回,所以也解释了如果加WHERE条件,则该优化就不起作用了。细心的同学会发现,innodb的表也有这么一个存储了表行数的变量,但是很遗憾这个值是一个估计值,没有什么实际意义。



Innodb

在该引擎下,COUNT(1)和COUNT(*)哪个快呢?结论是:这俩在高版本的MySQL(5.5及以后,5.1的没有考证)是没有什么区别的,也就没有COUN(1)会比COUNT(*)更快这一说了。

WHY?这就要从COUNT()函数的具体含义说起了。”COUNT()有两个非常不同的作用:它可以统计某个列值的数量,也可以统计行数。在统计列值时要求列值是非空的(不统计NULL)。如果在COUNT()的括号中定了列或者列表达式,则统计的就是这个表达式有值的结果数。......COUNT()的另一个作用是统计结果集的行数。当MySQL确认括号内的表达式值不可能为空时,实际上就是在统计行数。最简单的就是当我们使用COUNT(*)的时候,这种情况下通配符*并不像我们猜想的那样扩展成所有的列,实际上,他会忽略所有列而直接统计所有的行数“——《高性能MySQL》。

通常,我们将第一个字段(一般是ID)作为主键,那么这个时候COUNT(1)实际统计的就是行数,因为主键肯定是非NULL的。问题是Innodb是通过主键索引来统计行数的吗?如果该表之后一个主键索引,没有任何二级索引的情况下,那么COUNT(*)和COUNT(1)都是通过通过主键索引来统计行数的。如果该表有二级索引,则COUNT(1)和COUNT(*)都会通过占用空间最小的字段的二级索引进行统计,也就是说虽然COUNT(1)指定了第一列但是innodb不会真的去统计主键索引(一般为第一个字段的索引)。


实验

第一步

新建一张基于Innodb的表,只有一个ID主键,并插入5w的测试数据,DDL如下:

CREATE TABLE `tb_news` (
  `id` bigint(21) NOT NULL AUTO_INCREMENT,
  `title` varchar(50) NOT NULL,
  `content` mediumtext NOT NULL,
  `count_ass` char(1) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=50001 DEFAULT CHARSET=utf8

这个时候执行COUNT(1)和COUNT(*)可以看到解释器的结果如下(两者一致,所以就只截了一张图),可以看到,两者都用了主键索引进行行数的统计:


第二步

新建一个二级索引title,之后在分别看一下COUNT(1)和COUNT(*)的解释器结果(两者依然完全一致):


第三步

在我们之前特地预留的一个小字段count_ass字段建一个索引,到这一步目前表中有三个索引:一个主键索引,两个二级索引。


这时候我们再看一下COUNT(1)和COUNT(*)会通过哪个索引来统计行数(两者还是一致)。
到这里,上述结论已经通过实验证明了。

解释

目前基于磁盘的数据库或者搜索引擎(比如Lucene)的性能瓶颈主要都是在IO阶段,相比于CPU和RAM,IO操作实在太慢了,所以这类系统的优化方向也都都是类似的——尽一切可能减少IO的次数(或者直接上SSD得意)。这里统计行数的操作,查询优化器的优化方向就是选择能够让IO次数最少的索引,也就是基于占用空间最小的字段所建的索引(每次IO读取的数据量是固定的,索引占用的空间越小所需的IO次数也就越少)。而Innodb的主键索引是聚簇索引(包含了KEY,除了KEY之外的其他字段值,事务ID和MVCC回滚指针)所以主键索引一定会比二级索引(包含KEY和对应的主键ID)大,也就是说在有二级索引的情况下,一般COUNT()都不会通过主键索引来统计行数,在有多个二级索引的情况下选择占用空间最小的。
如果说有张Innodb的表只有主键索引,而且记录还比较大(比如30K),则统计行的操作会非常慢,因为IO次数会很多(这里就不做实验截图了,有兴趣可以自己试一下)。一个优化方案就是预先建一个小字段并建二级索引专门用来统计行数,极端情况下这种优化速度提高上千倍也是正常的。

结论

结论就是对于COUNT(1)和COUNT(*)执行优化器的优化是完全一样的,并没有COUNT(1)会比COUNT(*)快这个说法。

拓展

该案例是工作过程中遇到的一个问题跟COUNT关系不大,但是跟之前讲的原理类似所以挖出来讲一讲,因为涉及到公司的具体业务所以打了码,只需要知道这是两个完全一样的SQL,不同之处就是红框内的WHERE条件的范围(这个时间字段,暂且叫作字段time,建有一个二级索引)。而通过解释器看到,时间范围短的使用了索引,而时间范围长的并没有使用索引。




因为time是一个二级索引,innodb的二级索引的叶子节点储存结构为(key+主键ID),也就是说所有根据二级索引的查询都会进行两次查询:1,二级索引查询到主键ID;2,根据1中查到的主键ID去一级索引中查找到真实数据(由于innodb的索引是聚簇索引,因此不需要去表里找数据,这一点不适用非主键索引),第2步可能会导致一定程度的随机IO。由于上图中time跨度相比上上图中大很多,mysql的执行优化器认为在这里使用二级索引“很可能”导致大量的随机IO,所以该语句执行的时候禁用了索引。

当然遇到有些情况优化器的选择也不一定总是最优的,如果你坚持要用索引,可以通过FORCE INDEX来强制使用索引,或者用USE INDEX或者IGNORE INDEX来指定你要使用的索引。






  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: count(1)和count(*)都是用来统计行数的函数,但是它们的区别在于: 1. count(1)是指统计所有行中第一个非空字段的值的数量,因为1是一个常量,所以它不会对查询产生影响,所以count(1)的效率比count(*)高。 2. count(*)是指统计所有行的数量,包括空行,所以它的效率比count(1)低,但是它可以统计所有行的数量,包括空行,所以在某些情况下,count(*)更加实用。 总的来说,如果只是统计行数,建议使用count(1),因为它的效率更高。如果需要统计所有行的数量,包括空行,那么就使用count(*)。 ### 回答2: MySQL中的count()函数用于返回指定列中的行数。在具体使用时,可以将一个或多个列作为参数,以确定要统计行数的数据集。 在MySQL中,当我们使用count(1)和count(*)统计数据集的行数时,它们的作用是相同的,因为两者都返回所选列中非null值的计数。只不过内部处理方式略有不同。 count(*)操作会扫描整张表,Mysql会遍历整张表,但这个操作会忽略所有的列值。而count(1)操作不会忽略索引,它会遍历索引树。 所以在查询1个表的数据总行数的时候,无论是count(*)还是count(1),他们的结果是相同的,不过在涉及到查询其他的操作时,建议优先使用count(1),避免浪费查询时间。 总之,在实际使用中,count(*)和count(1)的区别并不明显,它们都是用来统计数据行数的常见SQL操作。但如果你需要在查询语句中指定特定列,则建议使用count(1),因为这样会更快一些。如果你需要在同一查询语句中多次使用count函数,则建议统一使用count(*),以保证查询效率,在处理多表关联查询时,尽量避免使用count(*)来统计行数,避免查询效率低下的情况的发生。 ### 回答3: 在MySQL中,count(1)和count(*)都是用于计算数据表中的行数的函数。它们看起来相似,但实际上在某些情况下有一些区别。 count(1)是将每一行都用值1代替,一旦遇到非空值,则计数加1。这实际上是对空间的浪费,因为在计算每行的值时,实际上是没有用到这个1值的。因此,使用count(1)会占用更多的空间,从而降低查询性能。 相反,count(*)是计算表中所有行数的函数,它不会像count(1)一样替换每行的值。因此,它不会浪费空间,效率更高。 但是,这两种函数的在执行SQL查询时会根据MySQL的优化器来进行优化,因此在某些情况下两者之间的性能差异可能会很小。 总的来说,对于计算数据表中行数的操作,建议使用count(*),这将是更高效和更准确的方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值