前言
之前在网上看到过很多关于mysql联合索引最左前缀匹配的文章,但是发现个别文章的有问题,在此作为总结并更正后便于后续学习。
最左前缀匹配原则
在mysql建立联合索引时会遵循最左前缀匹配的原则,即最左优先,在检索数据时从联合索引的最左边开始匹配:
实例
CREATE TABLE `student` (
`Id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增Id',
`Gid` int(11) unsigned DEFAULT NULL COMMENT '年级id',
`Cid` int(11) unsigned DEFAULT NULL COMMENT '班级id',
`SId` int(11) unsigned DEFAULT NULL COMMENT '学号',
`Name` varchar(10) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '姓名',
PRIMARY KEY (`Id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;
对列Gid、列Cid和列Sid建一个联合索引
create unique index uni_Gid_Cid_SId on student(Gid,Cid,SId)
联合索引 uni_Gid_Cid_SId 实际建立了(Gid)、(Gid,Cid)、(Gid,Cid,SId)三个索引。
插入模拟数据
INSERT INTO `student` (`Gid`, `Cid`, `SId`, `Name`) VALUES (floor(rand() * rand() *rand() * 1000000000) , floor(rand() * rand() *rand() * 1000000000) , floor(rand() * rand() * rand() *1000000000) , rand());
查询插入结果数据
查询实例1
SELECT A.* FROM `student` A where A.`Name` = '0.1461239' AND A.Cid = 57969762 AND A.Gid = 107270697 ;
查询实例1结果
查询实例1结果分析
上面这个查询语句执行时会依照最左前缀匹配原则,检索时会使用索引(Gid,Cid)进行数据匹配。
注意:
索引的字段可以是任意顺序的,如:
SELECT A.* FROM `student` A where A.`Name` = '0.1461239' AND A.Cid = 57969762 AND A.Gid = 107270697 ;
SELECT * FROM `student` A where A.Gid = 107270697 and A.Cid = 57969762;
SELECT * FROM `student` A where A.Cid = 57969762 and A.Gid = 107270697;
这三个查询语句都会用到索引(Gid,Cid),mysql创建联合索引的规则是首先会对联合合索引的最左边的,也就是第一个字段Gid的数据进行排序,在第一个字段的排序基础上,然后再对后面第二个字段Cid进行排序。其实就相当于实现了类似 order by Gid Cid这样一种排序规则。
有人会疑惑第一、三个查询语句不符合最左前缀匹配:首先可以肯定是三个查询语句都保函索引(Gid,Cid)中的Gid、Cid两个字段,只是顺序不一样,查询条件一样,最后所查询的结果肯定是一样的。既然结果是一样的,到底以何种顺序的查询方式最好呢?此时我们可以借助mysql查询优化器explain,explain会纠正sql语句该以什么样的顺序执行效率最高,最后才生成真正的执行计划。
所以,由于mysql查询优化器的存在,sql语句中字段的顺序不需要和联合索引中定义的字段顺序一致,查询优化器会自己调整顺序,mysql查询优化器会判断纠正这条sql语句该以什么样的顺序执行效率最高,最后才生成真正的执行计划。所以,在实际中我们应该尽量的利用到索引时的查询顺序效率最高的方式来编写我们的sql语句(此处我们最好以第二个查询语句的方式编写),从而使mysql查询优化器会最终以这种顺序进行查询执行。
为什么要使用联合索引?
-
减少开销
建一个联合索引(Gid,Cid,SId),实际相当于建了(Gid)、(Gid,Cid)、(Gid,Cid,SId)三个索引。每多一个索引,都会增加写操作的开销和磁盘空间的开销。对于大量数据的表,使用联合索引会大大的减少开销! -
覆盖索引
对联合索引(Gid,Cid,SId),如果有如下的sql: select Gid,Cid,SId from student where Gid=1 and Cid=2。那么MySQL可以直接通过遍历索引取得数据,而无需回表,这减少了很多的随机io操作。减少io操作,特别的随机io其实是dba主要的优化策略。所以,在真正的实际应用中,覆盖索引是主要的提升性能的优化手段之一。 -
效率高
索引列越多,通过索引筛选出的数据越少。有1000W条数据的表,有如下sql:select from table where Gid=1 and Cid=2 and SId=3,假设假设每个条件可以筛选出10%的数据,如果只有单值索引,那么通过该索引能筛选出1000W10%=100w条数据,然后再回表从100w条数据中找到符合Gid=2 and Cid= 3的数据,然后再排序,再分页;如果是联合索引,通过索引筛选出1000w10% 10% *10%=1w,效率提升可想而知! -
缺点
联合索引越多,索引列越多,则创建的索引越多,索引都是存储在磁盘里的,通过索引算法(Btree代表索引算法使用二叉树的形式来做索引的)来查找数据,的确可以极大的提高查询效率,但是与此同时增删改的同时,需要更新索引,同样是需要花时间的,并且索引所占的磁盘空间也不小。 -
建议
单表尽可能不要超过一个联合索引,单个联合索引不超过3个字段。
引申
对于联合索引(Gid,Cid,SId),查询语句"SELECT * FROM student WHERE Cid = 465176354 ;"是否能够触发索引?
答案是否定的。
对于上面的执行结果,部分文章中的答案是肯定的。这是因为没有理解到最左匹配的索引覆盖。要想执行结果是肯定的,可以执行下面的sql语句:
SELECT A.SId FROM `student` A where A.Cid = 57969762;
SELECT A.Gid FROM `student` A where A.Cid = 57969762;
SELECT A.Gid,A.SId FROM `student` A where A.Cid = 57969762;
SELECT A.Gid FROM `student` A where A.SId=54752834 AND A.Cid = 57969762;
我们注意到,只有"WHERE"条件中与"SELECT"中的字段均在联合索引中,那么就可以触发索引,且索引级别为"index"。
至此,文章将索引中的最左匹配分析完毕,欢迎各位留言讨论,谢谢!