创建test表(测试表)
drop table if exists test;
create table test(
id int primary key auto_increment,
c1 varchar(10),
c2 varchar(10),
c3 varchar(10),
c4 varchar(10),
c5 varchar(10))
ENGINE=INNODB default CHARSET=utf8;
insert into test(c1,c2,c3,c4,c5) values('a1','a2','a3','a4','a5');
insert into test(c1,c2,c3,c4,c5) values('b1','b2','b3','b4','b5');
insert into test(c1,c2,c3,c4,c5) values('c1','c2','c3','c4','c5');
insert into test(c1,c2,c3,c4,c5) values('d1','d2','d3','d4','d5');
insert into test(c1,c2,c3,c4,c5) values('e1','e2','e3','e4','e5');
创建索引
分析以下Case索引使用情况
Case 1:
分析:
①创建复合索引的顺序为c1,c2,c3,c4。
②上述四组explain执行的结果都一样:type=ref,key_len=132,ref=const,const,const,const。
结论:在执行常量等值查询时,改变索引列的顺序并不会更改explain的执行结果,因为mysql底层优化器会进行优化,但是推荐按照索引顺序列编写sql语句。
Case 2:
分析:
当出现范围的时候,type=range,key_len=99,比不用范围key_len=66增加了,说明使用上了索引,但对比Case1中执行结果,说明c4上索引失效。
结论:范围右边索引列失效,但是范围当前位置(c3)的索引是有效的,从key_len=99可证明。
Case 2.1:
分析:
与上面explain执行结果对比,key_len=132说明索引用到了4个,因为对此sql语句mysql底层优化器会进行优化:范围右边索引列失效(c4右边已经没有索引列了),注意索引的顺序(c1,c2,c3,c4),所以c4右边不会出现失效的索引列,因此4个索引全部用上。
结论:范围右边索引列失效,是有顺序的:c1,c2,c3,c4,如果c3有范围,则c4失效;如果c4有范围,则没有失效的索引列,从而会使用全部索引。
Case 2.2:
分析:
如果在c1处使用范围,则type=ALL,key=Null,索引失效,全表扫描,这里违背了最佳左前缀法则,带头大哥已死,因为c1主要用于范围,而不是查询。
解决方式使用覆盖索引。
结论:在最佳左前缀法则中,如果最左前列(带头大哥)的索引失效,则后面的索引都失效。
Case 3:
分析:
利用最佳左前缀法则:中间兄弟不能断,因此用到了c1和c2索引(查找),从key_len=66,ref=const,const,c3索引列用在排序过程中。
Case 3.1:
分析:
从explain的执行结果来看:key_len=66,ref=const,const,从而查找只用到c1和c2索引,c3索引用于排序。
Case 3.2:
分析:
从explain的执行结果来看:key_len=66,ref=const,const,查询使用了c1和c2索引,由于用了c4进行排序,跳过了c3,出现了Usingfilesort。
Case 4:
分析:
查找只用到索引c1,c2和c3用于排序,无Using filesort。
Case 4.1:
分析:
和Case 4中explain的执行结果一样,但是出现了Usingfilesort,因为索引的创建顺序为c1,c2,c3,c4,但是排序的时候c2和c3颠倒位置了。
Case 4.2:
分析:
在查询时增加了c5,但是explain的执行结果一样,因为c5并未创建索引。
Case 4.3:
分析:
与Case 4.1对比,在Extra中并未出现Usingfilesort,因为c2为常量,在排序中被优化,所以索引未颠倒,不会出现Using filesort。
Case 5:
分析:
只用到c1上的索引,因为c4中间间断了,根据最佳左前缀法则,所以key_len=33,ref=const,表示只用到一个索引。
Case 5.1:
分析:
对比Case 5,在group by时交换了c2和c3的位置,结果出现Using temporary和Usingfilesort,极度恶劣。原因:c3和c2与索引创建顺序相反。
Case 6:
分析:
①在c1,c2,c3,c4上创建了索引,直接在c1上使用范围,导致了索引失效,全表扫描:type=ALL,ref=Null。因为此时c1主要用于排序,并不是查询。
②使用c1进行排序,出现了Using filesort。
③解决方法:使用覆盖索引。
Case 7:
分析:
虽然排序的字段列与索引顺序一样,且order by默认升序,这里c2desc变成了降序,导致与索引的排序方式不同,从而产生Using filesort。
Case 8:
EXPLAIN extended select c1 from test where c1 in ('a1','b1') ORDER BY c2,c3;
分析:
对于排序来说,多个相等条件也是范围查询
总结:
①MySQL支持两种方式的排序filesort和index,Using index是指MySQL扫描索引本身完成排序。index效率高,filesort效率低。
②order by满足两种情况会使用Using index。
#2.使用where子句与order by子句条件列组合满足索引最左前列。
③尽量在索引列上完成排序,遵循索引建立(索引创建的顺序)时的最佳左前缀法则。
④如果order by的条件不在索引列上,就会产生Using filesort。
⑤group by与order by很类似,其实质是先排序后分组,遵照索引创建顺序的最佳左前缀法则。注意where高于having,能写在where中的限定条件就不要去having限定了。
通俗理解口诀:
全值匹配我最爱,最左前缀要遵守;
补充:in和exsits优化
in:当B表的数据集必须小于A表的数据集时,in优于exists
select * from A where id in (select id from B)#等价于: for select id from B for select * from A where A.id = B.id
exists:当A表的数据集小于B表的数据集时,exists优于in
将主查询A的数据,放到子查询B中做条件验证,根据验证结果(true或false)来决定主查询的数据是否保留
select * from A where exists (select 1 from B where B.id = A.id) #等价于 for select * from A for select * from B where B.id = A.id#A表与B表的ID字段应建立索引
1、EXISTS (subquery)只返回TRUE或FALSE,因此子查询中的SELECT * 也可以是SELECT 1或select X,官方说法是实际执行时会忽略SELECT清单,因此没有区别
2、EXISTS子查询的实际执行过程可能经过了优化而不是我们理解上的逐条对比
3、EXISTS子查询往往也可以用JOIN来代替,何种最优需要具体问题具体分析
如何建立索引:
考虑索引选择性
索引的选择性( Selectivity),是指不重复的索引值(也叫基数, Cardinality)与表记录数的比值:
选择性 = 基数/ 记录数
选择性的取值范围为(0, 1],选择性越高的索引价值越大。如果选择性等于1,就代表这个列的不重复值和表记录数是一样的,那么对这个列建立索引是非常合适的,如果选择性非常小,那么就代表这个列的重复值是很多的,不适合建立索引。
索引选择性:不重复的索引值(也称为基数,cardinality)和数据表的记录总数的比值,比值越高,代表索引的选择性越好,唯一索引的选择性是最好的,比值是 1。
画外音:我们可以通过 SHOW INDEXES FROM table 来查看每个索引 cardinality 的值以评估索引设计的合理性
考虑前缀索引:
用列的前缀代替整个列作为索引key,当前缀长度合适时,可以做到既使得前缀索引的选择性接近全列索引,同时因为索引key变短而减少了索引文件的大小和维护开销。
使用mysql官网提供的示例数据库: https://dev.mysql.com/doc/employee/en/employees-installation.html
github地址: https://github.com/datacharmer/test_db.git
employees表只有一个索引,那么如果我们想按名字搜索一个人,就只能全表扫描了:(比如汉语名字李明明对应国外first_name代表“明明”,last_name是“李”)
EXPLAIN SELECT * FROM employees.employees WHERE first_name='Eric' AND last_name='Anido';
那么可以建立联合索引,看下单独对first_name建立单独索引和和first_name、last_name建立联合索引的选择性:
SELECT count(DISTINCT(first_name))/count(*) AS Selectivity FROM employees.employees;
-- 0.0042
SELECT count(DISTINCT(concat(first_name, last_name)))/count(*) AS Selectivity FROM employees.employees; -- 0.9313
那么把last_name前缀取3和4个字符的选择性是多少呢?
SELECT count(DISTINCT(concat(first_name, left(last_name, 3))))/count(*) AS Selectivity FROM employees.employees; -- 0.7879
SELECT count(DISTINCT(concat(first_name, left(last_name, 4))))/count(*) AS Selectivity FROM employees.employees; -- 0.9007
last_name取前4个字符选择性已经很理想了,建立前缀索引的方式:
ALTER TABLE employees.employees ADD INDEX `first_name_last_name4`(first_name,last_name(4));
缺点:
前缀索引兼顾索引大小和查询速度,但是其缺点是不能用于ORDER BY和GROUP BY操作,也不能用于覆盖索引,前缀索引也有可能增加扫描行数。
假设有以下表数据及要执行的 SQL
id | |
---|---|
1 | zhangssxyz@163.com |
2 | zhangs1@163.com |
3 | zhangs1@163.com |
4 | zhangs1@163.com |
SELECT id,email FROM user WHERE email='zhangssxyz@xxx.com';
如果我们针对 email 设置的是整个字段的索引,则上表中根据 「zhangssxyz@163.com」查询到相关记记录后,再查询此记录的下一条记录,发现没有,停止扫描,此时可知只扫描一行记录,如果我们以前六个字符(即 email(6))作为前缀索引,则显然要扫描四行记录,并且获得行记录后不得不回到主键索引再判断 email 字段的值,所以使用前缀索引要评估它带来的这些开销。
另外有一种情况我们可能需要考虑一下,如果前缀基本都是相同的该怎么办,比如现在我们为某市的市民建立一个人口信息表,则这个市人口的身份证虽然不同,但身份证前面的几位数都是相同的,这种情况该怎么建立前缀索引呢。
一种方式就是我们上文说的,针对身份证建立哈希索引,另一种方式比较巧妙,将身份证倒序存储,查的时候可以按如下方式查询:
SELECT field_list FROM t WHERE id_card = reverse('input_id_card_string');
这样就可以用身份证的后六位作前缀索引了,是不是很巧妙 ^_^