MySQL索引深入解析-CSDN博客

引子

在上一篇文章《MySQL InnoDB锁类型》中，我介绍了MySQL InnoDB引擎实现的一些锁。接下来，我再跟着官方文档，总结一下MySQL中的索引。

索引概述

索引(index)是一种为表中的行提供快速查找功能的数据结构，通常通过形成表示特定列或一组列的所有值的树形结构(B-tree)来实现。

InnoDB表总是有一个表示主键的聚簇索引，当然，还可以在一列或者多列上定义一个或多个二级索引。根据其结构，二级索引还可以细分为：部分索引(partial index)、列索引(column index)和复合索引(composite index)。

索引用于快速查找具有特定值的行。如果没有索引，MySQL必须从第一行开始，然后扫描整个表来找到相关的行。表越大，消耗就越多。如果表中有相关列的索引，MySQL可以快速确定要在数据文件中间查找的位置，而不必扫描所有的数据。

聚簇索引

每张 InnoDB表都有一个特殊的索引，称为聚簇索引(clustered index)，用于存储行的数据。

对于聚簇索引，有以下要点需要了解：

当我们在表上定义了主键，InnoDB会将其用作聚簇索引。
※ 如果我们没有定义主键，MySQL会定位到第一个 所有键列都不为空的唯一索引，InnoDB会将其用作聚簇索引。
※ 如果该表没有主键，也没有合适的唯一索引，InnoDB会在包含行ID值的合成列上内部生成一个名为 GEN_CLUST_INDEX 的隐藏聚簇索引。

对于上面我标 ※ 的两个小点，可以参看原文：

If you do not define a PRIMARY KEY for your table, MySQL locates the first UNIQUE index where all the key columns are NOT NULL and InnoDB uses it as the clustered index.
If the table has no PRIMARY KEY or suitable UNIQUE index, InnoDB internally generates a hidden clustered index named GEN_CLUST_INDEX on a synthetic column containing row ID values.

此外，对于上面第三点，既没有定义主键，也没有合适的唯一索引时，InnoDB会自动创建一个隐藏索引。此时，表中的行根据 InnoDB 分配给行的ID来进行排序的。行ID 是一个 6字节的字段，随着新行的插入而递增。实际上，按照行ID的排序就是按照插入顺序排序的。

还需要注意的是，修改聚簇索引的列是一项昂贵的操作，需要请选择很少或从不更新的列来做主键列。

二级索引

除了聚簇索引外的其他所有索引，都称为二级索引(secondary indexes)。

在InnoDB中，二级索引中的每个记录都包含该行的主键列，以及为二级索引指定的列。InnoDB使用这个主键值在聚簇索引中搜索行。

如果主键很长，那么二级索引会占用很多空间，所以最好使用较短的主键。

列索引

列索引(Column Indexes)是最常见的索引类型，涉及到单个列，它会在数据结构中存储来自该列的值的副本，允许快速查找相应列值的行。

B树数据结构允许索引在WHERE子句中快速找到特定值、一组或一系列值，对应于 =、>、≤、BETWEEN、IN 等运算符。

复合索引

复合索引，也可以叫做联合索引、多列索引，英文是 Multiple-Clolumn indexes。一个索引最多可以包含16列。

~~MySQL可以对查询中的所有列使用使用复合索引，也可以只对第一列、前两列、前三列等的查询使用复合查询。~~所以，如果在索引的定义中以正确的顺序指定列，则一个复合索引可以加快同一个表上的多种查询的速度。

最左匹配原则

一提到复合索引，那最左匹配原则一定是一个绕不过的知识点。下面我们就拿官方文档的例子说明。

假定有下面的这个 SELECT 查询：

SELECT * FROM table_name WHERE col_1 = val_1 AND col_2 = val_2;

如果 col_1 和 col_2 两列上存在复合索引，则可以直接获取到适当的行；如果两列上分别存在单列索引，则优化器会尝试使用索引合并优化；或者尝试通过确定哪个索引排除了最多的行来找到限制最严格的索引，并且使用该索引来获取行。

如果表中有一个复合索引，那么优化器可以使用复合索引的任何最左前缀来查找行。官方文档原文：

If the table has a multiple-column index, any leftmost prefix of the index can be used by the optimizer to look up rows.

比如说，如果在 (col_1, col_2, col_3)三列上具有复合索引，那么在 (col_1)、(col_1, col_2)和(col_1, col_2, col_3) 上的具有索引搜索功能。具体什么意思呢？继续看下文。

※ 如果列没有形成索引最左的前缀，MySQL就不能使用索引执行查找。看下面的例子：

SELECT * FROM table_name WHERE col_1 = val_1;
SELECT * FROM table_name WHERE col_1 = val_1 AND col_2 = val_2;

SELECT * FROM table_name WHERE col_2 = val_2;
SELECT * FROM table_name WHERE col_2 = val_2 AND col_3 = val_3;

如果在 (col_1, col_2, col_3) 三列上存在联合索引，则上面四个查询中，只有前两个查询能够使用到该索引。第三个和第四个查询的确涉及到了索引列，但是不会使用到索引来执行查询，因为 (col_2) 和 (col_2, col_3) 不是 (col_1, col_2, col_3) 的最左前缀。

至于上面我标 ※ 的的那句话，对应的官方文档原文是：

MySQL cannot use the index to perform lookups if the columns do not form a leftmost prefix of the index.

这里，看一个例子：

在 (username, age, sex)三列上具有复合索引，名称为 idx_name，而 high 列上没有任何索引。

-- 查询一
SELECT * FROM test_user WHERE username = "张三" OR age = 12;
-- 查询二
SELECT * FROM test_user WHERE username = "张三" AND (age = 12 OR age = 23);
-- 查询三
SELECT * FROM test_user WHERE username = "张三" AND sex = 1;
-- 查询四
SELECT * FROM test_user WHERE username = "张三" AND high = 180;

对于上面四条查询，先说结论：查询一不能使用该索引，而查询二、查询三和查询四都是可以使用到 idx_name 索引的。对于这个结论，我是这么理解的：

所谓最左匹配原则，实际上就是在匹配的时候，首先拿 username列进行匹配，匹配到了，如果查询条件涉及到了 age列，就再拿 age列进行匹配；匹配完，如果还涉及到了 sex列，就再拿 sex列进行匹配。

在官方文档中有这样一句话：

Any index that does not span all AND levels in the WHERE clause is not used to optimize the query. In other words, to be able to use an index, a prefix of the index must be used in every AND group.

意思就是，为了能够使用索引，必须在每个 AND组中使用索引或索引的前缀。也就是说，必须每一个 AND组都必须被索引覆盖，当然，不同的 AND组可以被不同的索引覆盖。

对于上面的查询一，从理论上说，username = "张三" 是可以通过索引的，但是后面的 OR age = 12，问题就出在这个 OR 上。这个查询，包含两个 AND组，一个是 username = "张三"，一个是 age=12。很明显，索引前缀只覆盖到了 username="张三" 这个 AND组，而 age=12 却无法使用索引。所以，整个查询无法使用索引，如下图。

对于上面的查询二，要理解就很容易了：整个查询可以分为两部分：

第一部分：age = 12 OR age = 23，这是两个 AND 组，显然，这部分无法使用索引。

第二部分：username = "张三" AND {第一部分}，这里，把上面的第一部分看作一个整体。此时，第二部分就是一个 AND组。

经过上面的拆分，我们不难理解：首先使用索引匹配 username列，匹配完后，在匹配出的结果集中，进行一个类似“全表扫描”的操作，扫前面匹配完得到的整个结果集，并且使用 age列进行匹配。也就是说，在这个查询中，只有 username列的匹配使用了索引，而 age列的匹配并不会使用到索引。对整个查询来说，仍然是使用了索引的。如下图，key字段为 idx_name，表示使用到了 idx_name 这个索引。

500

对于上面的查询三，(username, sex)并不是 (username, age, sex) 的最左前缀。和查询二一样，先使用索引匹配 username列，然后在匹配出的结果集中去匹配 sex列，此时无法使用索引，对整个查询来说仍然使用了索引。如下图，也使用到了 idx_name 索引。

而对于上面的查询四，其实过程和查询三一样。直接看结果，使用到了 idx_name 索引。

至此，我也不知道还有什么要补充的了。静待各位大佬指正。

全文索引

全文索引(FULLTEXT indexes)是在基于文本的列（CHAR、VARCHAR或者TEXT列）上创建的，以帮助加快对这些列中包含的数据的查询或DML操作，它会省略掉任何被定义为“stopwords”的词。

只有 InnoDB 和 MyISAM 存储引擎支持全文索引，并且只支持 CHAR、VARCHAR 和 TEXT 列。全文索引总是在整个列上进行的，不支持列的前缀索引。

空间索引

我们可以对空间数据类型上创建空间索引(Spatial Indexes)。InnoDB和MyISAM存储引擎支持空间类型的R-tree索引，其他存储引擎使用 B-tree 来索引空间类型（ARCHIVE引擎除外，ARCHIVE不支持空间类型索引）。

倒排索引

倒排索引(Descending Indexes)也叫作降序索引，只有 InnoDB引擎。在定义索引时，可以使用“DESC”来定义倒排索引，此时，索引键值将会以降序存储。

不使用倒排索引时，索引键值顺序排列，此时可以按照相反的顺序去扫描索引，这样做会降低性能。

使用倒排索引时，键值本身就以降序存储，此时直接顺序扫描索引即可，效率就会高很多。

倒排索引只支持 B-tree 这种存储结构，而不支持 Hash 索引。全文索引(FULLTEXT) 和空间索引不支持倒排索引。

InnoDB索引的存储结构

大多数的MySQL索引都存储在 B-tree 这种数据结构中。例外是：空间数据类型的索引使用 R-tree，MEMORY(Memory存储引擎)表也支持 Hash 索引。此外，InnoDB对 FULLTEXT索引使用倒排列表。下面，我们分别介绍下这三种存储结构的使用场景，具体的数据结构这里就不多说了。

B-tree

B-tree这种结构始终保持有序，从而可以快速查找精确匹配。例如，使用 =、>、>=、<、<= 或 BETWEEN 运算符的表达式。如果 LIKE 的参数是 不以通配符开头的常量字符串，则该索引也可以用于 LIKE 的比较。

下面是官方文档上的例子：

SELECT * FROM tbl_name WHERE key_col LIKE 'Patrick%';
SELECT * FROM tbl_name WHERE key_col LIKE 'Pat%_ck%';

SELECT * FROM tbl_name WHERE key_col LIKE '%Patrick%';
SELECT * FROM tbl_name WHERE key_col LIKE other_col;

假定在 key_col 列上定义了一个索引。则前两个查询可以使用索引，而后两个无法使用索引。

此外，对于下面这个查询：

SELECT * FROM tbl_name WHERE col IS NULL;

如果 col 列上面有索引，那么这个查询也会使用索引进行查询。

还需要补充的是，B-tree 可以有多个子节点，所以 B-tree 和二叉树又有所不同。

Hash

Hash索引实际上是将索引列的数据以“键值对”的形式进行存储。对于Hash索引，需要注意的是：

Hash索引仅能用于使用 = 或者 <=> 运算符的相等比较，但是这非常快。不能用于比较运算符(比如 >、≤ 等) 的范围查找。
优化器无法使用Hash索引来优化 ORDER BY 操作，因为 Hash索引无法用于按顺序搜索下一个条目。
使用Hash索引时，MySQL无法确定两个值之间大约有多少行。
只有完整的键能用来搜索行。

对上面四点，需要补充说明的是：

Hash索引比较的是数据经过Hash运算之后的值，5 > 3，但是 hash(5) > hash(3) 却不一定成立，所以只能用于等值比较。

MySQL范围优化器基于两个值之间的行数来决定要使用哪个索引，所以，此时范围优化器会受到影响。

使用 B-tree 索引时，键的任何最左前缀都可以用来搜索行。

对于Hash索引，既然存在Hash操作，那就肯定会涉及到 Hash冲突。我目前还没看到官方文档中对这一块相关的介绍，将来看到了再补充这一块。

R-tree

R-tree 用的不是太多，空间索引(Spatial indexes)使用R-tree，这是索引多维数据(例如地理坐标、矩形或多边形)的专用数据结构。

总结

这两天时间，翻了翻MySQL索引相关的文档，感觉还需要看一看MySQL优化器相关的知识。还没看，就已经觉得自己过几天就会忘记。但是，知识是无穷无尽的，也并不是每个人都能做到过目不忘。保持学习的目的，是为了将来能够将忘记了的知识快速捡起来。加油~

参考文档

1、https://dev.mysql.com/doc/refman/8.0/en/innodb-index-types.html

2、https://dev.mysql.com/doc/refman/8.0/en/glossary.html#glos_clustered_index

3、https://dev.mysql.com/doc/refman/8.0/en/multiple-column-indexes.html

4、https://dev.mysql.com/doc/refman/8.0/en/column-indexes.html

5、https://dev.mysql.com/doc/refman/8.0/en/innodb-fulltext-index.html

6、https://blog.csdn.net/u013164931/article/details/82386555

7、https://blog.csdn.net/SkySuperWL/article/details/52583579

8、https://dev.mysql.com/doc/refman/8.0/en/index-btree-hash.html

9、https://www.cnblogs.com/yuan-shuai/p/3225417.html

10、https://dev.mysql.com/doc/refman/8.0/en/glossary.html#glos_b_tree

11、https://dev.mysql.com/doc/refman/8.0/en/descending-indexes.html