索引相关分类----------CSDN博客

本文链接：https://blog.csdn.net/chloe2333/article/details/137866742

1、什么是索引

MySQL官方对索引的定义为：索引就是用于实现数据的快速检索，由数据表中的一列或多列组合而成，索引实质上是一张描述索引列的列值与原表中记录行之间一一对应关系的有序表。索引的实现通常使用B树及其变种B+树。

更通俗的说，索引就相当于目录。为了方便快速查找书中的内容，通过对内容建立索引形成目录。索引是一个文件，它是要占据物理空间的。

2、索引的优缺点

优点

提高数据检索的效率，降低数据库的IO成本（不需要全表扫描）

通过索引列对数据进行排序，降低数据排序的成本，降低了CPU的消耗

缺点

创建和维护索引组要耗费时间，并且随着数据量的增加所耗费的时间也会增加。

索引需要占磁盘空间，除了数据表占数据空间以外，每一个索引还要占一定的物理空间。如果有大量的索引，索引文件可能比数据文件更快达到最大文件尺寸。

当对表中的数据进行增加、删除和修改的时候，索引也要动态维护，这样就降低了数据的维护速度。因为更新表时，MySQL不仅要保存数据，还要保存一下索引文件

3、索引分类

3.1 根据索引的存储方式来划分：聚簇索引、二级索引（辅助索引）;

聚簇索引的每个叶子节点存储了一行完整的表数据，叶子节点间按id列递增连接，可以方便地进行顺序检索。
InnoDB表要求必须有聚簇索引，默认在主键字段上建立聚簇索引，在没有主键字段的情况下，表的第一个非空的唯一索引将被建立为聚簇索引，在前两者都没有的情况下，InnoDB将自动生成一个隐式的自增id列，并在此列上建立聚簇索引。

在这里插入图片描述
以MyISAM为存储引擎的表不存在聚簇索引。
MyISAM表中的主键索引和非主键索引的结构是一样的，索引的叶子节点不存储表数据，存放的是表数据的地址。所以，MyISAM表可以没有主键。

在这里插入图片描述

3.2 字段特性–主键索引、普通索引、前缀索引;

建立在主键上的索引被称为主键索引，一张数据表只能有一个主键索引，索引列值不允许有空值，通常在创建表时一起创建。
建立在普通字段上的索引被称为普通索引。
前缀索引是指对字符类型字段的前几个字符或对二进制类型字段的前几个bytes建立的索引，而不是在整个字段上建索引。前缀索引可以建立在类型为char、varchar、binary、varbinary的列上，可以大大减少索引占用的存储空间，也能提升索引的查询效率。

3.3 字段个数–单列索引、联合索引（复合索引、组合索引）;

建立在单个列上的索引被称为单列索引。
建立在多个列上的索引被称为联合索引，又叫复合索引、组合索引。

最左前缀匹配原则

当对多列创建索引后，并不是只要包含了创建索引的列就能使用索引，索引的使用要遵循最左前缀匹配原则。

假设对列(A, B, C)创建索引，那么只有以下场景能使用索引：

对列(A, B, C)或者(A, C)或者(A, B)进行查询会匹配索引，对(C, A)或者(B, C)来说不能使用索引,也就是都包含了第一个索引A，整个联合索引才会起效，（但是实际实践只要包含A都会走索引，mysql会优化）

通配符只能使用LIKE 'val%'形式，不能使用LIKE ‘%VAL%’，后者会导致全表扫描。

索引列不能进行运算，例如WHERE A + 1 = 5这种场景会导致索引失效。

索引列不能包含范围值查询，如LIKE/BETWEEN/>/<等都会导致后面的列无法匹配索引。

索引列不能包含有NULL值。

为什么需要注意联合索引中的顺序？

MySQL使用联合索引时需要索引有序，假设现在建立了"name，age，school"的联合索引，那么索引的排序为: 先按照name排序，如果name相同，则按照age排序，如果age的值也相等，则按照school进行排序。

当进行查询时，此时索引仅仅按照name严格有序，因此必须首先使用name字段进行等值查询，之后对于匹配到的列而言，其按照age字段严格有序，此时可以使用age字段用做索引查找，以此类推。因此在建立联合索引的时候应该注意索引列的顺序，一般情况下，将查询需求频繁或者字段选择性高的列放在前面。此外可以根据特例的查询或者表结构进行单独的调整。

3.3 数据结构–B+tree索引、Hash索引、Full-text索引;

B-tree 中的每个节点根据实际情况可以包含多条数据信息和子节点，如下图所示为一个3阶的B-tree：

B+tree 非叶子节点只存储键值信息，数据记录都存放在叶子节点中。而B-tree的非叶子节点也存储数据。所以B+tree单个节点的数据量更小，在相同的磁盘I/O次数下，能查询更多的节点。

B+tree 所有叶子节点之间都采用单链表连接。适合MySQL中常见的基于范围的顺序检索场景，而B-tree无法做到这一点。

在这里插入图片描述

额外补充 B+tree与红黑树的对比：

红黑树是一种弱平衡二叉查找树。通过对任何一条从根到叶子的路径上各个节点着色的方式的限制，红黑树确保没有一条路径会比其他路径长出两倍。

对于有N个叶子结点的 B+tree，其搜索复杂度为 O(logdN) ，其中 d(degree) 为 B+tree 的度，表示节点允许的最大子节点个数为d个，在实际应用当中，d值一般是大于100的，即使数据量达到千万级别时B+tree的高度依然维持在3-4左右，保证了3-4次磁盘I/O操作就能查询到目标数据。

红黑树是二叉树，节点子节点个数为两个，意味着其搜索复杂度为 O(logN)，树的高度也会比 B+tree 高出不少，因此红黑树检索到目标数据所需经历的磁盘I/O次数更多。

额外补充 B+tree与Hash的对比

点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。虽然 Hash 索引效率高，但是 Hash 索引本身由于其特殊性也带来了很多限制和弊端，主要有以下这些。

Hash 索引无法适用数据的排序操作。

由于 Hash 索引中存放的是经过 Hash 计算之后的 Hash值，而且Hash值的大小关系并不一定和 Hash运算前的键值完全一样，所以数据库无法利用索引的数据来避免任何排序运算；

Hash 索引不能利用部分索引键查询。

对于组合索引，Hash 索引在计算 Hash 值的时候是组合索引键合并后再一起计算 Hash 值，而不是单独计算 Hash值，所以通过组合索引的前面一个或几个索引键进行查询的时候，Hash 索引也无法被利用。

Hash 索引依然需要回表扫描。

Hash 索引是将索引键通过 Hash 运算之后，将 Hash运算结果的 Hash值和所对应的行指针信息存放于一个 Hash 表中，由于不同索引键可能存在相同 Hash 值，所以即使取满足某个 Hash 键值的数据的记录条数，也无法从 Hash索引中直接完成查询，还是要通过访问表中的实际数据进行相应的比较，并得到相应的结果。

Hash索引遇到大量Hash值相等的情况后性能并不一定就会比B-Tree索引高。

选择性比较低的索引键，如果创建 Hash 索引，那么将会存在大量记录指针信息存于同一个Hash值相关联。这样要定位某一条记录时就会非常麻烦，会浪费多次表数据的访问，而造成整体性能低下

由于范围查询是MySQL数据库查询中常见的场景，Hash表不适合做范围查询，它更适合做等值查询。另外Hash表还存在Hash函数选择和Hash值冲突等问题。因此，B+tree索引要比Hash表索引有更广的适用场景。

https://blog.csdn.net/qq_37284798/article/details/129485023

————————————————

                        版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/qq_50954361/article/details/128896811