MySQL 常见索引概念

原创已于 2023-05-31 17:09:14 修改 · 174 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mysql #数据库

于 2023-05-26 13:52:37 首次发布

mysql底层原理同时被 2 个专栏收录

23 篇文章

订阅专栏

mysql查询优化

15 篇文章

订阅专栏

索引按照物理实现方式，索引可分为2种：聚簇和非聚簇索引。我们也把非聚簇索引称为二级索引或者辅助索引。

1. 聚簇索引

聚簇索引 并不是一种单独的索引类型，而是 一种数据存储方式，也就是所谓的 索引即数据，数据即索引。

聚簇表示数据行和相邻的键值聚簇的存储在一起。

特点：

1. 使用记录主键值的大小进行记录和页的排序，这包括三个方面的含义：

~ 页内的记录是按照逐渐的大小顺序拍成一个 单向链表。

~ 各个存放用户记录的页也是根据页中用户记录的主键大小顺序拍成一个双向链表。

~ 存放 目录项记录的页 分为不同的层次，在同一层次中的页也是根据页中目录项记录的主键大小顺序拍成一 个双向链表；

2. B+树的叶子节点存储的是完整的用户记录。

所谓的完成用户记录，就是指这个记录中存储了所有列的值。

我们把具有这两个特性的B+树称为聚簇索引，所有完整的用户记录都存放在这个 聚簇索引 的叶子节点处。这种聚簇索引并不需要我们在mysql语句中现实的使用 index 语句去创建，InnoDB 存储引擎会自动地为我们创建聚簇索引。

优点：

~ 数据访问速度块，因为聚簇索引将索引和数据保存在同一个B+树中，因此从聚簇索引中获取数据比非聚簇索引更快

~ 聚簇索引对于主键的 排序查找 和 范围查找 速度非常快

~ 按照聚簇索引排序顺序，查询显示一定范围数据的时候，由于数据都是紧密相连，数据库不用从多个数据块中提取数据，所以 节省了大量的io操作。

缺点：

~ 插入数据速度严重依赖于插入顺序，按照主键的顺序插入是最快的方式，否则将会主键页分裂，严重影响性能。因此，对于 InnoDB表，我们一般都会自定义一个自增的ID列为主键。

~ 更新主键的代价很高，因为将会导致被更新的行移动。因此，对于InnoDB表，我们一般定义主键为不可更新

~ 二级索引访问需要两次索引查找，第一次找到主键值，第二次根据主键值找到行数据。

限制：

~ 对于mysql数据库目前只有InnoDB数据引擎支持聚簇索引，而MyISAM并不支持聚簇索引。

~ 由于数据物理存储排序方式只能有一种，所以每个Mysql的 表只能有一个聚簇索引。一般情况下就是该表的主键。

~ 如果没有定义主键，InnoDB会选择 非空的唯一索引 代替。如果没有这样的索引，InnoDB 会隐式的定义一个主键来作为聚簇索引。

~ 为了充分利用聚簇索引的聚簇的特性，所以InnoDB表的主键列尽量 选用有序的顺序id，而不建议用无需的id，比如UUID, MD5, HASH,字符串作为主键无法保证数据的顺序增长。

2. 二级索引（辅助索引，非聚簇索引）

上边介绍的 聚簇索引 只能在搜索条件是 主键值 时才能发挥作用，因为B+树中的数据都是按照主键进行排序的。那如果我们想以别的列作为搜索条件该怎么办呢？肯定不能是从头到尾沿着链表依次遍历记录一遍。

答案：我们可以 多建几棵B+树 ，不同的B+树中的数据采用不同的排序规则。比方说我们 C2列的大小作为数据页，页中记录的排序规则，再建一个B+树，效果如下图所示：

这个B+树与上边介绍的聚簇索引有几处不同：

~ 使用记录C2列的大小进行记录和页的排序，这包括三个方面的含义：

~ 页内的记录是按照C2列的大小顺序排成一个 单项链表。

~ 各个存放 用户记录的页 也是根据页中记录的C2列大小顺序排成一个 双向链表。

~ 存放 目录项记录的页 分为不同的层次，在同一层次中的页也是根据页中目录项记录C2列大小孙旭拍成一个 双向链表。

~ B+树的叶子节点存储的并不是完整的用户记录，而只是 C2列+主键 这两个列的值。

~ 目录项记录中不再是 主键+页号 的搭配，而变成了 C2列+页号 的搭配。

所以如果我们现在想通过C2列的值查找某些记录的话，就可以使用我们刚刚建好的这个B+树。一查找C2列的值为 4 的记录为列，查找过程如下：

1. 确定目录项记录页

根据 根页面,也即是页44,可以快速定位到 目录项记录 所在的页为 页42 (因为2<4<9)

2. 通过目录项记录页确定用户记录真是所在的页。

在页42中可以快速定位到实际存储用户记录的页，但是由于C2列并没有唯一性约束，所以C2列值为4的记录可能分布在多个数据页中，又因为 2<4<=4，所以确定实际存储用户记录的页在 页34 和 页35 中。

3. 在真实存储用户记录的页中定位到具体的记录。

到 页34 和 页35 中定位到具体的记录。

4. 但是这个B+树的叶子节点中的记录只存储了C2和C1这两列，所以我们必须在根据C1（主键）去聚簇索引中在查找一边完成的记录。

概念：回表。

我们根据这个以C2列大小排序的B+树只能确定我们要查找记录的主键值，所以如果我们像根据C2列的值查找到完整的用户记录的话，仍然需要到聚簇索引中在查找一遍，这个过程称为回表。也就是根据C2列的值查询一条完整的用户记录需要使用到 2棵 B+树！

问题：为什么我们还需要一次回表操作呢？直接把完整的用户记录放到叶子节点不OK吗？

回答：

如果把完整的用户记录放到叶子节点是可以不用回表的。但是 太占内存了，相当于每构建一个B+树索引都需要把所有的用户记录再拷贝一份，然后根据指定字段排好序生成一个B+树，这就有点太浪费存储空间了。

因为这种按照 非主键树 建立的B+树需要一次回表操作才可以定位到完整的用户记录，所以这种B+树也成为 二级索引 ，或者 辅助索引。由于我们使用的是C2列的大小作为B+树的排序规则，所以我们也称这个B+树是为C2列建立的索引。

非聚簇索引的存在不影响数据在聚簇索引中的组织，所以一张表可以有多个非聚簇索引。

小结：聚簇索引与非聚簇索引的原理不同，在使用上也有一些区别。

1. 聚簇索引的 叶子节点 存储的就是我们的 数据记录，非聚簇索引的叶子节点存储的是 数据位置。非聚簇索引不会影响数据表的物理存储顺序。

2. 一个表 只能有一个聚簇索引，因为只能有一种排序存储方式。但可以有 多个非聚簇索引，也就是多个索引目录提供数据检索。

3. 使用聚簇索引的时候，数据的 查询效率高，但如果对数据进行插入，删除更新操作，效率会比非聚簇索引低。

3. 联合索引

我们也可以同时以多个列的大小作为排序规则，也就是同时为多个列建立索引，比方说我们想让B+树按照 C2 和 C3 列的大小进行排序，这个包含两层含义：

~ 先把各个记录和页按照C2列进行排序。

~ 在记录的C2列相同的情况下，采用C3列进行排序

为C2和C3列建立的索引的示意图如下：

如图所示，我们需要注意以下几点：

~ 每条 目录像记录 都有 C2 ，C3 ，页号 这三个部分组成，各条记录先按照C2列的值进行排序，如果记录的C2列相同，测按照C3列的值进行排序。

~ B+树 叶子节点处的用户记录有 C2，C3和主键C1列 组成。

注意一点，以C2和C3列的大小为排序规则建立的B+树称为 联合索引 ，本质上也是一个二级索引。它的意思与分别为C2和C3列分别建立索引的表述是不同的，不同点如下：

~ 建立联合索引指挥建立如上图一样的1棵B+树

~ 为C2和C3分别建立索引会分别以C2和C3列的大小为排序规则建立的2棵B+树。

4. InnoDB的B+树索引的注意事项

1. 根页面的位置万年不动

我们前边介绍的B+树索引的时候，为了大家理解上的方便，先把存储用户记录的叶子节点都画出来，然后接着画存储目录项记录的内节点，实际上B+树的形成过程是这样的：

~ 每当为某个表创建一个B+树索引的时候（聚簇索引不是认为创建的，默认主键就有）的时候，都会为这个索引创建一个 根节点 页面。最开始表中没有任何数据的时候，每个B+树索引对应的 根节点 中既没有用户数据，也没有目录项记录。

~ 随后向表中插入用户记录时，先把用户记录存储到这个根节点中。

~ 当根节点中的可用 空间用完时 继续插入记录，此时会将跟节点中的所有记录复制到一个新分配的页，比如页a中，然后对这个新页进行 页分裂 的操作，得到另一个新页，比如页b，这时候新插入的记录根据简直（也就是聚簇索引中的主键值，二级索引中的对应的索引列的值）的大小就会被分配到页a或者页b中，而 根节点 便升级为存储目录项的记录页。

2. 内节点中目录项记录的唯一性

我们知道B+树索引的内节点中目录项记录的内容是索引列 + 页号的搭配。但是这个搭配对于二级索引来说有点不严谨。还拿 index_demo 表为例，假设这个表中的数据是这样的：

C1 C2 C3
1 1 'u'
3 1 'd'
5 1 'y'
7 1 'a'
如果二级索引中目录项记录的内容只是索引列 + 页号的搭配的话，那么为 C2 列建立索引后的B+树应该长这样：

如果我们想新插入一行记录，其中C1，C2，C3的值分别是：9，1，'C'，那么在修改这个为C2列建立的二级索引对应的B+树是便碰到了个大问题：由于页3 中存储的是目录项记录是由 C2列 + 页号的值构成的，页3 中的两条目录项记录对应的C2列值都是1，而我们新插入的这条记录的C2列值也是1，那我们这条新插入的记录到底应该放到页4 中，还是应该放到页5 中？

为了让新插入的记录能找到自己在那个页里，我们需要 保证在B+树的同一层内节点的目录项记录除页号这个字段以外是唯一的 。所以对于二级索引的内节点的目录像记录的内容实际上是由三个部分构成的：

~ 索引列的值
~ 主键值
~ 页号

也就是我们把主键值也添加到二级索引内节点中的目录项记录了，这样就能保证B+树每一层节点中各条目录项记录除页号这个字段外是唯一的，所以我们为C2列建立二级索引后的示意图实际上应该是这样子的：

这样我们再插入记录（9，1，‘C’）时，由于页3 中存储的目录项记录是由 C2列 + 主键 + 页号 的值构成的，可以先把新纪录的 C2列的值和页3 中各目录项记录的 C2 列的值作比较，如果C2列的值相同的话，可以接着比较主键值，因为B+树同一层中不同目录项记录的 C2列+主键 的值肯定是不一样的，所以最后肯定能确定唯一的一条目录项记录，在本例中最后去欸的那个新纪录应该被插入到页5 中

3. 一个页面最少存储两条记录
一个B+树只需要很少的层级就可以轻松存储数亿条记录，查询速度相当不错！这个是因为B+树本质上就是一个大的多层级目录，每经过一个目录时都会过滤掉许多无效的子目录，直到最后访问到存储真是数据的目录。那如果一个大的目录中只存放一个子目录是个啥效果？那就是目录层级非常非常多，而且最后的那个存放真是数据的目录中只能存放一条记录。费了半天劲只能存放一条真是用户记录？所以InnoDB的一个数据页至少可以存放两条记录。

5. MyISAM 索引原理

B+树索引试用存储引擎如表所示：

索引/存储引擎	MyISAM	InnoDB	Memory
B+Tree索引	支持	支持	支持

即使多个存储引擎支持同一种类型的索引，但是他们的实现原理也是不同的。InnoDB和MyISAM默认的索引时Btree索引；而Memory默认索引时Hash索引；

MyISAM引擎使用B+Tree作为索引结构，叶子节点的data域存放的时数据记录的地址。

1. MyISAM 索引的原理

下图时MyISAM索引的原理图。

我们直到 InnoDB中索引即数据，也就是聚簇索引的那颗B+树的叶子节点中已经把所有完整的用户记录都包含了。而 MyISAM 的索引方案虽然也是用树形结构，但是却 将索引和数据分开存储：

~ 将表中的记录 按照记录的插入顺序 单独存储在一个文件中，称之为 数据文件。这个文件并不划分为若干个数据页，有多少记录就往这个文件中塞多少记录就行。由于再插入数据的时候并 没有可以按照主键大小排序，所以我们并不能直在这些数据上使用二分法查找数据。

使用MyISAM存储引擎的表会把索引信息另外存储到一个称为 索引文件 的另一个文件中。 MyISAM 会单独为表的主键创建一个索引，只不过在索引的叶子节点中存储的不是完整的用户记录，而是 主键值 + 数据记录地址 的组合。

这里设计表一共由三列，假设我们已Col1为主键，上图是一个MyISAM表的主键索引示意。可以看出 MyISAM的索引文件仅仅保存数据记录的地址。在MyISAM中，主键索引和二级索引在结构上没有任何区别，只是主键索引要求key是唯一的，而二级索引的key可以重复。如果我们在Col2上建立一个二级索引。则此索引的结构如下图所示：

4.3 MyISAM 与InnoDB 对比

MyISAM的索引方式都是“非聚簇”的，与InnoDB包含1个聚簇索引是不同的。两种索引的区别：

1. 在InnoDB存储引擎中，我们只需要根据主键值对 聚簇索引 进行一次查找就能找到对应的记录，而在 MyISAM 中却需要进行一次回表操作，意味着MyISAM中建立的都是 二级索引。

2. InnoDB的数据文件本身就是索引文件，而MyISAM索引文件和数据文件是 分离的，索引文件仅保存数据记录的地址。

3. InnoDB 的非聚簇索引data域存储的相应记录 主键的值，而MyISAM索引记录的是地址。换句话说，InnoDB的所有非聚簇索引都是引用主键作为data域。

4. MyISAM的回表操作时十分快速的，因为是拿着地址偏移量直接到文件中取数据，反观InnoDB的所有非聚簇索引都是引用主键作为data域。

5. InnoDB要求 必须有主键（MyISAM可以没有）。如果没有显示指定，则MySQL系统会自动选择一个可以非空且唯一标识数据记录的列作为主键。如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整型。

小结：

了解不同的存储引擎的索引实现方式对于正确使用和优化索引都是非常有帮助的。比如：

举例1：知道了InnoDB的索引实现后，就很容易明白为什么不建议使用过长字段作为主键，因为所有二级索引都引用主键，过长的主键索引会令二级索引变得过大。

举例2：用非单调的字段作为主键在InnoDB中不是一个好主意，因为InnoDB数据文件本身是一个B+树，非单调的主键会造成再插入新纪录时，数据文件为了维持B+树的特性而频繁的分裂调整，十分低效，而使用 自增字段作为主键则是一个很好的选择。

6.索引的代价

索引是个好东西，可以不能乱建，它在空间和时间上都会有消耗：

空间上的代价

每建立一个索引都要为它建立一个B+树，每一颗B+树的每一个节点都是一个数据页，一个页默认会占用 16KB 的存储空间，一颗很大的B+树由许多数据页组成，那就是很大的一片空间。

时间上的代价

每次对表的数据进行增，删，改操作时，都需要去修改各个B+树索引。而且我们讲过，B+树每层节点都是按照索引列的值 从小到大的顺序排序 而组成 双向链表。不论是叶子节点中的记录，还是内节点中的记录都是按照索引列的值从小到大的顺序而形成了一个单项链表。而增，删，改操作可能会对节点的记录和排序造成破坏，所以存储引擎需要额外的时间进行一些 记录移位，页面分裂，页面回收 等操作来维护好节点和记录的排序。如果我们建立了许多索引，每个索引对应的B+树都要进行相关的维护操作，会给性能拖后腿。

一个表上索引建立的越多，就会占用越多的存储空间，在增删改记录的时候性能就越差。为了能建立又好又少的索引，我们的学学这些索引在那些条件下起作用。