索引数据结构

pmc0_0

已于 2022-08-04 22:51:18 修改

阅读量494

点赞数

分类专栏：数据库文章标签：数据结构算法 java

于 2022-08-04 21:33:45 首次发布

本文链接：https://blog.csdn.net/pmc0_0/article/details/126145290

版权

数据库专栏收录该内容

25 篇文章 0 订阅

订阅专栏

文章目录

索引定义
InnoDB中索引设计
- 索引设计方案
索引分类
InnoDB的B+树索引注意事项
MYISAM中的索引方案
MyISAM 与 InnoDB对比
为什么更倾向于适用InnoDB

索引定义

索引（Index）是帮助MySQL高效获取数据的数据结构。

InnoDB中索引设计

建一个表

mysql> CREATE TABLE index_demo(
	-> c1 INT,
	-> c2 INT,
	-> c3 CHAR(1),
	-> PRIMARY KEY(c1)
	-> ) ROW_FORMAT = Compact;

这个表使用 Compact 行格式来实际存储记录的。下图简化了index_demo表的行格式示意图：

在这里插入图片描述

record_type ：记录头信息的一项属性，表示记录的类型， 0 表示普通记录、 2 表示最小记录、 3 表示最大记录、 1 暂时还没用过，下面讲。
next_record ：记录头信息的一项属性，表示下一条地址相对于本条记录的地址偏移量，我们用箭头来表明下一条记录是谁。
各个列的值：这里只记录在 index_demo 表中的三个列，分别是 c1 、 c2 和 c3 。
其他信息：除了上述3种信息以外的所有信息，包括其他隐藏列的值以及记录的额外信息。

将行格式竖起来：

在这里插入图片描述
放数据页里的示意图：

索引设计方案

目录项记录的 record_type 值是1，而普通用户记录的 record_type 值是0。
记录头信息里还有一个叫 min_rec_mask 的属性，只有在存储目录项记录的页中的主键值最小的目录项记录的 min_rec_mask 值为 1 ，其他别的记录的 min_rec_mask 值都是 0
在叶子节点（也就是所有的存储普通用户记录的数据页）中，下一个数据页中用户记录的主键值必须大于上一个页中用户记录的主键值。
目录项记录只有主键值和页的编号两个列，而普通的用户记录的列是用户自己定义的，可能包含很多列，另外还有InnoDB自己添加的隐藏列。

在这里插入图片描述

图解：索引数据结构采用了树，底层都是存储普通用户记录的数据页，其他高层都是目录项记录的数据页。

检索方式：查询主键为20的普通用户记录，从根节点开始查找，目录项页33，二分查找法1 < 20 <320，追查主键1对应的目录项页30，二分查找法12 < 20 <209，追查主键12对应的普通用户记录页9，二分查找法12 < 20 = 20，定位到要查询主键为20的普通用户记录

在这里插入图片描述

上图就是简化后的树结构，这也是B+树的抽象化，这是一个极端的构想，一般一个数据页是很大的

索引分类

索引按照物理实现方式，索引可以分为 2 种：聚簇（聚集）和非聚簇（非聚集）索引。非聚集索引称为二级索引或者辅助索引。

聚簇索引

聚簇索引并不是一种单独的数据类型，而是一种数据存储方式（所有的用户记录都存储在了叶子节点），也就是索引即数据，数据即索引。InnoDB存储引擎会自动的为我们创建聚簇索引

使用记录主键值的大小进行记录和页的排序，这包括三个方面的含义：

页内的记录是按照主键的大小顺序排成一个单向链表。
各个存放用户记录的页也是根据页中用户记录的主键大小顺序排成一个双向链表。
存放目录项记录的页分为不同的层次，在同一层次中的页也是根据页中目录项记录的主键大小顺序排成一个双向链表。

B+树的叶子节点存储的是完整的用户记录。所谓完整的用户记录，就是指这个记录中存储了所有列的值（包括隐藏列）。

优点

数据访问更快，因为聚簇索引将索引和数据保存在同一个B+树中，因此从聚簇索引中获取数据比非聚簇索引更快
聚簇索引对于主键的排序查找和范围查找速度非常快
按照聚簇索引排列顺序，查询显示一定范围数据的时候，由于数据都是紧密相连，数据库不用从多个数据块中提取数据，所以节省了大量的io操作。

缺点

插入速度严重依赖于插入顺序，按照主键的顺序插入是最快的方式，否则将会出现页分裂，严重影响性能。因此，对于InnoDB表，我们一般都会定义一个自增的ID列为主键
更新主键的代价很高，因为将会导致被更新的行移动。因此，对于InnoDB表，我们一般定义主键为不可更新

限制

对于MySQL数据库目前只有InnoDB数据引擎支持聚簇索引，而MylSAM并不支持聚簇索引。
由于数据物理存储排序方式只能有一种，所以每个MysQL的表只能有一个聚簇索引。一般情况下就是该表的主键。
如果没有定义主键，Innodb会选择非空的唯一索引代替。如果没有这样的索引，Innodb会隐式的定义一个主键来作为聚簇索引。
为了充分利用聚簇索引的聚簇的特性，所以innodb表的主键列尽量选用有序的顺序id，而不建议用无序的id，比如UUID、MD5、HASH、字符串列作为主键无法保证数据的顺序增长。

二级索引（辅助索引、非聚簇索引）

如果我们想以别的列作为搜索条件该怎么办呢?肯定不能是从头到尾沿着链表依次遍历记录一遍? 我们可以多建几棵B+树，不同的B+树中的数据采用不同的排序规则。比方说我们用c2列的大小作为数据页、页中记录的排序规则，再建一棵B+树，效果如下图所示:

在这里插入图片描述

这个B+树与上边介绍的聚簇索引有几处不同：

使用记录c2列的大小进行记录和页的排序，这包括三个方面的含义:

页内的记录是按照c2列的大小顺序排成一个单向链表。
各个存放用户记录的页也是根据页中记录的c2列大小顺序排成一个双向链表。
存放目录项记录的页分为不同的层次，在同一层次中的页也是根据页中目录项记录的c2列大小顺序排成一个双向链表。

B+树的叶子节点存储的并不是完整的用户记录，而只是c2列+主键这两个列的值。
目录项记录中不再是主键+页号的搭配，而变成了c2列+页号的搭配。

所以如果我们现在想通过c2列的值查找某些记录的话就可以使用我们刚刚建好的这个B+树了。以查找c2列的值为4的记录为例，查找过程如下:

确定目录项记录页根据根页面，也就是页44，可以快速定位到目录项记录所在的页为页42(因为2<4<9 )。
通过目录项记录页确定用户记录真实所在的页。在页42中可以快速定位到实际存储用户记录的页，但是由于c2列并没有唯一性约束，所以c2列值为4的记录可能分布在多个数据页中，又因为2<4≤4，所以确定实际存储用户记录的页在页34和页35中。
在真实存储用户记录的页中定位到具体的记录。到页34和页35中定位到具体的记录。
但是这个B+树的叶子节点中的记录只存储了c2和c1 (也就是主键）两个列，所以我们必须再根据主键值去聚簇索引中再查找一遍完整的用户记录。

回表

回表：我们根据这个以c2列大小排序的B+树只能确定我们要查找记录的主键值，所以如果我们想根据c2列的值查找到完整的用户记录的话，仍然需要到聚簇索引中再查一遍，这个过程称为回表。也就是根据c2列的值查询一条完整的用户记录需要使用到 2 棵B+树！

为什么我们还需要一次回表操作呢？直接把完整的用户记录放到叶子节点不OK吗？

太浪费空间

联合索引

在这里插入图片描述

也可以同时以多个列的大小作为排序规则，也就是同时为多个列建立索引，比方说想让B+树按照 c2和c3列的大小进行排序，这个包含两层含义：

先把各个记录和页按照c2列进行排序。
在记录的c2列相同的情况下，采用c3列进行排序

注意一点，以c2和c3列的大小为排序规则建立的B+树称为联合索引，本质上也是一个二级索引。它的意思与分别为c2和c3列分别建立索引的表述是不同的，不同点如下：

建立联合索引只会建立如上图一样的1棵B+树。
为c2和c3列分别建立索引会分别以c2和c3列的大小为排序规则建立2棵B+树。

聚簇和非聚簇区别

聚簇索引的叶子节点存储的就是我们的数据记录，非聚簇索引的叶子节点存储的是数据位置。非聚簇索引不会影响数据表的物理存储顺序。
一个表只能有一个聚簇索引，因为只能有一种排序存储的方式，但可以有多个非聚簇索引，也就是多个索引目录提供数据检索。
使用聚簇索引的时候，数据的查询效率高，但如果对数据进行插入，删除，更新等操作，效率会比非聚簇索引低。

InnoDB的B+树索引注意事项

根页面位置万年不动

上面演示为了理解是从下往上生成树，实际是从上往下生成的

在这里插入图片描述

如果是二级索引，为了保证唯一性，在内节点会存储主键和索引列

一个页面最少存储2条记录

MYISAM中的索引方案

MyISAM引擎使用 B+Tree 作为索引结构，叶子节点的data域存放的是数据记录的地址,它没有聚簇索引

在这里插入图片描述

MyISAM 与 InnoDB对比

在InnoDB存储引擎中，我们只需要根据主键值对聚簇索引进行一次查找就能找到对应的记录，而在
MyISAM 中却需要进行一次回表操作，意味着MyISAM中建立的索引相当于全部都是二级索引。
InnoDB的数据文件本身就是索引文件，而MyISAM索引文件和数据文件是分离的，索引文件仅保存数
据记录的地址。
InnoDB的非聚簇索引data域存储相应记录主键的值，而MyISAM索引记录的是地址。换句话说，
InnoDB的所有非聚簇索引都引用主键作为data域。
MyISAM的回表操作是十分快速的，因为是拿着地址偏移量直接到文件中取数据的，反观InnoDB是通
过获取主键之后再去聚簇索引里找记录，虽然说也不慢，但还是比不上直接用地址去访问。
InnoDB要求表必须有主键（ MyISAM可以没有）。如果没有显式指定，则MySQL系统会自动选择一个
可以非空且唯一标识数据记录的列作为主键。如果不存在这种列，则MySQL自动为InnoDB表生成一个隐
含字段作为主键，这个字段长度为6个字节，类型为长整型。

为什么更倾向于适用InnoDB

安全策略。MyISAM是MySQL的默认数据库引擎（5.5版之前）。虽然性能极佳，而且提供了大量的特性，包括全文索引、压缩、空间函数等，但MyISAM不支持事务和行级锁，而且最大的缺陷就是崩溃后无法安全恢复。
索引速率。《MySQL高性能》上面有一句话这样写到：不要轻易相信“MyISAM比InnoDB快”之类的经验之谈，这个结论往往不是绝对的。在很多我们已知场景中，InnoDB的速度都可以让MyISAM望尘莫及，尤其是用到了聚簇索引(通过id查询)，或者需要访问的数据都可以放入内存的应用。(myisam直接从磁盘里拿数据，而innodb要分两步，innodb要从内存里首先获取数据，如果没有再到磁盘里拿。如果内存足够大,innodb会将所有的数据缓存在内存)
范围查找。innodb的聚簇索引，只要主键自增，它只需要一页一页地写，索引结构相对紧凑，磁盘碎片少，效率也高。对磁盘更加友好。innodb范围查找时，我们只需要一次io读写，可以获取到16K大小的资源，我们称之为读取到的数据区域为Page。而我们的B树，B+树的索引结构，叶子节点上存放好多个关键字（索引值）和对应的数据，都会在一次IO操作中被读取到缓存中，所以在访问同一个页中的不同记录时，会在内存里操作，而不用再次进行IO操作了。除非发生了页的分裂，才会触发新的IO操作。因为MyISAM的主索引并非聚簇索引，那么他的数据的物理地址必然是凌乱的，拿到这些物理地址，按照合适的算法进行I/O读取，于是开始不停的寻道不停的旋转。聚簇索引则只需一次I/O。
InnoDB 锁粒度是行锁，而 MyISAM 是表锁。但是行锁在 InnoDB 中是基于索引实现的，所以一旦某个加锁操作没有使用索引，那么该锁就会退化为表锁。但是如果innodb通过聚簇索引实现查询，既有行锁，以此来保证数据执行的事务性的同时又可以获得高的查询效率。但实际上因为事务性的保证需要开启事务和提交事务，故也需要一定的开销，innodb通过主键查询的效率不一定高于myisam。而myisam是不支持事务的