[索引] MySQL 索引实现原理分析

fastjson_

已于 2022-07-07 14:59:24 修改

阅读量227

点赞数

分类专栏： # MySQL 核心技术文章标签： mysql 数据库数据结构

于 2021-10-14 21:07:55 首次发布

本文链接：https://blog.csdn.net/bbj12345678/article/details/120772523

版权

MySQL 核心技术专栏收录该内容

17 篇文章 8 订阅

订阅专栏

本文详细介绍了InnoDB引擎中索引的工作原理，包括B+Tree结构、聚簇索引与非聚簇索引的区别，以及索引对查询性能的影响。重点讲解了主键、自增ID与UUID对聚簇索引的影响，并提醒读者合理添加索引以平衡读写性能。

摘要由CSDN通过智能技术生成

引言：

索引就像一本书的目录。而当用户通过索引查找数据时，就好比用户通过目录查询某章节的某个知识点。这样就帮助用户有效地提高了查找速度。所以，使用索引可以有效地提高数据库系统的整体性能。

嗯，这么说其实也对。但是我还想再深入的细说一下
需要说明的是，我说的内容只在Mysql的Innodb引擎中是成立的。在Sql Server、oracle、Mysql的Mysiam引擎中的正确性，不一定成立！

B+Tree的数据结构

在InnoDB 中,表数据文件本身是按 B+Tree 组织的一个索引结构,这棵树的叶点data 域保存了完整的数据记录。

B+Tree几个特征：

非叶子节点只存储键值信息。
所有叶子节点之间都有一个链指针。
数据记录都存放在叶子节点中。
由于B+Tree的非叶子节点只存储键值信息，假设每个磁盘块能存储4个键值及指针信息，则变成B+Tree后其结构如下图所示：

聚簇索引和非聚簇索引

先引进聚簇索引和非聚簇索引的概念！

我们平时创建的索引，如复合索引、前缀索引、唯一索引，都是属于非聚簇索引，在有的书籍中，又将其称为辅助索引(secondary index)。在后文中，我们称其为非聚簇索引，其数据结构为B+树。

而这个聚簇索引，在Mysql中是没有语句来另外生成的。在Innodb中，Mysql中的数据是按照主键的顺序来存放的。那么聚簇索引就是按照每张表的主键来构造一颗B+树，叶子节点存放的就是整张表的行数据。由于表里的数据只能按照一颗B+树排序，因此一张表只能有一个聚簇索引。

在Innodb中，聚簇索引默认就是主键索引。

这个时候，机智的读者，应该要问我。。如果我的表没建主键呢？

回答是，如果没有主键，则按照下列规则来建聚簇索引

没有主键时，会用一个唯一且不为空的索引列做为主键，成为此表的聚簇索引
如果没有这样的索引，InnoDB会隐式定义一个主键来作为聚簇索引。

ps:大家还记得，自增主键和uuid作为主键的区别么？由于主键使用了聚簇索引，如果主键是自增id，，那么对应的数据一定也是相邻地存放在磁盘上的，写入性能比较高。如果是uuid的形式，频繁的插入会使innodb频繁地移动磁盘块，写入性能就比较低了。

索引原理介绍

先来一张带主键的表，如下所示，pId是主键

pId	name	birthday
5	zhangsan	2016-10-02
8	lisi	2015-10-04
11	wangwu	2016-09-02
13	zhaoliu	2015-10-07

画出该表的结构图如下

如上图所示，分为上下两个部分，上半部分是由主键形成的B+树，下半部分就是磁盘上真实的数据！那么，当我们，执行下面的语句

select * from table where pId='11'

那么，执行过程如下

如上图所示，从根开始，经过3次查找，就可以找到真实数据。如果不使用索引，那就要在磁盘上，进行逐行扫描，直到找到数据位置。显然，使用索引速度会快。但是在写入数据的时候，需要维护这颗B+树的结构，因此写入性能会下降！
OK，接下来引入非聚簇索引!我们执行下面的语句

create index index_name on table(name);

此时结构图如下所示

大家注意看，会根据你的索引字段生成一颗新的B+树。因此，我们每加一个索引，就会增加表的体积，占用磁盘存储空间。然而，注意看叶子节点，非聚簇索引的叶子节点并不是真实数据，它的叶子节点依然是索引节点，存放的是该索引字段的值以及对应的主键索引(聚簇索引)。
如果我们执行下列语句

select * from table where name='lisi'

此时结构图如下所示

通过上图红线可以看出，先从非聚簇索引树开始查找，然后找到聚簇索引后。根据聚簇索引，在聚簇索引的B+树上，找到完整的数据！

什么情况不去聚簇索引树上查询呢？

还记得我们的非聚簇索引树上存着该索引字段的值么。如果，此时我们执行下面的语句

select name from table where name='lisi'

此时结构图如下

如上图红线所示，如果在非聚簇索引树上找到了想要的值，就不会去聚簇索引树上查询。

当执行select col from table where col = ?，col上有索引的时候，效率比执行select * from table where col = ? 速度快好几倍！

看完上面的图，你应该对这句话有更深层的理解了。

那么这个时候，我们执行了下述语句，又会发生什么呢？

create index index_birthday on table(birthday);

此时结构图如下

看到了么，多加一个索引，就会多生成一颗非聚簇索引树。因此，很多文章才说，索引不能乱加。因为，有几个索引，就有几颗非聚簇索引树！你在做插入操作的时候，需要同时维护这几颗树的变化！因此，如果索引太多，插入性能就会下降!

fastjson_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录