Mysql从数据页的角度理解B+树查询

最新推荐文章于 2024-07-25 17:05:51 发布

壹个人的火锅

最新推荐文章于 2024-07-25 17:05:51 发布

阅读量694

点赞数 9

文章标签： mysql b树数据库

本文链接：https://blog.csdn.net/m0_63512120/article/details/139551121

版权

mysql8的存储引擎采用的 InnoDB

记录存储是采用行来存储，读取按照 数据页 的方式来读。也就是说每次读一条记录的时候，并不是将记录本身从磁盘读出来，而是以页为单位，将其整体读入内存。数据库的I/O操作最小单位是页，InnoDB数据页的默认大小是16kb。

一个数据页的组成：

在文件头中有两个指针，分别指向了上一个数据页和下一个数据页，连接起来的页相当于一个双向的链表

这样的链式结构让数据页之间在逻辑上产生连续的关系。

数据页的主要作用还是用来存储数据库数据的，那用户记录中是如果存储数据的？

每个数据页内的数据按照主键顺序组成了单向链表。单向链表插入、删除比较方便，但是搜索太慢，应该怎么办？

因此，数据页中要有一个页目录，起到索引的作用。

页目录的创建过程

先将所有的记录划分成几个组。记录中不包含标记“已删除”的记录；
每个记录组中最后一条记录就是组内最大的数据，并且最后一条记录的头部信息会存储该组的数据总数；
页目录用来存储每组最后一条数据的地址偏移量。这些地址偏移量会按先后顺序存储起来，每组的地址偏移量也被称为槽(slot)，每个槽相当于指向了对应组中的最后一条记录。

最终，页目录将由多个槽组成，槽也就相当于分组记录的索引了。每次当通过槽查找记录的时候，可以使用二分快速定位到要查询的记录在哪个槽，定位槽后，在遍历槽内所有记录，便可以找到对应的记录了。

上面分析的是在一个数据页中进行数据检索，因为一个数据页中的所有记录是有限的，且主键值是有序的，所以通过对所有记录进行分组，然后将组号存储到页目录，使其起到索引作用。

但是当数据页多的时候，我们就需要考虑如何建立合适的索引了。

InnoDB在这里采用了"矮胖"的B+树数据结构，这样对磁盘的I/O次数更少，而且B+树更适合进行关键字的范围查询。

InnoDB里的 B+树中的每个节点都是一个数据页：

从图得出，B+树的特点：

索引可以分为聚簇索引和非聚簇索引（二级索引），它们区别就在于叶子节点存放的是什么数据：

因为表的数据都是存放在聚簇索引的叶子节点里面，所以InnoDB存储引擎一定会为表创建一个聚簇索引，且由于数据在物理上只会保存一份，所以聚簇索引只能有一个。

InnoDB创建聚簇索引的时候，会根据不同场景选择不同的列作为索引：

一张表只能有一个聚簇索引，那为了实现非主键字段的快速索引，就引出了二级索引（非主键索引），它也是利用了B+树的数据结果，但是二级索引的叶子节点不在存放实际数据，而是存放主键值。

二级索引的B+树如下图：

因此：如果某个查询语句使用了二级索引，但是查询的数据不是主键值，这时在二级索引找到主键值后，需要去聚簇索引中获取数据行。这时也就要求查两个B+树才能查询到最终数据，这个过程叫做回表。

当查询的数据是主键值时，那仅通过二级索引便可查到，不用再通过聚簇索引查询。这时只需要查询一个B+树就能查询到了最终数据，这个过程就叫做 索引覆盖

InnoDB的数据按数据页为单位来读写的，默认数据页大小为16KB。每个数据页之间通过双向链表的形式组织起来，物理上不连续，但逻辑上连续。
每个数据页内包含用户记录，每个记录之间用单向链表的方式组织起来，为了加快在页内查询速度，设置了页目录，页目录存储的是各个槽（分组），且主键值有序，此时便可通过二分快速查找。
数据页多的情况下，InnoDB采用B+树作为索引，每个节点都是一个数据页。
叶子节点存储的数据就是实际数据那就是聚簇索引，一个表只能有一个聚簇索引；如果叶子结点存储的不是实际数据，而是主键则是二级索引，一个表中可以有多个二级索引。
使用二级索引的情况下，又分为回表和索引覆盖两种情况

关注