MySQL为什么要选择B+树来作为索引的数据结构

最新推荐文章于 2022-09-27 14:26:06 发布

啊狸的Java

最新推荐文章于 2022-09-27 14:26:06 发布

阅读量1.1k

点赞数

分类专栏： mysql 数据结构文章标签： Mysql 数据库 B+树索引

本文链接：https://blog.csdn.net/qq_30468551/article/details/88061242

版权

mysql 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

数据结构

6 篇文章 0 订阅

订阅专栏

二叉树的结构出发

  首先从二叉树的结构来说，二叉树的结构是从它的第一个元素开始定根节点，往后插入的数据会跟根节点的值做比较，如果值比根节点的值大则会放到右边，成为右子节点，反之，则插入到左边，成为左子节点

结论

  从上面二叉树的结构可以得到以下结论：如果第一个插入的数据的值比较小，往后插入的数据的值都比第一个插入的数据的值要大，则二叉树会转变成为一颗斜树，斜树的时间复杂度为O(n)，效率极低

在这里插入图片描述
二叉树的检索是怎么样的，如果我要获取上图G的值，是怎么获取的？
二叉树的检索采用的是二分查找法，因为二叉树的数据是保存在磁盘的，所以每次读取会先将根节点加载到内存中，然后用G的值跟A的值做比较，如果G的值比A的小，则会将A的左子节点的数据加载到内存中（非叶子节点只保存子节点的地址），依次这样读取，直到最后读取到的值是G
从计算机的IO读取原理来看，计算机每次的读取是按页为单位，默认一页的大小为4k，计算机还会利用空间局部性原理，认为你读取的这一页数据，过一会你还会读旁边的那一页，就像是快递小哥，他要去派送A村的快递，他在车装的不只是A村的快递，他还会装B村C村的快递，计算机的读取原理也是如此。
从二叉树的数据结构来看，计算机检索二叉树是按一个节点来检索的，而一个非叶子节点上最多有当前节点的数据和其子节点的地址，这样远远达不到4K的大小，所以根据这一点，二叉树不适合做索引

为什么B+树又适合做索引呢？

从B+树的结构出发：

在这里插入图片描述
1、B+数是由B-数演变而来，所以B+数拥有B-数的所有特性
2、B+树的非叶子节点只保存关键字和子节点的地址，而叶子节点保留了当前路节点的所有节点的关键字、数据区和地址，所以要得到节点的数据就要到叶子节点上去获取，所以我们每次对数据的检索的时间都差不多，不像其他树，非叶子节点也有保留数据区，这样子当数据量庞大，当检索第一个跟最后一个的索引时间就相差比较大
2、B+树是一颗多路平衡查找树，由于它是多路的，所以它的高度比其他二叉树都矮，树的高度决定了检索数据的时间复杂度
计算机默认检索的一页是4k，而mysql对这个4k做了调整增加到16k，这个一页是16k，假如这里保存的是一个id的索引树，那id设置为int类型，一个int类型为4个字节，那这一页可以保存的id的个数就可以这样算（（16* 1024）/4），所以索引的类型和字节数都决定了数据库检索数据的效率，所以该id树的一个节点可以设置的路数就为（（16*1024）/4）路，所以这一页就可以保存这么多数据，一次加载到内存中就可以加载那么多，充分利用了计算机的IO读取性能和空间局部性原理，极大降低了计算机IO的次数
3、B+树的叶子节点上保存一个指针，这个指针指向的是下一个叶子节点的指针，譬如第一路的叶子节点上数据有567这三个树，而第二路有8910，则第一路的7有个指针会指向第二路的8，这样做的好处是使数据自带有顺序性的特性，这个顺序性在我们做一个范围查询时，性能就得到充分的发挥，这个指针也是B-树跟B+树的区别之一

啊狸的Java

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
MySQL为什么要选择B+树来作为索引的数据结构

二叉树的结构出发首先从二叉树的结构来说，二叉树的结构是从它的第一个元素开始定根节点，往后插入的数据会跟根节点的值做比较，如果值比根节点的值大则会放到右边，成为右子节点，反之，则插入到左边，成为左子节点结论从上面二叉树的结构可以得到以下结论：如果第一个插入的数据的值比较小，往后插入的数据的值都比第一个插入的数据的值要大，则二叉树会转变成为一颗斜树，斜树的时间复杂度为O(n)，效率极低...
复制链接

扫一扫