如何理解mysql的索引为何要使用B+树来实现

最新推荐文章于 2024-08-10 11:12:46 发布

WorkerDH

最新推荐文章于 2024-08-10 11:12:46 发布

阅读量102

点赞数

分类专栏： mysql 文章标签： b树 mysql 数据结构

本文链接：https://blog.csdn.net/qq_41504081/article/details/128906290

版权

mysql 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章解释了MySQL使用B+树作为索引数据结构的原因，对比了二叉树和AVL树，强调了B+树在降低磁盘IO次数和优化范围查询上的优势。B+树的每个节点可存储更多索引，降低树的高度，减少查询复杂度，适合大规模数据的存储和检索。

摘要由CSDN通过智能技术生成

如何理解mysql的索引为何要使用B+树的数据结构

我们知道在mysql中，给一个字段加上索引之后，查询速度会快很多。为何会快很多，是因为在给一个字段加上索引之后，会根据这个字段生成对应的一个树，然后在树中进行查找时，我们的复杂度就从O(n)变成了O(log(n)),当我们的表越大时，树的查找速度相比于原来的遍历查找就会快很多。

关于这个树为什么是B+树，为什么不是二叉树，B树，或者其它树。我们可以做出以下分析：

首先是二叉树，但二叉树在面对原序列有序时会发生不平衡的现象，退化成单链表，如下图所示：

在这里插入图片描述

此时这个二叉树的高度接近于n，那么查询的复杂度也接近于O(n)，在数据库中还是很容易遇到这种情况的，所以不适用与我们的索引结构，但我们能看到上述的问题主要是由于树的高度造成的，所以我们可以尝试使用二叉平衡树(AVL)，如图所示：
在这里插入图片描述

在面对上面二叉树遇到的情况时，AVL能够动态的去平衡二叉树，且左右子树的高度相差不会超过1，所以我们的查询的复杂度此时是O(log(n))的，那么为何没有选择用这种树呢？

假设我们现在有一千多万的数据，根据log(n)可得，大概需要查找24次就能查找到我们的数据，你看我们从千万级优化到了24次。然后补充一点就是，我们这一千多万数据是存在磁盘上的，我们在做查询的时候需要从磁盘中读到内存中进行处理，也就是说，我们每对树向下进行一次查找，就会进行一次磁盘io。所以我们在这个二叉树上进行查询时的操作，绝大部分都需要进行20次磁盘io以上；在当时的年代硬盘采用的还只是机械硬盘，机械硬盘相比于内存的速度可是慢了好几个数量级，所以优化查询的速度自然想到了减少io次数，在内存里面做更多的操作，因为内存就是比硬盘快。

所以我们想到了B树，B树相比于二叉树，每个节点上我们能够存储更多的索引，我们树的高度也会因此变矮，如图所示：

在这里插入图片描述