数据结构对决：B+树如何在MySQL索引中胜出

最新推荐文章于 2024-07-08 21:10:38 发布

进击の夹生饭

最新推荐文章于 2024-07-08 21:10:38 发布

阅读量908

点赞数 24

文章标签：数据结构 b树 mysql

本文链接：https://blog.csdn.net/qq_61799122/article/details/139898621

版权

数据库索引基础

在开始讨论B+树之前，我们首先要知道什么是索引，索引到底是干什么的，为什么要有索引？

首先，索引的目的在于提高查询效率，比如我们在查字典的时候，如果要查 “abcd” 这个单词，我们要先定位到 a 字母，然后在所有 a 开头的单词中找第二个字母为 b 的单词，以此类推直到找到整个单词。如果没有目录，那么你可能需要把所有单词看一遍才能找到你想要的，如果这个字典里有几十万个单词呢，几百万甚至几千万呢？如果没有目录这个事情根本无法完成。

对于数据库的表而言，索引其实就是它的“目录”。

B+树与其他数据结构的比较

哈希表

说起目录与查询，我们首先想到的一定是哈希表，哈希表可以通过哈希函数快速定位数据，在 O(1)的时间复杂度下完成查找、插入和删除操作。但是如果我们要进行模糊查询的话，却只能遍历所有数据，并且在极端情况下，哈希表冲突的元素太多会导致查找效率退化到 O(n)，这也是HashMap 树化的原因。

二叉搜索树

二叉搜索树是一种有序的二叉树，其中每个节点的键值小于其左子树所有节点的键值，大于或等于其右子树所有节点的键值，可以在 O(log n) 的时间复杂度下完成查找、插入和删除操作。但是和哈希表一样，二叉搜索树在极端的情况下会退化为链表，比如树的高度与节点数相同，这个时候操作的时间复杂度就会退化为 O(n) 。因此，保持二叉查找树的平衡对于其性能至关重要。

AVL树与红黑树

如何保持二叉搜索树的平衡呢？这里就引出了AVL树，AVL树是一种自平衡的二叉搜索树，它通过在每次插入或删除节点后进行旋转操作来保持树的平衡性。其特点是任何节点的两个子树的高度最大差别为 1 ，这种平衡性确保了树的查找、插入和删除操作都能在 O(log n) 的时间复杂度内完成。

上文提到了HashMap的树化，那么HashMap树化为什么会化为红黑树而不是AVL树呢？

原因在于，AVL树虽然因为严格的平衡性使其查询效率稳定在 O(log n)，但是为了维护这种平衡，它会在删除或者插入数据之后进行很多旋转操作，这种操作导致了它的性能下降，而红黑树是一种弱平衡树，只需要确保树的高度大致平衡即可，它牺牲了一定的严格平衡性以减少旋转操作的次数，在插入和删除操作上比AVL树有更高的性能。

B 树

如果只是普通的增删改查，红黑树已经可以说是最优解了，但是我们的文件索引是存放在磁盘上的，所以我们不仅要考虑查找效率，还要考虑磁盘的IO，这个时候就引出了 B 树。

B树是一种自平衡的多路查找树，它能够保持数据有序，并且允许在 O(log n) 时间内完成查找、顺序访问、插入和删除操作。B 树是二叉搜索树的一般化，可以拥有多于两个子节点，特别适合用于外部存储系统如数据库和文件系统，以优化大块数据的读写操作。
在这里插入图片描述
如上图所示，图中是一棵 3 阶 B 树，和二叉查找树一样，左节点的所有元素的值都比父亲元素小。例如对于(4, 7)这个节点。两个元素把这个节点分割成三个值域，即可以有 3 个孩子。3 相当于 4 的左孩子节点，而（5，6）相当于 4 的右孩子，同时也是 7 的左孩子，而（8，11，12）是 7 的右孩子。

假设我们现在要查询元素 8，那么我们只需要进行 3 次磁盘 IO 即可完成，但是换成二叉平衡树，显然就需要更多的 IO 次数了，虽然在这个过程中 B 树进行了更多的比较次数，但是在进行数值比较的时候是在内存中进行的，至少比磁盘的速度快了几百倍，B 树的比较次数可能比二叉查找树多，但是磁盘操作次数少，所以总体来说还是 B 树快的多。

实际上磁盘的 IO 次数是和树的高度相关联的，所以对于这种文件系统和数据库索引的存储，我们一般会选择这种矮胖的树形结构。