为什么 MySQL 索引要用 B+tree,而且还这么快?

前言

当你现在遇到了一条慢 SQL 需要进行优化时,你第一时间能想到的优化手段是什么?

大部分人第一反应可能都是添加索引,在大多数情况下面,索引能够将一条 SQL 语句的查询效率提高几个数量级

索引的本质:用于快速查找记录的一种数据结构

索引的常用数据结构

  1. 二叉树
  2. 红黑树
  3. Hash 表
  4. B-tree (B树,并不叫什么B减树)
  5. B+tree

数据结构图形化网址:https://www.cs.usfca.edu/~galles/visualization/Algorithms.html

索引查询

大家知道 select * from t where col = 88 这么一条 SQL 语句如果不走索引进行查找的话,正常地查就是全表扫描:从表的第一行记录开始逐行找,把每一行的 col 字段的值和 88 进行对比,这明显效率是很低的。


02878da34ee3e28770120751a6df2f8b.png

而如果走索引的话,查询的流程就完全不一样了(假设现在用一棵平衡二叉树数据结构存储我们的索引列)

此时该二叉树的存储结构(Key - Value):Key 就是索引字段的数据,Value 就是索引所在行的磁盘文件地址。

当最后找到了 88 的时候,就可以把它的 Value 对应的磁盘文件地址拿出来,然后就直接去磁盘上去找这一行的数据,这时候的速度就会比全表扫描要快很多。

42bac02b1f986bc2c93e15d944fad5f8.png

实际上 MySQL 底层并没有用二叉树来存储索引数据,是用的 B+tree(B+树)

为什么不采用二叉树

假设此时用普通二叉树记录 id 索引列,我们在每插入一行记录的同时还要维护二叉树索引字段。

f16c89322e8a5a6e8574712683daa970.png


701d6c1652887e13b349c29ae52b4fe1.png

此时找 id = 7 这一行记录时找了 7 次,和我们全表扫描也没什么很大区别。显而易见,二叉树对于这种依次递增的数据列其实是不适合作为索引的数据结构。

为什么不采用 Hash 表

Hash 表:一个快速搜索的数据结构,搜索的时间复杂度 O(1)

Hash 函数:将一个任意类型的 key,可以转换成一个 int 类型的下标

假设此时用 Hash 表记录 id 索引列,我们在每插入一行记录的同时还要维护 Hash 表索引字段。


5515e197a89023f6785746f3e90d7416.png

这时候开始查找 id = 7 的树节点仅找了 1 次,效率非常高了。

ef725ef70e2a7a9fdb96130265a8741b.png

但 MySQL 的索引依然不采用能够精准定位的Hash 表。因为它不适用范围查询

为什么不采用红黑树

红黑树是一种特化的 AVL树(平衡二叉树),都是在进行插入和删除操作时通过特定操作保持二叉查找树的平衡;

若一棵二叉查找树是红黑树,则它的任一子树必为红黑树。

假设此时用红黑树记录 id 索引列,我们在每插入一行记录的同时还要维护红黑树索引字段。

d5e645cab77398c3aea65ddebc8796cc.png

插入过程中会发现它与普通二叉树不同的是当一棵树的左右子树高度差 > 1 时,它会进行自旋操作,保持树的平衡。

这时候开始查找 id = 7 的树节点只找了 3 次,比所谓的普通二叉树还是要更快的。

354a09844bcb477964fbb16027aca7fa.png

但 MySQL 的索引依然不采用能够精确定位和范围查询都优秀的红黑树

因为当 MySQL 数据量很大的时候,索引的体积也会很大,可能内存放不下,所以需要从磁盘上进行相关读写,如果树的层级太高,则读写磁盘的次数(I/O交互)就会越多,性能就会越差。

B-tree

红黑树目前的唯一不足点就是树的高度不可控,所以现在我们的切入点就是树的高度。

目前一个节点是只分配了一个存储 1 个元素,如果要控制高度,我们就可以把一个节点分配的空间更大一点,让它横向存储多个元素,这个时候高度就可控了。这么个改造过程,就变成了 B-tree。

23e12c2241d4daeb56c43bcb96ae2e69.png

B-tree 是一颗绝对平衡的多路树。它的结构中还有两个概念

度(Degree):一个节点拥有的子节点(子树)的数量。(有的地方是以来说明 B-tree 的,这里解释一下)

阶(order):一个节点的子节点的最大个数。(通常用 m 表示)

关键字:数据索引。

一棵 m 借 B-tree 是一棵平衡的 m 路搜索树。它可能是空树,或者满足以下特点:

  1. 除根节点和叶子节点外,其它每个节点至少有 ⌈m2⌉\lceil \dfrac{m}{2}\rceil⌈2m⌉ 个子节点; ⌈m2⌉\lceil \dfrac{m}{2}\rceil⌈2m⌉ 为 m / 2 然后向上取整
  2. 每个非根节点所包含的关键字个数 j 满足:⌈m2⌉\lceil \dfrac{m}{2}\rceil⌈2m⌉ - 1 ≤ j ≤ m - 1;
  3. 节点的关键字从左到右递增排列,有 k 个关键字的非叶子节点正好有 (k + 1) 个子节点;
  4. 所有的叶子结点都位于同一层。

名字取义(题外话,放松一下)

以下摘自维基百科

鲁道夫·拜尔(Rudolf Bayer)和 艾华·M·麦克雷(Ed M. McCreight)于1972年在波音研究实验室(Boeing Research Labs)工作室发明了 B-tree,但是他们没有解释 B 代表什么意义(如果有的话)。

道格拉斯·科默尔(Douglas Comer)解释说:两位作者从来都没解释过 B-tree 的原始意义。我们可能觉得 balanced, broad 或 bushy 可能适合。其他人建议字母 B 代表 Boeing。源自于他的赞助,不过,看起来把 B-tree 当作 Bayer 树更合适些。

高德纳(Donald Knuth)在他1980年5月发表的题为 "CS144C classroom lecture about disk storage and B-trees" 的论文中推测了 B-tree 的名字取义,提出 B 可能意味 Boeing 或者 Bayer 的名字。

查找

B-tree 的查找其实和二叉树很相似:

二叉树是每个节点上有一个关键字和两个分支,B-tree 上每个节点有 k 个关键字和 (k + 1) 个分支。

二叉树的查找只考虑向左还是向右走,而 B-tree 中需要由多个分支决定。

B-tree 的查找分两步:

  1. 首先查找节点,由于 B-tree 通常是在磁盘上存储的所以这步需要进行磁盘IO操作;
  2. 查找关键字,当找到某个节点后将该节点读入内存中然后通过顺序或者折半查找来查找关键字。若没有找到关键字,则需要判断大小来找到合适的分支继续查找。

操作流程

现在需要查找元素:88

第一次:磁盘IO


a7f5715843f6692462ae279ac2c93d1f.png

第二次:磁盘IO

30c6f61353bec3e431681c1d0e0379c7.png

第三次:磁盘IO

然后这有一次内存比对,分别跟 70 与 88 比对,最后找到 88。

9fc62f9760d9a1420d347c199fe608d3.png

从查找过程中发现,B-tree 比对次数和磁盘IO的次数其实和二叉树相差不了多少,这么看来并没有什么优势。

但是仔细一看会发现,比对是在内存中完成中,不涉及到磁盘IO,耗时可以忽略不计。

另外 B-tree 中一个节点中可以存放很多的关键字(个数由阶决定),相同数量的关键字在 B-tree 中生成的节点要远远少于二叉树中的节点,相差的节点数量就等同于磁盘IO的次数。这样到达一定数量后,性能的差异就显现出来了。

插入

当 B-tree 要进行插入关键字时,都是直接找到叶子节点进行操作。

  1. 根据要插入的关键字查找到待插入的叶子节点;
  2. 因为一个节点的子节点的最大个数(阶)为 m,所以需要判断当前节点关键字的个数是否小于 (m - 1)。 注:直接插入 否:发生节点分裂,以节点的中间的关键字将该节点分为左右两部分,中间的关键字放到父节点中即可。

操作流程

比如我们现在需要在 Max Degree(阶)为 3 的 B-tree 插入元素:72

  1. 查找待插入的叶子节点
702e1b31fb57c9d3f6a0b46ac228c09f.png


  1. 节点分裂:本来应该和 [70,88] 在同一个磁盘块上,但是当一个节点有 3 个关键字的时候,它就有可能有 4 个子节点,就超过了我们所定义限制的最大度数 3,所以此时必须进行分裂:以中间关键字为界将节点一分为二,产生一个新节点,并把中间关键字上移到父节点中。


22e5e400254f5ef4ca8c53a991c9ce42.png

Tip : 当中间关键字有两个时,通常将左关键字进行上移分裂。

删除

删除操作就会比查找和插入要麻烦一些,因为要被删除的关键字可能在叶子节点上,也可能不在,而且删除后还可能导致 B-tree 的不平衡,又要进行合并、旋转等操作去保持整棵树的平衡。

随便拿棵树(5 阶)举例子


b02e1eafa1245eed559a3f139c0df90f.png

情况一:直接删除叶子节点的元素

删除目标:50

  1. 查找元素 50 位置
cc4338a2337b63551bb8dc37e9d59c57.png

在 [36, 50, 63] 节点移除 50 后,依然符合 B-tree 对节点内关键字的要求:

┌m/2┐ - 1 ≤ 关键字个数 ≤ m - 1 ┌5/2┐ - 1 ≤ 3 - 1 ≤ 5 - 1 2 ≤ 2 ≤ 4 ✔


bacd64715878fc9f20707da72dcf8d11.png
  1. 删除完成

情况二:删除叶子节点的元素后合并+旋转

删除目标:11

  1. 查找元素 11 位置
75415c240dedb91c45d6bf100d39949e.png

在 [10, 11] 节点移除 11 后,违背 B-tree 对节点内关键字的要求: ┌m/2┐ - 1 ≤ 关键字个数 ≤ m - 1 ┌5/2┐ - 1 ≤ 2 - 1 ≤ 5 - 1 2 ≤ 1 ≤ 4 ❌ 复制代码

在它只剩1个关键字后,需要向兄弟节点借元素,这时候右兄弟有多的,它说:我愿意把14借给你 但不可能让11和14放一起,因为 14 > 12 ,这时候就要进行 旋转~ 首先,将父节点的元素 12 移到该节点,然后 12 就让位给14 79bc3fdf76aebbe8f8feabc6da232df1.png
  1. 这整个过程就是删除叶子节点元素后的合并、旋转操作 下面再来道菜

接着删除 10

  1. 在 [10, 12] 节点移除 10 后,违背 B-tree 对节点内关键字的要求
  2. 在它只剩1个关键字后,需要向兄弟节点借元素,这时候没有兄弟有多的该怎么办呢 首先,将父节点的元素 8 移到该节点,这时候 3、6、8、12 都小于14,就先把它们放一起


cc34db51c079c30c6a8ceac7995bddea.png

结果又发现父节点只剩个14了,它又违背了 B-tree 对节点内关键字的要求,接着造!!!

首先,还是将父亲节点的元素 20 移到该节点,这时候根节点都直接没了,直接合并 14、20、26、72 关键字

1ced275409f50e36cd76a128e50f2137.png
  1. 在这整个过程包括删除叶子节点和非叶子节点的合并、旋转操作

情况三:删除非叶子节点的元素后合并+旋转

删除目标:12

  1. 查找元素 12 位置
1b41dc706e1df5991c53debb10d728ea.png

移除 12 后,违背 B-tree 对节点内关键字的要求

对于非叶子节点元素的删除,我们需要用后继元素覆盖要被删除的元素,然后在后继元素所在的叶子中删除该后继元素。

5017c11254fb4358b1ef6612c088bac2.png

小总结

B-tree 主要用于文件系统以及部分数据库索引,例如:MongoDB。

从查找效率考虑一般要求 B-tree 的阶数 m ≥ 3

B-tree 上算法的执行时间主要由读、写磁盘的次数来决定,故一次I/O操作应读写尽可能多的信息。

因此 B-tree 的节点规模一般以一个磁盘页为单位。一个结点包含的关键字及其孩子个数取决于磁盘页的大小。

### 回答1: MySQL 之所以使用 B 树来实现索引,是因为 B 树具有很好的查询性能和可扩展性。 B 树能够在 logarithmic 的时间内完成查询,这使得它在处理大量数据时仍然保持较的速度。在 B 树中,每个节点都包含若干个键值和指向其子节点的指针。查询时,可以从根节点开始,通过比较键值来确定应该查询哪个子节点,从而速定位所需的数据。 B 树还具有很好的可扩展性,因为它允许动态地添加和删除节点。当数据量增加时,可以通过在 B 树中插入新节点来扩展索引。同时,B 树还具有自平衡的特性,能够保证树的高度在可接受的范围内,这使得查询的速度得到保障。 因此,MySQL 使用 B 树来实现索引,是因为它具有较高的查询性能和可扩展性,能够满足大多数场景下的需求。 ### 回答2: MySQL索引使用B树的原因有以下几点: 1. 平衡二叉树:B树是一种平衡二叉树,节点的子树个数范围为[ceil(m/2),m],m为节点的最大子树个数,通常为2。通过保证树的平衡性,B树可以速进行查找操作。 2. 数据的有序性:B树的特点是节点中的关键字有序排列,这样可以避免进行无谓的比较。在查找过程中,不需要遍历整个树,只需要通过比较当前节点的关键字和目标关键字的大小,就可以确定下一步的查找方向,从而加搜索的速度。 3. 多级索引:B树是多级索引的基础,根节点存储的是子节点的指针,通过多级索引可以减少磁盘IO的操作。B树的高度相对较低,可以通过少量的磁盘IO就能访问到大量的数据。 4. 更新高效:B树的插入和删除操作相对高效。插入操作只需要找到插入位置,并将新节点插入到正确的位置,然后更新父节点的指针即可。删除操作类似,只需要找到要删除的节点,并更新相邻节点的指针即可。 由于B树具有平衡性、有序性、多级索引和高效的插入、删除操作,因此MySQL索引使用B树结构,并且能够提供速的数据查找能力。同时,MySQL还结合其他优化技术如自适应哈希索引、覆盖索引等,进一步提升索引的查询性能。 ### 回答3: MySQL 索引使用 B 树结构,并且执行速度很的原因有以下几点。 首先,B 树是一种平衡多叉树,其每个节点可以包含多个键值对,这使得 B 树能够在读取和写入数据时都能够较少的访问磁盘。在数据库中,数据通常存储在磁盘上,而磁盘的读写速度较慢,因此减少磁盘访问次数可以提高查询速度。B 树通过将数据分散存储在不同的节点上,并采用适当的分裂和合并策略,以保持树的平衡,使得查询的访问路径较短,从而可以尽可能少地访问磁盘。 其次,B 树在结构上支持按照顺序访问数据。因为 B 树的节点按照键值有序排列,加上每个节点可以包含多个键值对,这使得在范围查询时可以以更加高效的方式访问数据。例如,当根据索引范围进行查询时,只需要找到范围的起始节点,然后按照顺序遍历即可,而不需要遍历所有数据。 另外,B 树还支持数据的插入和删除操作,这对于索引的维护非常重要。当数据插入或者删除时,B 树可以通过分裂和合并节点来保持树的平衡。这样就不需要对整个树进行重新构建,从而提高索引的维护效率。 总而言之,MySQL 索引采用 B 树的数据结构,并且在查询、插入和删除操作中都能够保持较的执行速度。B 树的平衡性、顺序性以及对插入和删除操作的高效支持,使得 B 树索引成为了数据库中广泛应用的一种索引结构。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值