字节面试： Mysql为什么用B+树，不用跳表？

最新推荐文章于 2024-10-02 09:53:25 发布

Swittee丶Henry

最新推荐文章于 2024-10-02 09:53:25 发布

阅读量1.7k

点赞数 26

分类专栏：面试题文章标签：面试 mysql b树

本文链接：https://blog.csdn.net/m0_66490875/article/details/136842619

版权

面试题专栏收录该内容

95 篇文章 1 订阅

订阅专栏

本文目录

- 索引的作用和重要性

- B+数和跳表的整体结构

-什么是MySQL中的B+Tree

- B+Tree的查询过程

- B+Tree的优点和缺点

- 跳表

- 跳表的原理

- 跳表的结构

- 单层跳表

- 两层跳表

- 两层跳表查询

- 三层跳表

- 三层跳表查询

- 跳表查找的时间复杂度

- 跳表(Skip List)的优点和缺点

- B+Tree 和跳表(Skip List) 的在数据结构上的区别

- IO 操作的单位不同

- 树的高度不同

- B+Tree 和跳表(Skip List) 的新增数据区别

- B+Tree 新增数据

- 跳表新增数据

- B+Tree和跳表的在新增数据上的区别

-B+Tree 需要维护树的平衡

-跳表需要不太关心平衡问题

- 为什么B+Tree 采用Page作为 IO操作的单位？

- 内存和磁盘的访问速度对比

- 机械硬盘的扇区（sector）

- 操作系统 IO 块 Block

- Mysql的InnoDB Page 数据页

- 一次IO一个page的优势

- 总结：Mysql的索引为什么使用B+树而不使用跳表

- B+树更适合磁盘IO

- 原生跳表不适合磁盘IO

- 说在最后：有问题找老架构取经

索引的作用和重要性

索引是帮助MySQL高效获取数据的数据结构，注意，是帮助高性能的获取数据

索引好比是一本书的目录，可以直接根据页码找到对应的内容，目的就是为了加快数据库的查询速度。

索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。
索引是一种能帮助mysql提高了查询效率的数据结构：索引数据结构。

索引的存储原理大致可以概括为一句话：以空间换时间。

数据库在未添加索引, 进行查询的时候默认是进行全文搜索，也就是说有多少数据就进行多少次查询，然后找到相应的数据就把它们放到结果集中，直到全文扫描完毕。

数据库添加了索引之后，通过索引快速找到数据在磁盘上的位置，可以快速的读取数据，而不同从头开始全表扫描。

一般来说索引本身也很大，不可能全部存储在内存中，因此索引往往是存储在磁盘上的文件中的（可能存储在单独的索引文件中，也可能和数据一起存储在数据文件中）。

索引的作用和重要性

加快数据检索速度

索引允许数据库系统快速定位到符合查询条件的记录，从而显著提高查询操作的效率。
降低数据库IO成本

通过索引，数据库在查询时需要读取的数据量减少，这样可以减少磁盘IO操作的次数和压力，进而提升整体的数据库性能。
保证数据的完整性

索引可以包含唯一性约束，这有助于确保表中数据的唯一性，防止出现重复记录。
加速表连接

在涉及多表查询时，索引可以帮助加速表与表之间的连接操作，实现表与表之间的参照完整性。
优化排序和分组操作

当使用分组、排序等操作进行数据检索时，索引可以显著减少处理的数据量，从而提高这些操作的效率。

B+数和跳表的整体结构

整体上，B+数和跳表都是链表+ 多级索引组合的结构

什么是MySQL中的B+Tree

MySQL中的B+Tree 原理

B+Tree一般由多个页、多层级组成，在MySQL中每个页 16 KB。
主键索引的 B+ 树的叶子结点才是数据，非叶子结点（内节点）存放的是索引信息。
上下层的页通过单指针相连。
同一层级的相邻的数据页通过双指针相邻。
B+Tree的结构

B+Tree的查询过程

B+Tree是由多个页组成的多层级结构，每个页16kb，对于主键索引来说，最末级的叶子节点放行数据，

非叶子节点放的是索引信息(主键ID和页号),用于加速查询。

我们想要查询数据5，会从顶层页的record开始，record里包含了主键Id和页号(页地址),

顶层页向左最小id是1，最右最小id是7，

那id=5的数据如果存在，那必定在顶层页左边箭头，于是顺着的record的页地址就到了6号数据页里，

再判断id=5>4，所以肯定在右边的数据页里，于是加载105号数据页。

在105号数据页里，虽然有多行数据，但也不是挨个遍历的，数据页内还有个页目录的信息，里边是有序的。

所以，数据页内可以通过二分查找的方式加速查询行数据，于是找到id=5的数据行，完成查询。

从上面可以看出，B+Tree利用了空间换时间的方式，将查询时间复杂度从O(n)优化为O(lg(n))。

B+Tree的优点和缺点

B+Tree是一种平衡树结构，它具有根节点、内部节点和叶子节点。
每个节点包含一定数量的键值对，键值对按键值大小有序排列。
内部节点只包含键，叶子节点同时包含键和指向数据的指针。

B+Tree的优点

范围查询效率高：B+Tree支持范围查询，因为在B+Tree中，相邻的叶子节点是有序的，所以在查找范围内的数据时非常高效。
事务支持：B+Tree是一种多版本并发控制（MVCC）友好的数据结构，适用于事务处理场景，能够保证事务的ACID属性。
数据持久性：B+Tree的叶子节点包含所有数据，这意味着数据非常容易持久化到磁盘上，支持高可靠性和数据恢复。

B+Tree的缺点

插入和删除开销较高：由于B+Tree的平衡性质，插入和删除操作可能需要进行节点的分裂和合并，这会导致性能开销较大。
高度不稳定：B+Tree的高度通常比较大，可能需要多次磁盘I/O才能访问叶子节点，对于某些特定查询可能效率不高。

跳表

跳表的原理

跳表是一种采用了用空间换时间思想的数据结构。

跳表会随机地将一些节点提升到更高的层次，以创建一种逐层的数据结构，以提高操作的速度。

跳表的结构

跳表的做法就是给链表做索引，而且是分层索引，

单层跳表

单层跳表, 可以退化到一个链表

查找的时间复杂度是 O（N）

两层跳表

两层跳表 = 原始链表 + 一层索引

两层跳表查询

如查询id=11的数据，我们先在上层遍历，依次判断1,6,12，

很快就可以判断出11在6到12之间，

第二步，然后往下一跳，进入原始链表，就可以在遍历6,7,8,9,10,11之后，确定id=11的位置。

通过第一级索引，直接将查询范围从原来的1到11，缩小到现在的1,6,7,8,9,10,11。

三层跳表

三层跳表 = 原始链表 + 第一层索引 + 第二层索引

三层跳表查询

如果还是查询id=11的数据，就只需要查询1,6,9,10,11就能找到，比两层的时候更快一些。

跳表查找的时间复杂度

在一个单链表中查询某个数据的时间复杂度是 O(n)。也就是说，单层的跳表，时间复杂度是 O(n)。

跳表就是为链表增加多级索引，完成空间换时间，实现时间复杂度是 O(logn)。

这个时间复杂度的分析方法比较难想到。

先问题分解一下，先来看这样一个问题，如果链表里有 n 个结点，会有多少级索引呢？

在跳表中，假设每两个结点，会抽出一个结点作为上一级索引的结点。

那么，索引有多少级，每一级有多少个node呢：

第一级索引的结点个数大约就是 n/2，
第二级索引的结点个数大约就是 n/4，
第三级索引的结点个数大约就是 n/8，

依次类推，也就是说，

第 k 级索引的结点个数是第 k-1 级索引的结点个数的 1/2，
那第 k级索引结点的个数就是 n/(2的k次方)。

假设索引有 h 级，最高级的索引有 2 个结点。

通过上面的公式，我们可以得到 n/(2^h)=2，从而求得 h=log2n-1。

如果包含原始链表这一层，整个跳表的高度就是 log2n。

我们在跳表中查询某个数据的时候，如果每一层都要遍历 m 个结点，那在跳表中查询一个数据的时间复杂度就是 O(m*logn)。

那m到底是多少呢?

假设我们要查找的数据是 x，在第 k 级索引中，我们遍历到 y 结点之后，发现 x 大于 y，小于后面的结点 z，所以我们通过 y 的 down 指针，从第 k 级索引下降到第 k-1 级索引。

在第 k-1 级索引中，y 和 z 之间只有 3 个结点（包含 y 和 z），所以，我们在 K-1 级索引中最多只需要遍历 3 个结点，依次类推，每一级索引都最多只需要遍历 3 个结点。

过上面的分析，我们得到 m=3，

所以在跳表中查询任意数据的时间复杂度就是 O(logn)。

这个查找的时间复杂度跟二分查找是一样的，这也体现了空间换时间的效率之高。

跳表(Skip List)的优点和缺点

跳表是一种多层级的数据结构，每一层都是一个有序链表，

最底层包含所有数据，而上层包含的数据是下层的子集，通过跳跃节点快速定位目标数据。

跳表(Skip List)的优点

平均查找时间较低：跳表的查询时间复杂度为O(log n)，与平衡树结构相似，但实现起来较为简单。
插入和删除操作相对较快：由于跳表不需要进行节点的频繁平衡调整，插入和删除操作的性能较好。

跳表(Skip List)的缺点

难以实现事务和数据持久性：跳表的更新操作可能涉及多个层级，实现事务和数据持久性要求更复杂。
空间开销较大：跳表需要额外的指针来连接不同层级，占用的内存空间较多。

B+Tree 和跳表(Skip List) 的在数据结构上的区别

都是多级索引 +链表

IO 操作的单位不同

B+Tree 是page （16K）

跳表(Skip List) 是 node 节点，一个node 几十个字节

树的高度不同

B+树是多叉树结构，每个结点都是一个16k的数据页，能存放较多索引信息。

同样的数据，树的高度比较小。三层B+左右就可以存储2kw左右的数据。

如果，把三层B+树塞满，那大概需要2kw左右的数据。也就是说查询一次数据，如果这些数据页都在磁盘里，那么最多需要查询三次磁盘IO。

跳表是链表结构，一条数据一个结点，

如果最底层要存放2kw数据，且每次查询都要能达到二分查找的效果，2kw大概在2的24次方左右，

所以，2kw数据的跳表大概高度在24层左右。如果要一个节点要进行一次磁盘IO，大概要进行 24次。

B+Tree 和跳表(Skip List) 的新增数据区别

了解了二者的基本情况之后，接下来，对B+Tree 和跳表(Skip List) 的数据插入进行对比。

B+Tree和跳表的叶子层，都包含了所有的数据，且叶子层都是顺序的，适合用于范围查询。

来看看，B+Tree和跳表新增和删除数据的差异

B+Tree 新增数据

场景1：叶子结点和索引结点都没满

B+Tree 直接插入到叶子结点中就好了。

场景2：叶子结点满了，但索引结点没满

B+Tree 需要拆分叶子结点，同时索引结点要增加新的索引信息。

场景3：叶子结点满了，且索引结点也满了

叶子和索引结点都要拆分，同时往上还要再加一层索引。

B+树是一种多叉平衡二叉树，要维护各个分支的高度差距，不能太大，平衡意味着子树们的高度层级尽量一致（一般最多差一个层级）。

为啥要平衡呢？平衡意味着在搜索的时候，不管走哪个子树分支，搜索次数都差不了太多。

所以，为了维持B+树的平衡，在插入新的数据时，B+树会不断将进行 数据页的分裂。

跳表新增数据

跳表同样也是很多层，新增一个数据时，最底层的链表需要插入数据，

然后，考虑是否需要在上面几层中加入数据做索引？这个就靠随机函数了。

例如: 如果跳表中插入数据id=6，且随机函数返回第三层（有25%的概率），那就需要在跳表的最底层到第三层都插入数据。

跳表跟B+树不一样，跳表是否新增层数，纯粹靠随机函数，不太关心平衡的问题。

B+Tree和跳表的在新增数据上的区别

B+Tree 需要维护树的平衡

为了维持B+树的平衡，在插入新的数据时，B+树会不断将进行 数据页的分裂。

维护平衡意味维护搜索的稳定性，意味着着在搜索的时候，不管走哪个子树分支，搜索次数都差不了太多。

跳表需要不太关心平衡问题

跳表在新增数据时，不太关心平衡的问题。跳表插入数据的时候，跟B+树不一样，是否新增层数，纯粹靠随机函数去决定。

为什么B+Tree 采用Page作为 IO操作的单位？

前面讲到，B+Tree和跳表 IO 操作的单位不同

B+Tree 是page （16K） ,粗粒度IO
跳表(Skip List) 是 node 节点，一个node 几十个字节 , 细粒度IO

这是和 Mysql的存储介质有关系， Mysql的数据需要持久化存储，并且需要事务机制保证持久性，所以，必须存储在磁盘上。

内存和磁盘的访问速度对比

机械硬盘的读写速度，大致如下

固态硬盘的读写速度，大致如下

内存的读写速度，和磁盘读写速度的对比

为什么磁盘慢，和磁盘的结构有关。

机械硬盘的扇区（sector）

机械硬盘的性能为啥那么慢？看看结构就知道：

机械磁盘上的每个磁道被等分为若干个弧段，这些弧段称之为扇区。

如何在磁盘中读/写数据？需要物理动作，去移动 “磁头” 到目标扇区

机械磁盘的读写以扇区为基本单位。

硬盘的物理读写以扇区为基本单位。通常情况下每个扇区的大小是 512 字节。linux 下可以使用 fdisk -l 了解扇区大小：

$ sudo /sbin/fdisk -l
Disk /dev/sda: 20 GiB, 21474836480 bytes, 41943040 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0x7d9f5643

其中 Sector size，就是扇区大小，本例中为 512 bytes。

注意，扇区是磁盘物理层面的概念，不是操作系统的概率。

操作系统是不直接与扇区交互的，而是与多个连续扇区组成的磁盘块交互。由于扇区是物理层面的概念，所以无法在系统中进行大小的更改。

操作系统 IO 块 Block

文件系统读写数据的最小单位，也叫磁盘簇，IO区块 BLOC。

什么是IO 块 Block？扇区是磁盘最小的物理存储单元，操作系统将相邻的扇区组合在一起，形成一个块，对块进行管理。

每个Block 磁盘块可以包括 2、4、8、16、32 或 64 个扇区。

所以，Block 磁盘块是操作系统所使用的逻辑概念，而非磁盘的物理概念。

Block 磁盘块的大小可以通过命令 stat /boot 来查看：

$ sudo stat /boot
  File: /boot
  Size: 4096        Blocks: 8          IO Block: 4096   directory
Device: 801h/2049d  Inode: 655361      Links: 3
Access: (0755/drwxr-xr-x)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2019-07-06 20:19:45.487160301 +0800
Modify: 2019-07-06 20:19:44.835160301 +0800
Change: 2019-07-06 20:19:44.835160301 +0800
 Birth: -

其中 IO Block 就是磁盘块大小，本例中是 4096 Bytes，一般也是 4K。