本文只是个人阅读笔记,原文建议详细阅读:什么是B-树 什么是B+树
我们知道MySQL中索引最常用的数据结构就是
Hash
和B+Tree
,而其中的B+树更是大多数 MySQL 存储引擎的默认索引类型。
- 那究竟什么是B+树?什么又是B树?它们之间有什么关系吗?
B树/B-树
1、哈希表、二叉查找树、B树的比较
要弄清楚B+树,就得先知道B-树(B-树就是B树),首先MySQL索引之所以要使用
树
作为数据结构进行存储是因为它查询效率高,且可以保持有序
,解决hash
结构无序
只能用作等值查询场景的缺陷。
- 那为什么不使用二叉查找树?
我们知道二叉查找树的查找插入的时间复杂度都是O(logN),之所以没有使用二叉查找树是考虑到了磁盘IO的问题:
索引是存储在磁盘上的,当数据量很大的时候,整一棵二叉查找树的高度是很高的。而我们利用索引进行查询时并不会将整个索引加载到内存,而是按页读取,将索引逐页加载到内存,其中每个节点代表了一个页。假设一个二叉查找树的树高为N,意味着我们查找一个节点最差情况要进行读取N次磁盘,而读取一次磁盘耗费的时间通常需要几ms,这是非常耗时的,所以我们希望树高可以尽可能的小,其中的办法就是使得一个节点的子节点不止只有2,而是可以有更多的子节点,即是“N叉树”,而B树正是符合这个要求的。
-
B树
B树是一种多路平衡的查找树,它的每个节点最多可以包含m个孩子,m称为B树的阶,而m的大小取决于磁盘页的大小。一个m阶的B树特点如下:
- 根结点至少有两个子女
- 每个中间节点(非叶子节点&非根节点)都包含k-1个元素和k个孩子,其中 m/2 <= k <= m
- 每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m
- 所有的叶子结点都位于同一层
- 每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的
值域分划
例如下面3阶的B树:
其中B-树的查找、插入节点都是遵循这些特点进行操作的
- B-树的查找(例如查找5):
- B-树的插入比较复杂,不展开了解。
B+树
B+树是基于B-树的一种变体,有着比B-树更高的查询性能。
一个m阶的B+树具有如下几个特征:
- 有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
- 所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
- 所有的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素。
如下3阶的B+树:
因为B+树的好处体现在查询性能上,现在来看看它的单行查询和范围查询:
- 单行查询(例如查询3):
- B-树和B+树中的卫星数据:
卫星数据是值索引元素所指向的数据记录,比如数据库中的某一行。在B-树中,所有节点都带有卫星数据。而在B+树中只有叶子节点带有卫星数据,其他节点仅是索引,没有关联数据。
注:在数据库的聚集索引中,叶子节点直接包含卫星数据。在非聚集索引中,叶子节点带有指向卫星数据的指针。
所以单行查询中,B+树与B-树有两点不同:
- B+树中间节点没有卫星数据,同样大小的磁盘页可以容纳更多节点元素。意味着B+树高会比B树更小,查询时IO次数更少。
- B+树的查询最终一定会查询到叶子节点,而B-树的查询可能止于叶子节点也可能止于非叶子节点。所以B+树会更加稳定。
- 范围查询(例如查询范围3-11):
通过图可以知道,通过B+树叶子节点的链表指针且它的有序性可以快速找到。
B+树相比B-树的优势
- 单一节点存储更多的元素,使得查询的IO次数更少。
- 所有查询都要查找到叶子节点,查询性能稳定。
- 所有叶子节点形成有序链表,便于范围查询。