认真学习数据结构之B/B+/B*树

流烟默

已于 2022-08-16 15:28:51 修改

阅读量722

点赞数

分类专栏：数据结构 | 算法文章标签： B树 B+树

于 2016-09-21 09:39:15 首次发布

本文链接：https://blog.csdn.net/J080624/article/details/52604602

版权

数据结构 | 算法专栏收录该内容

41 篇文章 4 订阅

订阅专栏

前面我们学习了二叉树、AVL树、23树以及红黑树等。接下来我们研究B树/B+树。

【1】多路查找树

这里我们首先引入多路查找树的概念。多路查找树（MuitlWay Search Tree）是二叉树的演进，也就是允许一个结点存储一个以上的key。比如前面我们学习的2-3树，其就是一个一棵多路查找树。

二叉树中每个结点有一个数据项,最多有两个子结点。如果允许树的每个结点可以有两个以上的子结点,那么这个树就称为n阶的多叉树，或者称为n叉树。

那么为什么演进多路查找树呢？

有没有那么一个场景，需要树的高度尽可能低来提高某种效率/性能？比如磁盘IO。我们知道内存中数据的读取是很快的，磁盘IO是很慢的。如果需要频繁读取磁盘的数据发生多次磁盘IO，那么性能必然不高。

以数据库的索引文件为例，假设根结点存储在内存中。那么检索到key的效率取决于磁盘IO读取的次数。这也是MySQL为什么使用B+树作为索引文件的数据结构。

根据多路查找树的定义，那么2-3树，2-3-4树、B树、B+树都是多路查找树。

【2】B树

B树（B-tree）是有Bayer和McCreight在1972年提出的数据结构。B树索引是数据库中存取和查找文件(称为记录或键值)的一种方法，应用于磁盘读取方面。

B树（B-tree）是一种树状数据结构，它能够存储数据、对其进行排序并允许以O(log n)的时间复杂度运行进行查找、顺序读取、插入和删除的数据结构。

B树，概括来说是一个结点可以拥有多于2个子结点的二叉查找树。与自平衡二叉查找树不同，B树为系统最优化大块数据的读和写操作。B-tree算法减少定位记录时所经历的中间过程，从而加快存取速度。普遍运用在数据库和文件系统。

B树的出现是为了弥补不同的存储级别之间的访问速度上的巨大差异，实现高效的 I/O。平衡二叉树的查找效率是非常高的，并可以通过降低树的深度来提高查找的效率。但是当数据量非常大，树的存储的元素数量是有限的，这样会导致二叉查找树结构由于树的深度过大而造成磁盘I/O读写过于频繁，进而导致查询效率低下。另外数据量过大会导致内存空间不够容纳平衡二叉树所有结点的情况。B树是解决这个问题的很好的结构。

① B树的性质(平衡多路查找树)

根据Knuth’s的定义，n阶B树（a B-tree of order n）是具有以下性质：

每个结点最多有n个孩子结点--多路
每个非叶子结点（根结点除外）最多有n/2(向上取整)到n个孩子结点[n/2,n]。
root至少有2个子树，除非root的孩子是叶子结点
k个孩子的非叶子结点含有k-1个键值，k个指针，键值以升序排列；
所有的叶子结点都在同一层(体现了平衡)。（B树的阶指最大子结点数，比如 2-3 树的阶是 3，2-3-4 树的阶是 4）

注意：根结点为叶子结点，整棵树只有一个根结点。

如下是一棵3（n=3）阶B树，可以看到结点最大指针数为3(n=k=3)，最大键值数量为2=(n-1)，最大孩子结点个数为3(n)，最大孩子结点存储键值为6(n*(n-1))
在这里插入图片描述
其拥有二叉查找树的特性：

节点中关键字按从小到大(从上到下，从左到右)的顺序排列。且对于父节点关键字来说，它的左子树的所有关键字都小于父节点关键字，它的右子树所有关键字都大于父节点的关键字，它的中间子树的键值处于父结点键值中间。

② B树的查询

B-树的搜索，从根结点开始，对结点内的关键字（有序）序列进行二分查找，如果命中则结束，否则进入查询关键字所属范围的儿子结点，重复查找直到所对应的儿子指针为空或已经是叶子结点。

其与二叉查找树的查询一致，从根节点往下判断子节点键值与查找目标的大小。其算法时间复杂度为O(logn)。

以下图为例，如果要查找0005，那么路径为根节点-0008-左孩子0006-0005
在这里插入图片描述

③ B树的插入与删除

插入需要着重考虑的无非是融合与分裂，删除着重考虑的是保证“所有叶子节点都在同一层”。

关于插入与删除的详细描述不再赘述，详细过程图示可以参考博文：认真学习数据结构之2-3树

关于“所有叶子节点都在同一层”这个性质，需要考虑一个问题：是否存在只有一个孩子节点的子树？比如下图中，我们删除5，那么结构是不变还是0006与0007融合？

在这里插入图片描述

答案是不存在这种情况，即如果删除0005，那么0006会与0007融合，0008将会下沉。最终形成下图。

在这里插入图片描述
其实这个从插入过程也可以考虑到。插入的时候是不会插入到空节点的，对于n阶B树来讲要么插入到一个键值个数<=n-2结点中，要么插入到一个键值个数为n-1结点个数中导致分裂。

所以不存会在这种情况：子树中左右孩子结点可能有一个不存在。也就是说B树的每棵子树至少是一个满二叉树。

【4】B+树

① B+树的性质

B+树是B树的一种变形形式，B+树上的叶子结点存储关键字以及相应记录的地址，叶子结点以上各层作为索引使用。一棵m阶的B+树定义如下:

每个结点至多有m个子女；
除根结点外，每个结点至少有[m/2]([ ]表示向上取整)个子女，根结点至少有两个子女；
有k个子女的结点必有k个关键字

B+树的查找与B树不同，当索引部分某个结点的关键字与所查的关键字相等时，并不停止查找，应继续沿着这个关键字左边的指针向下，一直查到该关键字所在的叶子结点为止。

B+树在B树的基础上做了优化，它与B树的差异在于：

有 k 个子节点的节点必然有 k个key；
非叶子结点的子树指针与关键字个数相同
非叶子节点仅具有索引作用，跟记录有关的信息均存放在叶子节点中。
树的所有叶子节点构成一个有序链表，可以按照key排序的次序遍历全部记录。
所有的非终端结点可以看成是索引部分，结点中仅含有其子树根结点中最大（或最小）关键字。

下图(来源于网络)就是一棵B+树
在这里插入图片描述

② B+树的优点

由于B+树在内部节点上不含数据信息，因此在内存页中能够存放更多的key。数据存放的更加紧密，具有更好的空间局部性。因此访问叶子结点上关联的数据也具有更好的缓存命中率。

B+树的叶子结点都是相链的，因此对整棵树的遍历只需要一次线性遍历叶子结点即可。而且由于数据顺序排列并且相连，所以便于区间查找和搜索。

而B树则需要进行每一层的递归遍历。相邻的元素可能在内存中不相邻，所以缓存命中性没有B+树好。

③ B树和B+树比较

B树	B+树
B树的每个节点，有m个key，m+1个指针，每个指针分别是区间，代表大于前面的key，小于后面的key	B+树的每个节点，有m+1个key，m+1个指针，每个指针与一个key对应，代表子节点中的数全部大于等于当前key。因此每个节点的key值更多，所以整个树的高度更低。
B树中每个节点的每个key都有数据信息	B+树中只有叶子节点有数据信息，非叶子节点没有。所以B+树的非叶子节点占用空间更小
B树的所有节点都包含数据，可能还没到叶子节点就已经找到直接返回了	B+树的非叶子节点就是单纯的索引，所有实际的数据都存储在叶子节点中，所以每次查询，都必须查询到叶子节点，所以每次查询的速度就十分的稳定
B树不可以进行叶子节点间的顺序查找，同时若是可以也没意义，因为是中序遍历(左-根-右)	B+树的叶子节点有指针连着，可以范围查找，即循着范围起点的叶子节点进行顺序遍历

上表参考博文：B树、B+树详解

相对于B+树，B树的优点在于：由于B树的每一个节点都包含数据，因此经常访问的元素可能离根节点更近，因此访问也更迅速。其最大缺点在于区间查找、范围遍历。