一、概念
B树是一种专用的 M 阶树,可广泛用于磁盘访问。M 阶树顺序的 B 树最多可以有 m-1 个键和 M 个子树。使用 B 树的主要原因之一是它能够在单个结点中存储大量键,并且通过保持树的高度相对较小来存储大键值。
排序 M 的 B 树包含 M 阶树的所有属性。此外,它还包含以下属性。
- B 树中的每个结点最多包含 m 个子结点。
- 除根结点和叶结点外,B 树中的每个结点至少包含 m/2 个子结点。
- 根结点必须至少有 2 个结点。
- 所有叶结点必须处于同一级别。
所有结点都不必包含相同数量的子结点,但每个结点必须具有 m/2 个结点数。
在下图中显示了 4 阶 B 树。
在 B 树上执行某些操作时,B树的任何属性都可能违反结点可以拥有的最小子结点数。为了维护 B 树的属性,树可能会分裂或连接。
二、操作
搜索
在B树中搜索类似于二叉搜索树中的搜索。例如,如果在以下B树中搜素数据项:49。该过程将如下所示:
- 将数据项 49 与根结点 78 进行比较。因为 49 < 78 因此,移动到其左子树。
- 因为, 40 < 49 < 56,遍历右子树40。
- 49 > 45 ,向右移动。比较 49。
- 找到匹配,则返回。
在B树中搜索取决于树的高度。搜索算法需要 O(log n) 时间来搜索B树中的任何元素。
插入
插入在叶结点级别完成。要将项目插入 B 树,需要遵循以下算法。
- 遍历 B树 以找到可插入结点的适当叶结点。
- 如果叶结点包含少于 m-1 个键,则按递增顺序插入元素。
- 否则,如果叶结点包含 m-1 个键,则按照以下步骤操作。
-
- 按元素的递增顺序插入新元素。
- 将结点拆分为中间的两个结点。
- 将中值元素推送到其父节点。
- 如果父节点还包含 m-1 个键,则按照相同的步骤将其拆分。
示例:
将结点 8 插入到下图所示的5阶B树中。
8 将插入 5 的右侧,因此插入 8。
该结点现在包含5个键,大于(5-1=4)个键。因此,将结点从中间分开,即 8 ,并将其推到其父节点,如下所示。
删除
还在叶结点处执行删除。要删除的结点可以是叶结点或内部结点。需要遵循以下算法才能从B树中删除结点。
- 找到叶结点。
- 如果叶结点中有多于 m/2 个键,则从结点中删除所需的键。
- 如果叶结点不包含 m/2 个键,则通过从 8 个或左兄弟中获取元素来完成键。
-
- 如果左侧兄弟包含多于 m/2 个元素,则将其最大元素推送到其父元素,并将插入元素向下移动到删除键的结点。
- 如果右侧兄弟包含多于 m/2 个元素,则将其最小元素向上推送到父节点,并将插入元素向下移动到删除键的结点。
- 如果兄弟结点都不包含多于 m/2 个元素,则通过连接两个叶节点和父节点的插入元素来创建新的叶结点。
- 如果父节点的结点少于 m/2,那么也应在父节点上应用上述过程。
- 如果要删除的结点是内部结点,则将结点替换为其有序后继或前一个结点。由于后继或前任将始终位于叶节点上,因此该过程将类似于从叶结点中删除结点。
示例1:
从下图所示的5阶B树中删除结点:53。
元素 49 的右子结点中存在 53,则删除它。
现在,57是唯一留在结点中的元素,在5阶B树中必须存在的最小元素数是2。它小于左边和右边子树中的元素,因此,也不足以将其与父母的左兄弟和干预元素合并,即49。
最终的B树如下所示。
三、B树的应用
B树用于索引数据并提供对存储在磁盘上的实际数据的快速访问,因为存储在磁盘上的大型数据库中存储的值的访问时非常耗时的过程。
在最坏的情况下,搜索包含 n 个键值的未索引和未排序的数据库需要 O(n) 运行时间。但是,如果使用B树来索引此数据库,则在最坏的情况下将在 O(log n)时间内搜索它。