从B树到B+树

最近在看操作系统和数据库系统,当涉及到查找文件和建立数据库索引时书中反复提到使用B+ 树可以实现高效的查找,于是我迫不及待地想研究一下B+ 树的内部结构。


首先从二叉查找树开始讲起。

二叉搜索树(BinarySearch Tree),别名又叫二叉查找树,二叉排序树。它是一棵空树或者是满足以下条件的二叉树:它的左子树不空,则左子树上所有的结点的值均小于它的根节点的值;若它的右子树不空,则右子树上所有节点的值均大于它的根节点的值。并且它的左右子树也称为二叉排序树。

典型的二叉查找树有平衡二叉查找树,红黑树,查找的时间复杂度为O(log2N)。


但是为了有效避免磁盘过于频繁的查找存取操作,我们需要使树具有较低的高度,从而引入了B树。

 注意:B树和B-树是同一种树,只不过英语中B-tree被中国人翻译成了B-树,让人觉得它们是两种不同的树,实际上,两者就是同一种树。

B树是一种为了提高磁盘或者其他存储设备而设计的一种多叉(有多个分支)平衡查找树。这里分支结点的个数不限,这样就使得树的高度要比红黑树小很多。B树有一个特点:所有的叶节点都处于相同的深度。

下面给出一棵m阶B树的定义(用阶来定义比较经典):

1.      树中每个结点最多含有m个孩子(m>=2);

2.      除根节点外,其他结点至少含有ceil(m/2)个孩子(向上取整);

3.      根节点至少有两棵子树(除非B树只包含一个结点)。

4.      所有叶节点在同一层上。B树的叶节点看做外部结点,不包含任何信息。

5.      有j个孩子的非叶节点恰好有j-1个关键码,关键码按递增次序排列。


比如说,查找文件28,首先看模块1,发现17<28<35,然后看p2指针,看模块3,发现26<28<30,查看指针p2,查看磁盘块8,然后成功找到文件28。


我们知道对于在外存中查找文件来说,查找效率取决于B树的高度。下面给出以下规律:对于一棵含有N个总关键字的mB树的最大高度为log┌m/2┐((N+1)/2)+1 (1开始计数)[证明参见算法导论]

 


   下面讲B+树,B+树是为文件系统所需而产生的一种B树的变形树。

    问:B树和B+树的不同之处?

    B树所有结点都出现在同一层,叶子结点不包含任何关键字信息。

但是B+树所有的叶子结点中包含了全部关键字的信息,及指向含有这些关键字记录的指针,且叶子结点本身按照关键字的大小自小而大的顺序链接。因为任何关键字的查找必须走一条从根结点到叶子结点的路,所以所有关键字的查询路径长度相同,使得B+树的查询效率更加稳定。




 

另外,在数据库系统中,频繁的操作是元素的遍历,因为B+树只要遍历叶子结点就可以实现整棵树的遍历,所以效率远远高于B树。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值