最近在看操作系统和数据库系统,当涉及到查找文件和建立数据库索引时书中反复提到使用B+ 树可以实现高效的查找,于是我迫不及待地想研究一下B+ 树的内部结构。
首先从二叉查找树开始讲起。
二叉搜索树(BinarySearch Tree),别名又叫二叉查找树,二叉排序树。它是一棵空树或者是满足以下条件的二叉树:它的左子树不空,则左子树上所有的结点的值均小于它的根节点的值;若它的右子树不空,则右子树上所有节点的值均大于它的根节点的值。并且它的左右子树也称为二叉排序树。
典型的二叉查找树有平衡二叉查找树,红黑树,查找的时间复杂度为O(log2N)。
但是为了有效避免磁盘过于频繁的查找存取操作,我们需要使树具有较低的高度,从而引入了B树。
注意:B树和B-树是同一种树,只不过英语中B-tree被中国人翻译成了B-树,让人觉得它们是两种不同的树,实际上,两者就是同一种树。
B树是一种为了提高磁盘或者其他存储设备而设计的一种多叉(有多个分支)平衡查找树。这里分支结点的个数不限,这样就使得树的高度要比红黑树小很多。B树有一个特点:所有的叶节点都处于相同的深度。
下面给出一棵m阶B树的定义(用阶来定义比较经典):
1. 树中每个结点最多含有m个孩子(m>=2);
2. 除根节点外,其他结点至少含有ceil(m/2)个孩子(向上取整);
3. 根节点至少有两棵子树(除非B树只包含一个结点)。
4. 所有叶节点在同一层上。B树的叶节点看做外部结点,不包含任何信息。
5. 有j个孩子的非叶节点恰好有j-1个关键码,关键码按递增次序排列。
比如说,查找文件28,首先看模块1,发现17<28<35,然后看p2指针,看模块3,发现26<28<30,查看指针p2,查看磁盘块8,然后成功找到文件28。
我们知道对于在外存中查找文件来说,查找效率取决于B树的高度。下面给出以下规律:对于一棵含有N个总关键字的m阶B树的最大高度为log┌m/2┐((N+1)/2)+1 (以1开始计数)。[证明参见算法导论]
下面讲B+树,B+树是为文件系统所需而产生的一种B树的变形树。
问:B树和B+树的不同之处?
B树所有结点都出现在同一层,叶子结点不包含任何关键字信息。
但是B+树所有的叶子结点中包含了全部关键字的信息,及指向含有这些关键字记录的指针,且叶子结点本身按照关键字的大小自小而大的顺序链接。因为任何关键字的查找必须走一条从根结点到叶子结点的路,所以所有关键字的查询路径长度相同,使得B+树的查询效率更加稳定。
另外,在数据库系统中,频繁的操作是元素的遍历,因为B+树只要遍历叶子结点就可以实现整棵树的遍历,所以效率远远高于B树。