性质:
一个m阶(一个节点有m个元素称为m阶)的B树具有如下性质:
树中每个结点至多有m个孩子。
除根结点和叶子结点外,其它每个结点至少有[m/2]个孩子。[]表示不小于m/2的最小整数。
根结点至少有2个孩子(如果B树只有一个结点除外)。
所有叶结点在同一层,B树的叶结点可以看成一种外部节点,不包含任何信息。
有k个关键字(关键字按递增次序排列)的非叶结点恰好有k+1个孩子。
比如,一棵3阶B-树,m=3。它满足:
(1)每个结点的孩子个数小于等于3。
(2)除根结点外,其他结点至少有=2即([3/2])个孩子。
(3)根结点有两个孩子结点。
(4)除根结点外的所有结点的n大于等于=1,小于等于2。
(5)所有叶结点都在同一层上。
1、B-树的查找
B-树的查找过程:根据给定值查找结点和在结点的关键字中进行查找交叉进行。首先从根结点开始重复如下过程:
若比结点的第一个关键字小,则查找在该结点第一个指针指向的结点进行;若等于结点中某个关键字,则查找成功;若在两个关键字之间,则查找在它们之间的指针指向的结点进行;若比该结点所有关键字大,则查找在该结点最后一个指针指向的结点进行;若查找已经到达某个叶结点,则说明给定值对应的数据记录不存在,查找失败。
- B-树的插入
插入的过程分两步完成:
(1)利用前述的B-树的查找算法查找关键字的插入位置。若找到,则说明该关键字已经存在,直接返回。否则查找操作必失败于某个最低层的非终端结点上。
(2)判断该结点是否还有空位置。即判断该结点的关键字总数是否满足n<=m-1。若满足,则说明该结点还有空位置,直接把关键字k插入到该结点的合适位置上。若不满足,说明该结点己没有空位置,需要把结点分裂成两个。
分裂的方法是:生成一新结点。把原结点上的关键字和k按升序排序后,从中间位置把关键字(不包括中间位置的关键字)分成两部分。左部分所含关键字放在旧结点中,右部分所含关键字放在新结点中,中间位置的关键字连同新结点的存储位置插入到父结点中。如果父结点的关键字个数也超过(m-1),则要再分裂,再往上插。直至这个过程传到根结点为止。
B树的存储结构
struct B_TNode{
int numOfKey;//关键字个数
B_TNode *parent;//指向父结点的指针
B_TNode **childPtr;//指向子树的指针,childPtr[0]…childPtr[numOfKey]
int *key;//指向关键字数组的指针
};
在有限内存的情况下,每一次磁盘的访问我们都可以获得最大数量的数据。由于B树每结点可以具有比二叉树多得多的元素,所以与二叉树的操作不同,它们减少了必须访问结点和数据块的数量,从而提高了性能。
可以说,B树的数据结构就是为内外存的数据交互准备的。
在一个典型的B树应用中,要处理的硬盘数据量很大,因此无法一次全部装入内存。因此我们会对B树进行调整,使得B树的阶数(或结点的元素)与硬盘存储的页面大小相匹配。比如一棵B树的阶为1001(级一个结点包含1000个关键字),高度为2,它可以存储超过10亿个关键字,我们只要让根结点持久地保留在内存中,那么在这棵树上,寻找某一个关键字至多需要两次硬盘的读取即可。
B树的缺陷:
在B树中,当我们通过中序遍历来顺序查找树中的元素,假设每个结点都属于硬盘的不同页面,页面2-页面1-页面3-页面1-页面4-页面1-页面5。而且我们每次经过结点遍历时,都会对结点中的元素进行一次遍历,这就非常糟糕。
有没有可能让遍历时每个元素只访问一次呢?
这就是B+树。