概念
B+树,是B树的一种变形树。
特性
一棵m阶的B+树与m阶的B树的差异在于:
- 若某节点有n个孩子,则该结点包含的关键字个数为n; (对于B树,节点包含的关键字个数为:n-1)
B+树的数据(关键字及指向关键字记录的指针)都存储在叶子结点中,分支结点均为索引(其子树根结点中最大/最小关键字),且叶子结点是按关键字自小而大的顺序链接。 (对于B树,分支结点和叶子结点都存储数据)
所以一个B+树通常有两个头指针,一个是指向根节点的root,另一个是指向叶子结点顺序链表的第一个(最小)关键字。
若key[i]为存储在分支结点中的关键字,child[i]为该结点的子结点,则
- 若分支结点中的关键字为其子树根节点中的最小值:
key[0] ≤ child[0] < key[1] ≤ child[1] < key [2] < … < key[n-1] ≤ child[n-1] - 若分支结点中的关键字为其子树根节点中的最大值:
child[0] ≤ key[0]< child[1] ≤ key[1] < child [2] < … < child[n-1] ≤ key[n-1]
- 若分支结点中的关键字为其子树根节点中的最小值:
为什么说B+树比B树更适用于文件系统和数据库?
- B+树的磁盘IO次数更低
相较于B树,B+树的非终端结点并没有指向关键字对应文件内容的指针。因此单个节点可容纳的关键字数目越多,从而降低了磁盘IO次数。 - B+树的查询效率更稳定
由于分支结点只是作为索引,并不指向文件内容,所以查找任何关键字时,都必须从根结点遍历到叶子结点,即所有关键字查询的路径长度相同,从而导致每一个数据的查询效率相当。(对于B树,关键字越靠近根节点的,查找时间越快。)
查找操作
B+树查找包括两种方法:
- 从叶子结点顺序链表的头指针开始,顺序查找;
- 从根结点开始,在查找时,若分支结点上的某关键字等于给定值,并不终止,而是继续向下遍历直至叶子结点。
因此,B树只适合随机检索,B+树同时支持随机和顺序检索。
插入操作
B+树的插入与B树的插入类似:若插入后,结点中的关键字个数超过最大值,则必须分裂该结点。不同的是:
- B+树的插入仅在叶子结点进行;
- 若插入后,结点中的关键字个数 <= 最大值,但插入的关键字为该结点中的最大/最小值,则自底向上,直到根节点,判断结点是否包含该叶子结点原来的索引关键字,若有,则替换为新索引关键字。
- 分裂后的2个结点的父结点必须包含这两个结点的最大/最小关键字。
删除操作
B+树的删除与B树的删除类似:若删除后,结点中的关键字个数小于最小值,则必须向相邻兄弟借一个关键字或与相邻兄弟合并为一个结点。不同的是:
- B+树的删除仅在叶子结点进行;
- 若插入后,结点中的关键字个数 >= 最小值,但删除的为该结点中的最大/最小关键字,则必须将(删除后)结点中的最大/最小关键字作为新的索引。(自底向上,直到根节点,替换原先的索引值)
- 合并后,新结点中的最大/最小关键字替换原先的两个索引值。(自底向上,直到根节点,替换原先的索引值)