B树,B+树,B*树

2 篇文章 0 订阅
1 篇文章 0 订阅

数据库索引为什么要使用树结构存储呢?
因为树的查询效率高,而且可以保持有序。

如果我们利用二叉查找树或者红黑树作为索引结构,在寻找到每一个节点时,均会进行一次IO操作,造成大量磁盘IO操作(最坏情况下为树的高度)。即由于树深度过大而造成磁盘IO读写过于频繁,进而导致效率低下。
  所以,我们为了减少磁盘IO的次数,就你必须降低树的深度,将“瘦高”的树变得“矮胖”。一个基本的想法就是:
  (1)每个节点存储多个元素
  (2)摒弃二叉树结构,采用多叉树
  这样就引出来了一个新的查找树结构 ——多路查找树。**
先来介绍一下B树(Balance Tree):

一、B树(Balance Tree)
B-树就是B树,没有所谓的B减树

B树是一种多路平衡查找树,B树中所有结点的孩子结点最大值称为B树的阶,通常用m表示。m的大小取决于磁盘页的大小,一个m阶的B树具有如下几个特征:

1.根结点至少有两个子女。
2.每个中间节点都包含k-1个元素和k个孩子,其中 ceil(m/2) ≤ k ≤ m
3.每一个叶子节点都包含k-1个元素(关键字),其中 ceil(m/2) ≤ k ≤ m
4.所有的叶子结点都位于同一层。
5.每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域划分

如下图:
在这里插入图片描述
B树比较的次数并不比二叉查找树少,尤其是当某一节点中的数据很多时,但是磁盘IO的次数却是大大减少。比较是在内存中进行的,相比于磁盘IO的速度,比较的耗时几乎可以忽略。所以当树的高度足够低的话,就可以极大的提高效率。相比之下,节点中的元素多点也没关系,仅仅是多了几次内存交互而已,只要不超过磁盘页的大小即可。这就是B树的优势。

B树的应用:
B树主要用于文件系统以及部分数据库索引,例如: 非关系型数据库MongoDB。而大部分关系数据库则使用B+树做索引,例如:Mysql数据库;
②从查找效率考虑一般要求B树的阶数m >= 3;
③B-树上算法的执行时间主要由读、写磁盘的次数来决定,故一次I/O操作应读写尽可能多的信息。因此B树的结点规模一般以一个磁盘页为单位。一个结点包含的关键字及其孩子个数取决于磁盘页的大小。

关于B树的参考文章(本文的内容汇总了这两篇文章的纲领性内容,侵删):

  1. https://juejin.im/post/6844903753330622471(漫画形式,较为直观)

  2. https://blog.csdn.net/z_ryan/article/details/79685072?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight

下面来介绍一下B+树。
B+树:
B+树是B树的变种,有着比B树更高的查询效率。下面,我们就来看看B+树和B树有什么不同。
一个m阶的B+树具有如下几个特征:
1.有k个孩子的中间节点包含有k个元素(而B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
2.所有的叶子结点中包含了全部元素的信息,叶子结点本身按照元素(关键字)的大小自小而大顺序排列,叶子节点之间是一个双向循环链表结构。
3.所有的父节点元素都同时存在于子节点中,是子节点元素中的最大(或最小)元素。

如下图所示:
在这里插入图片描述
B+树和B树两者的不同点在于:
(1)卫星数据的位置:所谓卫星数据即索引元素所指向的数据记录,比如数据库中的某一行,B树每个结点中的每个关键字都有卫星数据;而在B+树中,只有叶子结点带有卫星数据,其余中间节点仅仅是索引,没有任何数据关联。而这就意味着对于B+树,同样的大小的磁盘页可以容纳更多节点元素,在相同的数据量下,B+树更加“矮胖”,IO操作更少。
B树中的卫星数据(Satellite Information):
在这里插入图片描述
B+树中的卫星数据(Satellite Information):
在这里插入图片描述
需要补充的是,在数据库的聚集索引(Clustered Index)中,叶子节点直接包含卫星数据。在非聚集索引(NonClustered Index)中,叶子节点带有指向卫星数据的指针。

(2)B+树的优势在于查询性能上,下面我们以单元素查询和范围查询来做分析:
a. 在单元素查询的时候,B+树会自顶向下逐层查找节点,最终找到匹配的叶子节点。

不同点:B+树的查询必须最终查找到叶子结点,而B树只要找到匹配元素即可,无论匹配元素处于中间节点还是叶子节点。因此B树的查找性能并不稳定(最好情况时只查根节点,最坏情况是查到叶子节点),而B+树的每一次查找都是稳定的。

b.范围查询
B树的范围查询只能依靠繁琐的中序遍历,而B+树的范围查询,则只需要在查到到范围的下限后在链表上做遍历即可。
B+树查找时是从上到下查找;B-树则是从下往上查找(中序遍历);

综合起来,B+树相比B树的优势有三个:
1. IO次数更少;
2. 所有查询都要查找到叶子节点,查询性能稳定;
3. 所有叶子节点形成有序链表,便于范围查询。

参考文章:
https://blog.csdn.net/qq_35571554/article/details/82759668

最后补充一下B* 树的优点:
B*树:在B+树基础上,为非叶子结点也增加链表指针,将结点的最低利用率 从1/2提高到2/3;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值