数据结构--B 树、B+ 树、B* 树

本文介绍了B树、B+树和B*树,这些是为优化磁盘查询设计的数据结构。B树是一种多路平衡查找树,其节点可以有多个子节点,通过减少树的高度降低磁盘I/O操作,适用于大规模数据存储。B+树的特点是所有数据只存在于叶子节点,非叶子节点仅用于导航,这提供了更好的空间局部性。B*树是B+树的变体,拥有更高的空间利用率。文章详细探讨了这些数据结构的定义、算法思想、插入和删除操作,以及它们在数据库和文件系统中的应用。
摘要由CSDN通过智能技术生成

1.  B 树、B+ 树、B* 树

1.1. 前言

前面讨论的二叉查找树(Binary Search Tree),平衡二叉查找树(Balanced BinarySearch Tree),红黑树(Red-BlackTree )都是内查询算法,被查询的数据都在内存。当查询的数据放在外存,用平衡二叉树作磁盘文件的索引组织时,若以结点为内外存交换的单位,则找到需要的关键字之前,平均要进行lgn次磁盘读操作,而磁盘、光盘的读写时间要比随机存取的内存代价大得多。其二,外存的存取是以“页”为单位的,一页的大小通常是4K字节或2048字节。

因此咱们有面对这样一个实际问题:就是大规模数据存储中,实现索引查询这样一个实际背景下,树节点存储的元素数量是有限的(如果元素数量非常多的话,查找就退化成节点内部的线性查找了),这样导致二叉查找树结构由于树的深度过大而造成磁盘I/O读写过于频繁,进而导致查询效率低下(为什么会出现这种情况,待会在背景知识介绍中有所解释),那么如何减少树的深度(当然是不能减少查询的数据量),一个基本的想法就是:采用多叉树结构(由于树节点元素数量是有限的,自然该节点的子树数量也就是有限的)。

也就是说,因为磁盘的操作费时费资源,如果过于频繁的多次查找势必效率低下。那么如何提高效率,即如何避免磁盘过于频繁的多次查找呢?根据磁盘查找存取的次数往往由树的高度所决定,所以,只要我们通过某种较好的树结构减少树的结构尽量减少树的高度,那么是不是便能有效减少磁盘查找存取的次数呢?那这种有效的树结构是一种怎样的树呢?

针对上述特点,1972年R.Bayer和E.M.Cright提出了一种B-树的多路平衡查找树,以适合磁盘等直接存取设备上组织动态查找表(wikipedia中:http://en.wikipedia.org/wiki/B-tree,阐述了B-tree名字来源以及相关的开源地址)。B-树上算法的执行时间主要由读、写磁盘的次数来决定,故一次I/O操作应读写尽可能多的信息。因此B-树的结点规模一般以一个磁盘页为单位。一个结点包含的关键字及其孩子个数取决于磁盘页的大小。

这篇文章所要阐述的第一个主题B-tree,即B树结构(后面,我们将看到,B树的各种操作能使B树保持较低的高度,从而达到有效避免磁盘过于频繁的查找存取操作,从而有效提高查找效率)。

在开始介绍B-tree之前,先了解下相关的硬件知识,才能很好的了解为什么需要B-tree这种外存数据结构。 

1.2. 背景知识介绍

B树和B+广泛应用于文件存储系统以及数据库系统中,在讲解应用之前,我们看一下常见的存储结构:


我们计算机的主存基本都是随机访问存储器(Random-Access Memory,RAM),他分为两类:静态随机访问存储器(SRAM)和动态随机访问存储器(DRAM)。SRAM比DRAM快,但是也贵的多,一般作为CPU的高速缓存,DRAM通常作为内存。这类存储器他们的结构和存储原理比较复杂,基本是使用电信号来保存信息的,不存在机器操作,所以访问速度非常快,具体的访问原理可以查看CSAPP,另外,他们是易失的,即如果断电,保存DRAM和SRAM保存的信息就会丢失。

我们使用的更多的是使用磁盘,磁盘能够保存大量的数据,从GB一直到TB级,但是 他的读取速度比较慢,因为涉及到机器操作,读取速度为毫秒级,从DRAM读速度比从磁盘度快10万倍,从SRAM读速度比从磁盘读快100万倍。下面来看下磁盘的结构:


如上图,磁盘由盘片构成,每个盘片有两面,又称为盘面(Surface),这些盘面覆盖有磁性材料。盘片中央有一个可以旋转的主轴(spindle),他使得盘片以固定的旋转速率旋转,通常是5400转每分钟(Revolution Per Minute,RPM)或者是7200RPM。磁盘包含一个多多个这样的盘片并封装在一个密封的容器内。上图左,展示了一个典型的磁盘表面结构。每个表面是由一组成为磁道(track)的同心圆组成的,每个磁道被划分为了一组扇区(sector).每个扇区包含相等数量的数据位,通常是(512)子节。扇区之间由一些间隔(gap)隔开,不存储数据。

以上是磁盘的物理结构,现在来看下磁盘的读写操作:


如上图,磁盘用读/写头来读写存储在磁性表面的位,而读写头连接到一个传动臂的一端。通过沿着半径轴前后移动传动臂,驱动器可以将读写头定位到任何磁道上,这称之为寻道操作。一旦定位到磁道后,盘片转动,磁道上的每个位经过磁头时,读写磁头就可以感知到位的值,也可以修改值。对磁盘的访问时间分为 寻道时间,旋转时间,以及传送时间。

由于存储介质的特性,磁盘本身存取就比主存慢很多,再加上机械运动耗费,因此为了提高效率,要尽量减少磁盘I/O,减少读写操作。为了达到这个目的,磁盘往往不是严格按需读取,而是每次都会预读,即使只需要一个字节,磁盘也会从这个位置开始,顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理:

当一个数据被用到时,其附近的数据也通常会马上被使用。

程序运行期间所需要的数据通常比较集中。                                       

由于磁盘顺序读取的效率很高(不需要寻道时间,只需很少的旋转时间),因此对于具有局部性的程序来说,预读可以提高I/O效率。

预读的长度一般为页(page)的整倍数。页是计算机管理存储器的逻辑块,硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块,每个存储块称为一页(在许多操作系统中,页得大小通常为4k),主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时,会触发一个缺页异常,此时系统会向磁盘发出读盘信号,磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中,然后异常返回,程序继续运行。

文件系统及数据库系统的设计者利用了磁盘预读原理,将一个节点的大小设为等于一个页,这样每个节点只需要一次I/O就可以完全载入。为了达到这个目的,在实际实现B-Tree还需要使用如下技巧:

每次新建一个节点的同时,直接申请一个页的空间( 512或者1024),这样就保证一个节点物理上也存储在一个页里,加之计算机存储分配都是按页对齐的,就实现了一个node只需一次I/O。如,将B树的度M设置为1024,这样在前面的例子中,600亿个元素中只需要小于4次查找即可定位到某一存储位置。

同时在B+树中,内节点只存储导航用到的key,并不存储具体值,这样内节点个数较少,能够全部读取到主存中,外接点存储key及值,并且顺序排列,具有良好的空间局部性。所以B及B+树比较适合与文件系统的数据结构。另外B/B+树也经常用做数据库的索引,这方面推荐您直接看张洋的MySQL索引背后的数据结构及算法原理 这篇文章,这篇文章对MySQL中的如何使用B+树进行索引有比较详细的介绍,推荐阅读。

1.3. B-树 

1.3.1.  什么是B-树

具体讲解之前,有一点,再次强调下:B-树,即为B树。因为B树的原英文名称为B-tree,而国内很多人喜欢把B-tree译作B-树,其实,这是个非常不好的直译,很容易让人产生误解。如人们可能会以为B-树是一种树,而B树又是一种树。而事实上是,B-tree就是指的B

从上面背景知识介绍中我们知道,B-tree 与一般的平衡树如 AVL-Tree,Red-Black Tree 的一个显著区别是 B-tree 的每个内结点可以拥有很多个 Children(这个度量被称为「内结点出度」,下文会更深入的讨论之),那么我们可以在技术上使 B-tree 的结点大小为磁盘一个页的大小,并且在新建结点时直接申请一个页大小的空间,使得结点的物理存储位置也是在一个页里,这样就能实现存取一个结点只需一次磁盘 I/O。在最坏情况下,B-tree 的一次检索最多需要 (树的高度)次的磁盘 I/O。记 为B-tree 中的 Key 的数据量, 为内结点出度的二分之一,则我们可以证明 ,渐进复杂度为 。这意味着,一棵拥有 200 万 Key 的 B-tree,在内结点出度为 200 时它的树高 最多为 3。实际上,为了取得更大的内结点出度,各个数据库一般会采用 B-tree的变种如 B+-tree,B*-tree来实现索引,比如 MySQL 的存储引擎 InnoDB 就采用 B+-tree 来实现聚簇索引。

如下图所示,即是一棵B树,一棵关键字为英语中辅音字母的B树,现在要从树中查找字母R(包含n[x]个关键字的内结点x,x有n[x]+1]个子女(也就 是说,一个内结点x若含有n[x]个关键字,那么x将含有n[x]+1个子女)。所有的叶结点都处于相同的深度,下图中浅色的结点为查找字母R时要检查的结点):

 

相信,从上图你能轻易的看到,一个内结点x若含有n[x]个关键字,那么x将含有n[x]+1个子女。如含有2个关键字D H的内结点有3个子女,而含有3个关键字Q T X的内结点有4个子女。

B树的定义,从下文中,你将看到,或者是用阶,或者是用度,如下段文字所述:

Unfortunately,the literature on B-trees is not uniform in its use of terms relating toB-Trees. (Folk & Zoellick 1992, p. 362) Bayer & McCreight (1972),Comer (1979), and others define the order of B-tree as the minimum number ofkeys in a non-root node. Folk & Zoellick (1992) points out that terminologyis ambiguous because the maximum number of keys is not clear. An order 3 B-treemight hold a maximum of 6 keys or a maximum of 7 keys. (Knuth 1998,TAOCP p.483) avoids the problem by defining the order to be maximum number of children(which is one more than the maximum number of keys).


   from: http://en.wikipedia.org/wiki/Btree#Technical_description

清华大学出版社的《数据结构(C语言版)》(2007年版),编著者为严蔚敏,吴伟民。该教材中关于 B-tree 的定义摘录如下:

一棵m 阶的 B-树,或为空树,或为满足下列特性的 m叉树:

1)  树中每一个结点至多有m 棵子树;

2)  若根结点不是叶子结点,则至少有两棵子树;

3)  除根结点之外的所有非终端结点至少有m/2 棵子树;

4)  所有的非终端结点中包含下列信息数据 (n,A0,K1,A1,K2,A2,…,Kn,An), 其中:Ki(i=1,…,n) 为关键字,且Ki<Ki+1(i=1,…,n-1);Ai(i=0,…,n)为指向子树根结点的指针,且指针Ai-1 所指子树中所有结点的关键字均小于Ki(i=1,…,n),An 所指子树中所有结点的关键字均大于Kn ,n(⌈m/2-1⌉ ≤n≤m-1)为关键字的个数(或n+1 为子树个数);

5)  所有的叶子结点都出现在同一层次上,并且不带信息(可以看作是外部结点或查找失败的结点,实际上这些结点不存在,指向这些结点的指针为空)。

比如,一棵3阶B-树,m=3。它满足: 

(1)每个结点的孩子个数小于等于3。 

(2)除根结点外,其他结点至少有=2个孩子。 

(3)根结点有两个孩子结点。 

(4)除根结点外的所有结点的n大于等于=1,小于等于2。 

(5)所有叶结点都在同一层上。</

  • 0
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值