聊一下:数据结构中的各种常见的树——AVL树、红黑树、B树、B+树

常见的树

今天我们来聊一下在数据结构中,几种应用比较广泛,并且十分最重要的树型结构,本文是基于对树的基本结构与特征有了一定了解之后而撰写的文章。如果对树的基本结构不太了解的同学,推荐看一下《java数据结构和算法》。百度云链接:数据结构和算法

本文主要介绍AVL树、红黑树、B树、B+树的结构,以及在其应用。并通过横向比较来展示各种数据结构的优点与缺点。

无序树

树的任意节点的子节点没有顺序关系。

有序树

树的任意节点的子节点有顺序关系。

二叉树

二叉树是数据结构中一种重要的数据结构,也是树结构中最基础的结构。
二叉树的定义:二叉树的每个结点至多只有二棵子树(不存在度大于2的结点),二叉树的子树有左右之分,次序不能颠倒。二叉树的第i层至多有2i-1个结点;深度为k的二叉树至多有2k-1个结点;对任何一棵二叉树T,如果其终端结点数为n0,度为2的结点数为n2,则n0=n2+1。

在这里插入图片描述

满二叉树

满二叉树: 叶子节点都在同一层并且除叶子节点外的所有节点都有两个子节点。

满二叉树的性质:

1) 一颗树深度为h,最大层数为k,深度与最大层数相同,k=h;

2) 叶子数为2h;

3) 第k层的结点数是:2k-1;

4) 总结点数是:2k-1,且总节点数一定是奇数。
  
在这里插入图片描述

完全二叉树

若设二叉树的深度为h,除第 h 层外,其它各层 (1~(h-1)层) 的结点数都达到最大个数,第h层所有的结点都连续集中在最左边,这就是完全二叉树。

在这里插入图片描述

哈夫曼树

带权路径最短的二叉树称为哈夫曼树或最优二叉树。

AVL树

AVL树的结构

平衡二叉搜索树(Self-balancing binary search tree)又被称为AVL树,且具有以下性质:它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。

AVL树的特点

AVL树是带有平衡条件的二叉查找树,一般是用平衡因子差值判断是否平衡并通过旋转来实现平衡,左右子树树高不超过1,和红黑树相比,AVL树是严格的平衡二叉树,平衡条件必须满足(所有节点的左右子树高度差不超过1)。不管我们是执行插入还是删除操作,只要不满足上面的条件,就要通过旋转来保持平衡,而旋转是十分耗时的,AVL树适合用于插入与删除次数比较少,但查找多的情况。

二叉查找树中结点的插入与删除等操作的时间复杂度都是O(h),其中h为查找树的高度。由于AVL树的高度为logn,有如下结论:在AVL树中删除一个结点后,之多需要O(logn)次旋转即可使之平衡。由于在AVL树中按通常查找树的方法删除结点需要O(logn)时间,平衡调整也需要O(logn)时间,因此在AVL树中删除结点的操作可以在O(logn)时间内完成。

AVL树的应用

1、Windows NT内核中广泛存在。

红黑树

红黑树也是一种二叉查找树,红黑树每一个结点都增加一个存储位,用来表示结点的颜色,可以是红或黑。通过对对任何一条从根到叶子的路径上各个结点着色的方式的限制,红黑树确保没有一条路径会比其他路径长两倍,因此,红黑树是一种弱平衡树。 对于要求严格的AVL树来说,它为了保持平衡旋转的次数较少,所以,对于搜索、插入、删除操作较多的情况下,红黑树的综合能力较好。

红黑树的结构

在这里插入图片描述

红黑树的特点

红黑树是一种含有红黑结点并能自平衡的二叉查找树。它必须满足下面性质:

  • 性质1:每个结点要么是红色,要么是黑色

  • 性质2:根节点是黑色

  • 性质3:叶子结点都是黑色

  • 性质4:每个红色结点的子结点一定都是黑色

  • 性质5:任意一个结点到每个叶子结点的路径包含数量相同的黑色结点。

红黑树的应用

1、广泛用于C ++的STL中

2、著名的Linux的的进程调度完全公平调度程序,用红黑树管理进程控制块,进程的虚拟内存区域都存储在一颗红黑树上,每个虚拟地址区域都对应红黑树的一个节点,左指针指向相邻的地址虚拟存储区域,右指针指向相邻的高地址虚拟地址空间;

3、IO多路复用的epoll的实现采用红黑树组织管理的的的sockfd,以支持快速的增删改查;

4、Nginx的的的中用红黑树管理定时器,因为红黑树是有序的,可以很快的得到距离当前最小的定时器;

5、Java中TreeMap、TreeSet、JDK1.8 HashMap的实现;

红黑树与AVL树的区别

1、红黑树不追求“完全平衡”,即不像AVL树那样要求平衡因子小于1,红黑树用非严格的平衡来换取旋转次数的降低,任何不平衡都会在三次旋转之内解决,而AVL树的旋转的量级为O(logn)。

2、AVL树的结构相较于红黑树更为平衡,插入和删除引起失衡,红黑树恢复平衡效率更高;当然,由于AVL高度平衡,因此AVL的查询效率更高。

总结: 红黑树是一种弱平衡二叉搜索树(红黑树确保没有一条路径比其它路径长出两倍),由于是弱平衡,可以看出,在相同的节点情况下,AVL树的高度低于红黑树,相对于要求严格的AVL树来说,它的旋转次数少,所以对于插入与删除较多的情况,我们就用红黑树。

B-树

一般的,在分级存储系统中,各级存储器的速度有着巨大的差异,以磁盘和内存为例,前者平均访问速度为10ms左右,而内存储器的平均访问时间为ns级。因此,为了节省一次外存储器的访问,我们宁愿多访问内存储器一百次、一千次、甚至一万次。当数据规模太大时,以至于内存储器无法容纳时,即使前面介绍的AVL树,在时间上也会大打折扣。 于是就引入了B-树。

B-树的结构

B-树作为一种多路搜索树,所谓的m阶B-树即满足如下特性的m叉树:

在这里插入图片描述
下面为一棵3阶B-数:
在这里插入图片描述
在实际应用中的B树的阶数m都非常大(通常大于100),所以即使存储大量的数据,B树的高度仍然比较小。每个结点中存储了关键字(key)和关键字对应的数据(data),以及孩子结点的指针。

B-树的特点

正如前面所指出的,B-树的查找适合于大规模的数据。实际的做法是,将大量数据组织为一棵B-树,并存于外存储器,B-树的根节点常驻内存。一旦需要查找,则按上述过程,首先将根节点作为当前结点,在当前结点中顺序查找;如果当前结点不存在需要查找的关键字,则根据相应的引用,找到外存中的某一个结点,将其读入内存,作为新的当前结点继续查找。如此进行下去,直到找到相应的关键字或查找失败。
由此可见,在B-树中进行查找所需要的时间,无外乎两类操作的时间消耗:一种是,在B-树上找结点,即将外存中的结点读入内存;另一种是,在结点中找关键字。在前面也提到,内外存储器的平均访问时间存在巨大差异,所以这两部分时间中,前者必然是主要部分。因为,B-树的查找效率取决于外存的访问次数。

B-树的应用

1、B-主要应用在文件系统中。

2、部分数据库索引(MongoDB)

B+树

B+树的结构

m阶B+树是m阶B-tree的变体,它的定义大致跟B-tree一致,不过有以下几点不同:

1、有n棵子树的结点中含有n个关键字,每个关键字不保存数据,只用来索引,所有数据都保存在叶子节点,其中⌈m/2⌉ <= n <= m

2、所有的叶子结点中包含了全部关键字的信息,及指向含这些关键字记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接

3、所有的非终端结点可以看成是索引部分,结点中仅含其子树(根结点)中的最大(或最小)关键字

4、通常在B+树上有两个头指针,一个指向根结点,一个指向关键字最小的叶子结点

在这里插入图片描述

B+树的特点

1、B+树磁盘读写代价更低

B+树的非叶子结点里面没有数据。所以内部节点较小,相同内存所能容纳的关键字数量也越多,一次性读入内存的中需要查找的关键字也就越多,相对来说IO读写次数就降低了。

2、B+树的查询效率更加稳定

非终结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当。

3、B+树可以范围查询,遍历所有的数据更方便

B+树只要遍历叶子节点就可以实现整棵树的遍历,而其他的树形结构 要中序遍历才可以访问所有的数据。

B+树的应用

1、B+树被广泛应用在数据库的索引中

2、操作系统的文件系统

B-树与B+树的区别

1、结构上的区别

2、查询效率的区别

有关树的一些问题

为什么文件系统要用B-树或B+树而不用二叉查找树?为什么不用hash?

在把磁盘里的数据加载到内存中的时候,是以页为单位来加载的,节点与节点之间的数据是不连续的,所以不同的节点,很有可能分布在不同的磁盘页中。

而实际上磁盘的寻址加载是最耗时的。实际上磁盘的加载次数,基本上是和树的高度相关联的,高度越高,加载次数越多,越矮,加载次数越少。所以对于这种文件索引的存储,我们一般会选择矮胖的树形结构。而二叉树的由于每个结点最多只有两个子节点,树的高度太高,很显然效率并不高。

为什么不用hash?

当数据量很大时,hash的缺点也会体现突出,太耗内存了!!!并且还会产生hash冲突。

为什么MySQL数据库索引使用B+树而不用B树?为什么不用hash?为什么不使用红黑树?

为什么不使用红黑树?

Mysql数据库的索引是保存在磁盘中,所以像红黑树这种二叉查找树由于高度太高,寻址次数太多,影响效率,直接pass。

为什么不用hash?

哈希表则不能范围查询。

为什么不用B树而用B+?

1、B树对于范围查询的效率太低了。B+树只需要去遍历叶子节点就可以实现整棵树的遍历。

2、B+树的磁盘读写代价更低,B+树的内部节点并没有指向关键字具体信息的指针,因此其内部节点相对B树更小,如果把所有同一内部节点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多,一次性读入内存的需要查找的关键字也就越多,相对IO读写次数就降低了。

3、B+树的查询效率更加稳定:由于非终结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当。

为什么JDK 1.8中Hashmap要使用红黑树?为什么不用B树?为什么不用B+树?为什么不使用AVL树?为什么不用hash?

jdk1.7中的HashMap本来是数组+链表的形式,链表由于其查找慢的特点,所以需要被查找效率更高的树结构来替换。

为什么不用B、B+树?

如果用B树、B+树的话,在数据量不是很多的情况下(发生hash冲突的结点才会被放在链表中,所有数据量不会特别大),数据都会“挤在”一个结点里面。这个时候遍历效率就退化成了链表。

为什么不使用AVL树呢?

AVL的查询效率固然比红黑树好,但是对于hashmap集合是经常需要进行增删操作的,红黑树增删性能比AVL好(红黑树恢复平衡只需最多三次旋转,而AVL需要logn次),肯定是选择使用综合性能较好的红黑树啦。

为什么不使用hash?

hash的查找速度比红黑树要快,属于常数级别;而红黑树的查找速度是log(n)。红黑树占用的内存更小(仅需要为其存在的节点分配内存),而Hash事先应该分配足够的内存存储散列表,即使有些槽可能弃用。主要还是内存的原因吧,如果使用hash,那没一个有hash冲突的地方都要创建一个hash表,比较占内存。

为什么使用红黑树?

红黑树增删查效率均为logn,恢复平衡最多只需三次旋转。

为什么MongoDB采用B树索引,而Mysql用B+树做索引?

由于关系型数据库和非关系型数据的设计方式上的不同。导致在关系型数据中,遍历操作比较常见,因此采用B+树作为索引,比较合适。而在非关系型数据库中,单一查询比较常见,因此采用B树作为索引,比较合适。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值