一文带你全面了解树的有关知识(满二叉树、BST、AVL、B树,B+树、红黑树)

一、树的定义与基本术语

树时N(N >= 0)各节点的有限集合,N = 0的时候,称为空树,在任意一颗非空的树中应该满足:

  • 有且仅有一个特定的称为根的节点
  • 当N > 1的时候,其余节点可以分为m个互不相交的有限集合T1,T2,…,Tm,其中每一个集合本身也是一颗树,并且称为根节点的子树

显然树的定义是递归的,是一种递归的数据结构,树作为一种逻辑结构,同时也是一种分层的结构,具有以下两个特点:

  • 树的根节点没有前驱节点,除了根节点之外的所有节点有且只有一个前驱节点
  • 树中所有的节点可以有零个或者多个后继的节点

树时候表示具有层次结构的数据,树中的某个节点(除了根节点之外)最多之和上一层的一个节点即父节点有直接关系,根节点没有直接上层的节点,因此在n个节点的树中有n - 1条边,而且书中的每个节点与下一层的零个或多个节点有直接的关系

一些重要的基本术语

  • 树中一个节点的子节点个数称之为该节点的度,树中节点的最大度数称之为这颗树的度。
  • 结点的深度是从根结点开始自顶向下逐层累加的,结点的高度是从叶节点开始自底向上逐层累加的,树的高度或者深度就是树中结点的最大层数

二、二叉树的概念

二叉树的定义

二叉树是另一种树形结构,其特点是每个节点至多只有两个子树(即二叉树不存在度大于2的接节点),并且,二叉树的子树有左右之分,顺序不能颠倒。
二叉树的5种基本形态

几种特殊的二叉树

满二叉树

一颗高度为h,并且含有2^h - 1个结点的二叉树称为满二叉树,即书中每一层都含有最多的结点,满二叉树的叶子节点都集中在在二叉树的最下一层,并且除了叶子节点之外的每个节点的度数均为2。

可以对满二叉树按层序进行编号:约定编号从根节点1开始,自上而下,自左而右。这样每个节点对应一个编号,对于编号为i的结点,如果有双亲,其双亲为 [ i / 2 ],如果有左孩子,则左孩子为[ 2 * i ] ,右孩子为[2 * i + 1]

满二叉树

完全二叉树

设有一个高度为h,有n个几点的二叉树,当且仅当其每一个几点都与高度为h的满二叉树中编号为 1 ~ n 的结点一一对应的时候,才称为完全二叉树。完全二叉树的特点如下:

  1. 当i <= n / 2的时候,则结点i为分支结点,否则为叶子结点
  2. 叶子节点只可能在层次最大的两层上出现,对于最大层次中的叶子节点,都依次排列在该层最左边的位置上
  3. 如果有度数为1的结点,只可能有一个,且该结点只有左孩子没有右孩子
  4. 按层序进行编号之后,一旦出现某个节点为叶子结点或者只有左孩子,则编号大于i的节点均为叶子节点
    完全二叉树
    堆一般都是用完全二叉树来实现的。
二叉排序树 BST

一个二叉树或者是空二叉树,或者是具有如下性质的二叉树:左子树上所有节点的关键字均小于根节点的关键字;右子树上的所有节点的关键字均大于根节点的关键字,左子树和左子树又各是一颗二叉排序树

平衡二叉树 AVL

树上的任意一节点的左子树和右子树的深度之差不超过1

二叉树的存储结构

顺序存储结构

二叉树的顺序存储结构就是用一组地址连续的存储单元依次自上而下,自左而右的存储完全二叉树上的节点元素。即用一个数组存储二叉树,然后通过一些方法确定节点在逻辑上的父子和兄弟关系。
依照二叉树的性质,满二叉树和完全二叉树使用数组来存储比较合适,比如堆结构就可以用数组存储,树中节点的序号可以唯一的反应节点之间的逻辑关系,这样既能最大可能的存储空间,又可以利用数组元素的下标确定节点在二叉树中的位置,以及节点之间的关系。

链式存储结构

对于普通的二叉树由于存在空值,导致顺序存储对空间利用率比较低,因此,一般二叉树都采用链式存储的结构,二叉树链式存储的节点的结构包含3个域:数据域 data ,左指针域 lchild 右指针域 rchild

三、树与二叉树的应用

二叉排序树

二叉排序树简称BST,也称为二叉查找树,具有以下特性

  1. 若左子树非空,则左子树上的所有节结点的值均小于根节点的值
  2. 若右子树非空,则右子树上的所有节结点的值均大于根节点的值
  3. 左右子树本身也分别是一颗二叉排序树

二叉排序树的定义,不是为了排序,是为了提高查找和插入,删除关键字的速度,对二叉树进行中序遍历可以得到一个递增的有序序列
二叉排序树
参考:二叉排序树(BST查找、插入、删除、遍历)——基于树的查找(一)

二叉排序树的查找

由于二叉排序树可以看成一颗有序表,所以在二叉排序中进行查找类似于折半查找。

若查找的关键字等于根结点的关键字,查找成功;
若查找的关键字小于根结点的关键字,递归查找左子树;
若查找的关键字大于根结点的关键字,递归查找右子树。
若子树为空,则查找不成功。

  //递归实现二叉排序树查找
    public Node searchBSTByRecursion(Node root, int value) {
        if(root == null) {
            return null;
        }

        if(root.getValue() == value) {//步骤1
            return root;
        } else if(value < root.getValue()) {//步骤2
            return searchBST(root.leftChild, value);
        } else if(value > root.getValue()) {//步骤3
            return searchBST(root.rightChild, value);
        }

        return null;//如果没找到,就返回null
    }

二叉排序树的插入

首先查找待插入的记录是否在树中,如果存在,则不允许插入重复关键字;如果直到找到叶子结点仍没有发现重复关键字,则把待插结点作为新的叶子结点插入。具体步骤为:

  1. 若原二叉排序树为空,则直接插入节点
  2. 若关键字k小于根节点的关键字,则插入到左子树中,若关键字k大于根节点关键字,则插入到右子树中
    //递归实现二叉排序树的插入
    public void insertBST(Node root, int value) {
        if(root == null) {
            root = new Node(value);
            root.leftChild = null;
            root.rightChild = null;
        }

        if(value > root.getValue()) {
            if(root.rightChild == null) {
                root.rightChild = new Node(value);
            } else {
                insertBST(root.rightChild, value);
            }
        } else {
            if(root.leftChild == null) {
                root.leftChild = new Node(value);
            } else {
                insertBST(root.leftChild, value);
            }
        }
    }
二叉排序树的删除

在二叉排序树中删除一个节点的时候,不能把以该节点为根的子树上的节点都删除,必须先把删除节点从存储二叉排序树的链表上摘下,将因删除节点而断开的二叉链表重新连接起来,同属确保二叉排序树的性质不会丢失。
删除操作的实现过程按照3中情况来处理

  1. 如果被删除结点是叶子结点,则直接删除,不会破坏二叉排序树的性质
  2. 如果节点z只有一颗左子树或者右子树,则让z的子树成为父节点的子树,替代z的位置
  3. 如果z有左右两颗子树,则令z的直接后继(或者直接前驱替代z),再从二叉排序树中删除这个直接后继,这样就转换成了第一或第二种情况

1.只有左子树只有左子树
2.只有右子树
在这里插入图片描述
3.左右子树都存在则选择其中序遍历的前一个结点或或一个结点替换该值,再删除替换的这个节点
在这里插入图片描述

二叉排序树的性能分析

二叉排序树的查找最差的情况与顺序查找相同,ASL=(n+1)/2,如图;最好的情况与折半查找相同,ASL可以达到对数级logn(以2为底),如图所示。最坏的情况,二叉排序树退化为链表如左图所示,查找复杂度为O(n) -> 为了避免这种情况发生才出现了平衡二叉树的相关概念。
在这里插入图片描述

平衡二叉树 AVL

为了避免树的高度增长过快,降低了二叉排序树的性能,规定在插入和删除二叉树节点的时候,要奥正任意节点的左、右子树高度差不超过1,将这样的二叉树称为平衡二叉树AVL,定义节点左子树和右子树的高度差为该节点的平衡因子,则平衡二叉树节点的平衡因子值只可能是 -1,0, 1。

参考平衡二叉树(AVL)插入、删除详解——基于树的查找(二)

平衡二叉树的插入

二叉排序树保证平衡的基本思想:每当二叉排序树中的插入或删除一个节点的时候,首先要检查其插入路径上的结点是否由此此次操作而导致了不平衡,如果导致了不平衡,则先找到插入路径上离插入节点最近的平衡因子绝对值大1的结点A,再对以A为根节点的子树,在保持二叉排序树的前提下,调整各个节点之间的位置关系,使之重新达到平衡。

注意:每次调整的对象都是最小的不平衡的子树,即在插入路径上离插入节点最近的平衡因子绝对值大于1的结点作为根的子树。

AVL失去平衡之后进行调整的4种情况

(1)LL旋转:左孩子的左子树上插入导致的不平衡

由于在节点A的左孩子B的左子树L上插入了新的节点,导致A为根的子树失去平衡,导致需要一次向右的旋转操作,将A的左孩子B向上旋转替换A称为根节点,将A节点向右下旋转成为B的右子树的根节点,而B的原右子树则成为A节点的左子树

在这里插入图片描述

(2)RR旋转:右孩子的右子树上插入节点导致不平衡
由于在节点A的右孩子B的右子树上插入了新的节点,导致以A为根的子树失去了平衡,需要一次向左的旋转操作,想A的右孩子向上旋转替换A称为根节点,将A的节点向左下旋转成为B的左子树的根节点,再将原来B左子树作为A节点的右子树。
在这里插入图片描述

(3)LR旋转:左孩子的右子树上插入节点导致不平衡
由于在A的左孩子L的右子树R上插入新的节点,导致以A为根的子树失去了平衡,需要进行两次旋转操作,先左旋再右旋,先将A节点的左孩子B的右子树Br向左上旋转提升到B节点的位置,然后再把该C节点向右上旋转提升到A节点的位置。
在这里插入图片描述
(4)RL旋转: 右孩子的左子树上插入导致失衡
由于在A的右孩子的左子树上插入了新的结点,导致A失衡,需要进行两次旋转操作,先进行右旋在进行左旋,先将A节点的右孩子B的左子树的根节点BI向右上旋转替换掉B,然后再把该BI节点向左上旋转提升到A节点的位置。
在这里插入图片描述

平衡二叉树的性能分析

由于具有n个结点的平衡二叉树的高度为O(logn),因而查找、插入、删除效率都是O(logn),而且都是从根到叶子结点单路径进行的局部运算。
Linux采用AVL描述进程的虚拟内存段。

四、 B树和B+树

参考平衡二叉树、B树、B+树、B*树 理解其中一种你就都明白了

B树及其基本操作

B树,又称为多路平衡查找树,B树中所有节点的孩子节点数的最大值为B树的阶,通常用m表示,一颗m阶B数,满足以下性质

  1. 树中每个节点至多有m颗子树
  2. 若根节点不是终端节点,则至少有两颗子树
  3. 除了根节点外的所有非叶子节点至少有[m / 2]棵子树
  4. 所有的叶点都出现在同一层上,并且不带信息(可以看成是外部节点或者类似于折半查找判定树的查找失败的节点,实际上这些节点并不存在,指向这些节点的指针为空)
    在这里插入图片描述

B树的查询流程

从上图中查询E字母,遵循的流程如下

(1)获取根节点的关键字进行比较,当前根节点关键字为M,E<M(26个字母顺序),所以往找到指向左边的子节点(二分法规则,左小右大,左边放小于当前节点值的子节点、右边放大于当前节点值的子节点);
(2)拿到关键字D和G,D<E<G 所以直接找到D和G中间的节点;
(3)拿到E和F,因为E=E 所以直接返回关键字和指针信息(如果树结构里面没有包含所要查找的节点则返回null);

B树的特性

B树相对于平衡二叉树的不同是,每个节点的关键字增多,特别是在B树应用到数据库中的时候,数据库充分运用到了磁盘块的原理(磁盘数据的存储是采用块的形式的,每个块的大小约为4k,每次IO进行读取的时候,同一个磁盘块的数据可以一次性读取出来)把节点大小限制和充分使用磁盘块打下的范围,把树的节点关键字增多后树的层级比原来的二叉树少了,减少数据查找的次数和复杂度;

B+树的基本概念

B+树时应数据库所需出现的一种B树的变形树。

B+树是B树的一个升级版,相对于B树来说B+树更充分的利用了节点的空间,让查询速度更加稳定,其速度完全接近于二分法查找。

一颗m阶的B+树需要满足下列的条件

  1. 每个分支结点最多有m棵子树
  2. 非叶根节点至少有两个子树,其他每个分支结点至少有[m / 2]棵子树
  3. 结点的子树个数与关键字个数相等
  4. 所有叶节点包含全部关键字以及指向相应记录的指针,而且叶节点中将关键字按大小排序,并且想了叶节点按大小顺序互相连接起来
  5. 所有的非叶子节点,不存储数据,只包含它的各个子节点中关键字的最大值,以及指向子节点的指针
    在这里插入图片描述

B树的特性

特点
1、B+树的层级更少:相较于B树B+每个非叶子节点存储的关键字数更多,树的层级更少所以查询数据更快;
2、B+树查询速度更稳定:B+所有关键字数据地址都存在叶子节点上,所以每次查找的次数都相同所以查询速度要比B树更稳定;
3、B+树天然具备排序功能:B+树所有的叶子节点数据构成了一个有序链表,在查询大小区间的数据时候更方便,数据紧密性很高,缓存的命中率也会比B树高。
4、B+树全节点遍历更快:B+树遍历整棵树只需要遍历所有的叶子节点即可,,而不需要像B树一样需要对每一层进行遍历,这有利于数据库做全表扫描。

B树相对于B+树的优点是,如果经常访问的数据离根节点很近,而B树的非叶子节点本身存有关键字其数据的地址,所以这种数据检索的时候会要比B+树快。

五、 红黑树

红黑树原理及插入、删除——基于树的查找(三)

未完持续…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值