文章目录
7. 树与树算法
7.1 树的概念
树(英语:tree)是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:
- 每个节点有零个或多个子节点;
- 没有父节点的节点称为根节点;
- 每一个非根节点有且只有一个父节点;
- 除了根节点外,每个子节点可以分为多个不相交的子树。
比如说:
树的术语
- 节点的度:一个节点含有的子节点的个数称为该节点的度;
- 树的度:一棵树中,最大的节点的度称为树的度;
- 叶节点或终端节点:度为零的节点;
- 父亲节点或父节点:若一个节点含有子节点,则这个节点称为其子节点的父节点;
- 孩子节点或子节点:以该节点出发向下走的相邻一级节点;
- 兄弟节点:具有相同父节点的节点互称为兄弟节点;
- 节点的层次:从根开始定义起,根为第1层,根的子节点为第2层,以此类推;
- 树的高度或深度:树中节点的最大层次;
- 堂兄弟节点:父节点在同一层的节点互为堂兄弟;
- 节点的祖先:从根到该节点所经分支上的所有节点;
- 子孙:以某节点为根的子树中任一节点都称为该节点的子孙。
- 森林:由m(m>=0)棵互不相交的树的集合称为森林。任何一棵树,删除了根结点就变成了森林。森林中的树之间没有定义关联。
树的种类
- 无序树:树中任意节点的子节点之间没有顺序关系(这里的顺序关系可以是自定义的任何顺序关系),这种树称为无序树,也称为自由树;
- 有序树:树中任意节点的子节点之间有顺序关系,这种树称为有序树;
- 二叉树:每个节点最多含有两个子树的树称为二叉树;
- 完全二叉树:对于一颗二叉树,假设其深度为d(d>1)。除了第d层外,其它各层的节点数目均已达最大值,且第d层所有节点从左向右连续地紧密排列,这样的二叉树被称为完全二叉树;
- 满二叉树:在完全二叉树的基础上,在d层,叶节点也挂满了;
- 平衡二叉树(AVL树):当且仅当任何节点的两棵子树的高度差不大于1的二叉树;
- 排序二叉树(二叉查找树(英语:Binary Search Tree),也称二叉搜索树、有序二叉树):排序二叉树的每个节点如果有子节点,左边子节点的数一定比节点的数小,右边子节点的数一定比节点的数大。在排序二叉树中去找一个数,相当于就是用二分查找的思想去找一个数;
- 霍夫曼树(用于信息编码):带权路径最短的二叉树称为哈夫曼树或最优二叉树;
注:所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。 - B树:一种对读写操作进行优化的自平衡的二叉查找树,能够保持数据有序,拥有多余两个子树。
- 二叉树:每个节点最多含有两个子树的树称为二叉树;
树的存储与表示
顺序存储:将数据结构存储在固定的数组中,虽然在遍历速度上有一定的优势,但因所占空间比较大(以下图为例,如果节点树C不存在的话,那顺序表中对应的3、6、7位置的空间就要因为空置而浪费了,链表存储则不存在这个问题),是非主流二叉树。二叉树通常以链式存储。
链式存储:扩充链接区,一个节点的链接区存储多个节点的位置信息。
由于对节点的个数无法掌握,常见树的存储表示都转换成二叉树进行处理,子节点个数最多为2。
常见的一些树的应用场景
- xml,html等,编写这些东西的解析器的时候,不可避免地会用到树;
- 路由协议就是使用了树的算法;
- mysql数据库索引;
- 文件系统的目录结构;
- 所以很多经典的AI算法其实都是树搜索,此外机器学习中的decision tree也是树结构。
7.2 二叉树
二叉树的基本概念
二叉树是每个节点最多有两个子树的树结构。两个子树通常被称作“左子树”(left subtree)和“右子树”(right subtree)
二叉树的性质(特性)
性质1:在二叉树的第i层上至多有2^(i-1)个结点(i>0);
性质2:深度为k的二叉树至多有2^k - 1个结点(k>0);
性质3:对于任意一棵二叉树,如果其叶结点数为N0,而度数为2的结点总数为N2,则N0=N2+1;
性质4:具有n个结点的完全二叉树的深度必为[
l
o
g
2
n
log_2n
log2n]+1;(符号[]表示取整)
性质5:对完全二叉树,若从上至下、从左至右编号,则编号为i 的结点,其左孩子编号必为2i,其右孩子编号必为2i+1;兄弟节点的父节点的编号必为i/2(i=1 时为根,除外)。
me注:
性质4的证明:
用数学归纳法证明“具有n个结点的完全二叉树的深度为[
l
o
g
2
n
log_2n
log2n]+1”:
当n=1=2^1-1时,命题成立。
假设当2(k-1)-1<n<=2k-1(k是>=2的正整数)时,具有n个结点的完全二叉树的深度为k-1=[
l
o
g
2
n
log_2n
log2n]+1,
则当n=2k(以及2k+1,…,2(k+1)-1),即2k-1<n<=2^(k+1)-1时,由归纳假设知:
前2^k-1个结点构成深度为k-1=[
l
o
g
2
n
log_2n
log2n]+1的树;
再由完全二叉树的定义知:
剩余的1(或2,…,2^k)个结点均填在第k=([
l
o
g
2
n
log_2n
log2n]+1)+1 = 层上(作为“叶子”),深度刚好增加了1,故当2k-1<n<=2(k+1)-1时,命题也成立。
综上,可知n为>=1的任意正整数时,命题都成立。(验算可知,n=0=2^0-1时,命题也成立。)
(1)完全二叉树:若设二叉树的高度为h,除第 h 层外,其它各层 (1~h-1层) 的结点数都达到最大个数,第h层有叶子结点,并且叶子结点都是从左到右依次排布,这就是完全二叉树。
(2)满二叉树:除了叶结点外,每一个结点都有左右子叶,且叶子结点都处在最底层的二叉树。
代码:二叉树的节点表示以及完全二叉树的创建
通过使用Node类中定义三个属性,分别为elem本身的值,还有lchild左孩子和rchild右孩子
class Node(object):
"""节点类"""
def __init__(self, elem=-1, lchild=None, rchild=None):
self.elem = elem
self.lchild = lchild
self.rchild = rchild
树的创建,创建一个树的类,并给一个root根节点,一开始为空,随后添加节点
class Tree(object):
"""树类"""
def __init__(self, root=None):
self.root = root
def add(self, elem):
"""为树添加节点"""
node = Node(elem) # 要添加节点,就要先创建一个节点对象
# 如果树是空的,则对根节点赋值
if self.root is None:
self.root = node
else:
queue = list() # 通过队列的方式来遍历查找,里面存放的就是我们需要搞清楚状况的节点
queue.append(self.root) # 首先要考察根节点的情况
# 对已有的节点进行层次遍历
while queue: # 只要队列不为空(逻辑上队列是不可能空掉的),同时循环内的代码没有发现空位置把新增的node放过去,就会继续研究下一个队列头部的节点的情况
# 弹出队列的第一个元素
cur = queue.pop(0) # cur = current,表示当前处理的节点;应该弹出队列头部的元素做研究
# 看看这个节点的左孩子节点的位置是不是空的,是空的就把新增的节点放在这里
if cur.lchild is None:
cur.lchild = node
return
elif cur.rchild is None:
cur.rchild = node
return
else:
# 如果左右子树都不为空,加入队列继续判断
queue.append(cur.lchild)
queue.append(cur.rchild)
ps:关于判断,列表中有值时判断为True;列表中没有值时可以判断为False也可以用这种方式理解:
>>> bool([])
False
>>> bool([None])
True
7.3 二叉树的遍历
树的遍历是树的一种重要的运算。所谓遍历是指对树中所有结点的信息的访问,即依次对树中每个结点访问一次且仅访问一次,我们把这种对所有节点的访问称为遍历(traversal 美 /trəˈvərs(ə)l/)。那么树的两种重要的遍历模式是深度优先遍历和广度优先遍历,深度优先一般用递归,广度优先一般用队列。一般情况下能用递归实现的算法大部分也能用堆栈来实现。
深度优先遍历
对于一颗二叉树,深度优先搜索(Depth First Search)是沿着树的深度遍历树的节点,尽可能深的搜索树的分支。那么深度遍历有重要的三种方法。这三种方式常被用于访问树的节点,它们之间的不同在于访问每个节点的次序不同。这三种遍历分别叫做先序遍历(preorder),中序遍历(inorder)和后序遍历(postorder)。我们来给出它们的详细定义,然后举例看看它们的应用。
先序遍厉
在先序遍历中,我们先访问根节点,然后递归使用先序遍历访问左子树,再递归使用先序遍历访问右子树。
根节点->左子树->右子树
def preorder(self, node):
"""递归实现先序遍历"""
if node is None:
return
print(node.elem, end=' ')
self.preorder(node.lchild)
self.preorder(node.rchild)
ps:递归函数写起来真是相当简单,只是说栈内存消耗大,计算量小、调用次数少的时候还是可以考虑下。
中序遍历
在中序遍历中,我们递归使用中序遍历访问左子树,然后访问根节点,最后再递归使用中序遍历访问右子树。
左子树->根节点->右子树
def inorder(self, node):
"""递归实现中序遍历"""
if node is None:
return
self.inorder(node.lchild)
print(node.elem, end=' ')
self.inorder(node.rchild)
后序遍历
在后序遍历中,我们先递归使用后序遍历访问左子树和右子树,最后访问根节点。
左子树->右子树->根节点
def postorder(self, node):
"""递归实现后续遍历"""
if node is None:
return
self.postorder(node.lchild)
self.postorder(node.rchild)
print(node.elem, end=' ')
课堂练习: 按照如图树的结构写出三种遍历的顺序
我的解答:
层次遍历:A B F C G D E H
先序遍历:A B C D E F G H
中序遍历:B D C E A F H G
后序遍历:D E C B H G F A
对照答案无误。
我的心得:
方法1 根据代码理解去排列遍历顺序;
方法2 根据代码代表的逻辑顺序来判断数序:
- 层次遍历:一层一层地从左到右依次遍历,从上到下;
- 先序遍历:从根节点开始,从左边的分支到右边的分支,从上到下遍历;
巧记法:根、左、右,每判断一个叉,都循环按照这个顺序去排遍历顺序。 - 中序遍历:从左往右遍历,越靠左的分支越先被遍历。根节点是在中间顺序被遍历到;
巧记法:左、根、右,每判断一个叉,都循环按照这个顺序去排遍历顺序。 - 后序遍历:从做左分支到右分支,从底层往上层遍历,根节点是最后被遍历到。
巧记法:左、右、根,每判断一个叉,都循环按照这个顺序去排遍历顺序。
思考:我知道上面的三种遍历中的哪两种遍历结果,就能够反向推到出唯一的二叉树?
我的解答:暂时没想到怎么做。
老师讲解:
关键点:中序遍历的根把左树和右树分开了,那不知道中序遍历的结果的话,根的左数和右树就没法分开了。所以这里推出唯一的二叉树的条件,一定要知道中序遍历的结果,另外一个是前序遍历或者后序遍历。
具体操作思路:
①首先通过先/后序遍历的结果可以知道二叉树根的值;
②然后就在中序遍历的结果中找到二叉树根的位置,就可以把根左子树和右子树的遍历结果分开;
③在先/后序遍历的结果中找到左子树/右子树的结果,根据这个结果就可以确定左子树/右子树的根节点;
④依照上面的规律循环递推下去,就可以推出整个二叉树。
广度优先遍历(层次遍历)
从树的root开始,从上到下从从左到右遍历整个树的节点
def breadth_travel(self):
"""利用队列实现树的层次遍历"""
if self.root is None:
return
queue = list()
queue.append(self.root)
while queue:
cur_node = queue.pop(0)
print(cur_node.elem, end=' ')
if cur_node.lchild is not None:
queue.append(cur_node.lchild)
if cur_node.rchild is not None:
queue.append(cur_node.rchild)