树的定义
之前我们一直在谈是一对一的线性结构,可现实中,还有很多一对多的情况需要处理,所以我们需要研究这种一对多的数据结构------“树”,考虑它的各种特性,来解决我们在编程中碰到的相差问题。
树是n个结点的有限集。n=0时称为空树。在任意一棵非空树中:(1)有且仅有一个特定的称为根的结点;(2)当n>1时其余结点可分为m(m>0)个互不相交的有限集T1、T2、……、Tm,其中每一个集合本身又是一棵树,并且称为根的子树。
强调:
n>0时根结点是唯一的,不可能存在多个根结点,
m>0时,子树的个数没有限制,但它们一定是互不相交的。
结点分类
树的结点包含一个数据元素,及若干指向其子树的分支。结点拥有的子树称为结点的度(Degree)。度为0的结点称为叶结点(Leaf)或终端结点;度不为0的结点称为非终端结点或分支结点。除根结点之外,分支结点也称为内部结点。树的度是树内各结点的度的最大值。
下例树的度是D结点的度所为是3
树的其他相关概念
结点的层次(Level)从根开始定义起,根为第一层,根的孩子为第二层。若某结点在第L层,则其子树的根就在第L+1层。双亲在同一层的结点互为堂兄弟。
树中结点的最大层次称为树的深度(Depth)或高度。
如果将树中结点的各子树看成从左至右的次序的,不能互换的,则称该树为序树,否则称为无序树。
森林(Forest)是m(m 0)棵互不相交的树的集合。
线性结构 | 树结构 |
第一个元素无前驱 最后一个元素无后继 中间元素:一个前驱一个后继 | 根结点:无双亲,唯一 叶结点:无孩子,可以是多个 中间结点,一个双亲多个孩子 |
树的抽象数据类型
相对于线性结构,树的操作完全不同了,下面定义了一些基本和常用的操作
ADT 树(tree)
Data
树是由一个根结点和若干棵子树构成,树中结点具有相同数据类型及层次关系。
Operation
InitTree(*T):构造空树T
DestroyTree(*T):销毁树T
CreateTree(*T,definition):按definition中给出树的定义来构造树
ClearTree(*T):若树T存在,则将树T清为空树
TreeEmpty(T):若树T为空,返回true,否则返回false
TreeDepth(T):返回树的深度
Root(T):返回T的根结点
Value(T,cur_e):cur_e是树T中一个结点,返回此结点的值
Assign(T,cur_e,value):给树T结点cur_e赋值为value
Parent(T,cur_e,):若cur_e是树T的非根结点,则返回它的双亲,否则返回空
LeftChild(T,cur_e):若cur_e是树T的非叶子结点,则返回它的左孩子,否则返回空
RightSibling(T,cur_e):若cur_e有兄弟,则返回它的右兄弟,否则返回空
InsertChild(*T,*p,i,c):其中p指向树T的某个结点,i不所批结点p的度加上1,非空树c与T不相交,操作结果为插入c为树T中p指结点的第i棵子树。
DeleteChild(*T,*p,i):其中p指向树T的某个结点,i为所指结点p的度,操作结果为删除T中p所指结点的第i棵子树。
endADT
树的存储结构
双亲表示法
假设以一组连续空间存储树的结点,同时在每个结点中,附设一个指示器指示其双亲结点在数组中位置。即每个结点除了知道自己是谁以外,还要知道它的双亲在哪里。它的结点结构表示为
data | parent |
其中data是数据域,存储结点的数据信息。而parent是指针域,存储该结点的双亲的数组下标。
双亲表示法的代码结构:
/*双亲表示法的结点结构定义*/
#define MAX_TREE_SIZE 100
typedef int TElemType;
typedef struct PTNode /*结点结构*/
{
TElemType data;
int parent;
}PTNode
typedef struct
{
PTNode nodes[MAX_TREE_SIZE]; //结点数
int r,n;
}PTtee
这样的结构定义,我们就可以来实现双亲表示法了。由于根结点是没有双亲的,所以我们约定根结点的位置域设置为-1,这也就意味着,我们所有的结点都存有它双亲的位置。
这样的存储结构,我们可以根据结点的parent指针很容易找到它的双亲结点,所用的时间复杂度为O(1),直到parent为-1时,表示找到树结点的根。可如果我们要知道结点的孩子是什么,对不起,请遍历整个结构才行。
孩子表示法
换一种完全不同的考虑方法。由于树中每个结点可能有多棵子树,可以考虑用多重链表,即每个结点有多个指针域,其中每个指针指向一棵子树的根结点,我们把这种方法叫做多重链表表示法。
不过树的每个结点的度,也就是它的孩子的个数是不同的。所以有两个方案解决:
方案一:
指针域的个数就等于树的度。
其中data是数据域。child1到childd是指针域,用来指向该结点的孩子结点。
这样显然是浪费空间,因为很多的结点,它的指针域都是空的。不过如果树的各结点度相差很小时,那就意味着开辟的空间被充分利用了,这时存储结构的缺点反而变成了优点。
方案二:
每个结点指针域的个数等于该结点的度,我们专门取一个位置来存储结点指针域的个数。
仔细观察,我们为了要遍历整棵树,把每个结点放到一个顺序存储结构的数组中是很合理的,但每个结点的孩子有多少是不确定的,所以我们再对每个结点的孩子建立一个单链表体现它们的关系。
这就是我们讲的孩子表示法。
把每个结点的孩子结点排列起来,以单链表作存储结构,则n个结点有n个孩子链表,如果是叶子结点则此单链表为空。然后n个头指针又组成一个线性表,采用顺序存储结构,存放进一个一维数组中。
为此,设计两种结点结构,一个是孩子链表结点
child | next |
其中child是数据域,用来存储某个结点在表头数组中的下标。next是指针域,用来存储指向某结点的下一个孩子结点的指针。
另一个是表头数组的表头结点,如下:
data | firstchild |
其中data数据域,存储某结点的数据信息,firstchild是头指针域,存储该结点的孩子链表的头指针。
代码如下:
#define MAX_TREE_SIZE 100;
typedef struct CTNode /*孩子结点*/
{
int child;
struct CTNode *next;
}*ChildPtr;
typedef struct /*表头结构*/
{
TElemType data;
ChildPtr firstchild;
}CTBox;
//树结构
typedef struct
{
CTBox nodes[MAX_TREE_SIZE];
int r,n;
}CTree;
这样的结构对于我们要查找某个结点的某个孩子,或者某个结点的兄弟,只要查找这个结点的孩子单链表即可。对于遍历整棵树也是很方便的,对头结点的数组循环即可。但如果查找双亲?
因此我们可以结合双亲表示法如下:
孩子兄弟表示法
刚才我们分别从双亲的角度和从孩子的角度研究树的存储结构,如果我们从树的结点的兄弟的角度考虑又会如何呢?当然,对于树这样的层级结构来说,只研究结点的兄弟是不行的。我们观察发现,任意一棵树,它的结点的第一个孩子如果存在就是唯一的。它的右兄弟存在也是唯一的。因此我们设置两个指针,分别指向该结点的第一个孩子和此结点的右兄弟。
data | firstchild | rightsib |
typedef struct CSNode
{
TElemType data;
struct CSNode *firstchild,*rightsib;
}CSNode,*CSTree;
这种表示法,给查找某个结点的某个孩子带来了方便,只需要通过firstchild找到此结点的长子,然后再通过长子结点的找它的二弟,接着一直下去,直到找到具体的孩子。当然,如果想找某个结点的双亲,那就加一个parent指针域来解决快速查找双亲的问题。