数据结构之树

        树是n(n≥0)个结点的有限集。n=0时称为空树。在任意一棵非空树中,有且仅有一个特定的称为根(root)的结点;当n>1时,其余结点可分为m(m>0)个互不相交的有限集T1、T2、......、Tm,其中每一个集合本身又是一棵树,并且称为根的子树。如下图所示,子树T1和子树T2就是根结点A的子树。同样,如果再细分下去,D、G、H、I组成的数就是根结点为B的树的子树,E、J组成的树是根结点为C的树的子树。

     

        对于树的定义,需要注意的是:(1)n>0时根结点是唯一的,不可能存在多个根结点,数据结构中的树是只能有一个根结点的;(2)m>0时,子树的个数没有限制,但它们一定要互不相交。

结点分类:

        树的结点包含一个数据元素及若干指向其子树的分支。结点拥有的子树的个数称为结点的度。度为0的结点称为叶结点或终端结点;度不为0的结点称为非终端结点或分支结点。除根结点外,分支结点也称为内部结点。树的度是树内各结点的度的最大值。以上图的树为例,结点A为根结点,其度为2,F、G、H、I、J结点为叶结点,其度为0,结点B、C、E度为1,结点D的度为3,结点C的度为2。因为树的度是树内各结点的度的最大值,所以该树的度为3。

结点间的关系:

        结点的子树的根称为该结点的孩子,相应地,该结点称为孩子的双亲。结点A的孩子为B、C。同一个双亲的孩子之间互称兄弟。结点的祖先是从根到该结点所经分支上的所有结点。对于结点H来说,D、B、A都是其祖先。同时,以某结点为根的子树中的任一结点都称为该结点的子孙。B结点的子孙有D、G、H、I。

关于树的其他概念:

        结点的层次从根开始定义起,根为第一层,根的孩子为第二层。树中结点的最大层次称为树的深度或高度。若某结点在第i层,则其子树的根就在第i+1层。其双亲在同一层的结点互为堂兄弟。也就是说,D、E、F是堂兄弟,G、H、I、F也是堂兄弟。如果将树中结点的各子树看成是从左到右是有次序的,即不能互换的,则称该树为有序数,否则为无序树。

线性结构与树结构的比较:

线性结构树结构
第一个数据元素无前驱根结点是唯一的,无双亲
最后一个数据元素无后继叶结点可以有多个,无孩子
中间元素都有一个前驱一个后继中间结点有一个双亲多个孩子

树的存储结构:由于树是一对多的结构,所以显然不能与其他线性结构相提并论。因为树的某个结点的孩子会有多个,所以无论采取哪种顺序来将树中的结点存到数组中,那么结点的位置则不能直接反映树的逻辑关系,即无法清楚地知道谁是谁的双亲,谁又是谁的孩子。所以简单的顺序存储结构不能满足树的存储要求。但是,如果能够充分结合顺序存储和链式存储的特点,那么就完全可以实现对树的表示。即采用如下三种方法:

1、双亲表示法:由于树的结构的特殊性,除根结点外,其余每个结点不一定有孩子结点,但一定有双亲结点,并且有且只有一个双亲结点。于是,以此为突破口,便有了双亲表示法的出现。即假设以一组连续空间存储树的结点,在每个结点中,附设一个标志来指示其双亲结点到链表中的位置。通俗来讲就是每个结点除了记录自己本身的信息之外还得记录其双亲的位置。用图表示就是:

 其中,data为数据域,存储该结点本身的数据信息;parent是指针域,存储该结点的双亲在数组中的下标。

由于根结点是没有双亲的,所以规定根结点的位置域设置为-1。则以文章开始的那棵树为例,其采用双亲表示法存储的话,可表示为:

下标dataparent
0A-1
1B0
2C0
3D1
4E2
5F2
6G3
7H3
8I3
9J4

这样的存储结构我们很容易根据结点的parent指针来找到该结点的双亲结点,时间复杂度为O(1),直到parent=-1时,表示找到了树的根结点。但是,这样的存储结构存在一个缺陷,即如果要知道结点的孩子的话需要遍历整个结构。稍微改进一下,增加一个结点最左边孩子的域,称为长子域,这样就很容易得到结点的孩子。如果该结点没有孩子,则就设置长子域为-1。那么,上表所表示的结构又可改进为:

下标dataparentfirstchild
0A-1-1
1B03
2C04
3D16
4E29
5F2-1
6G3-1
7H3-1
8I3-1
9J4-1

上表便是改进后的双亲表示法,对于有0个或1个孩子的结点来说,这样的结构巧妙地解决了要找结点孩子的问题,如果某结点有2个孩子,只要知道了长子是谁,另一个不就自然是次子了。有3个孩子的结点,只要知道了长子,其他的都是次子。如果我们需要知道各个结点间是否有兄弟关系,则可继续对此方法进行改进,即增加一个右兄弟域来体现兄弟关系,也就是说,每一个结点如果它存在兄弟,则记录下右兄弟的下标,如果某结点右兄弟不存在,则赋值为-1。

下标dataparentrightslib
0A-1-1
1B02
2C0-1
3D1-1
4E25
5F2-1
6G37
7H38
8I3-1
9J4

-1

如上表所示,以结点D为例,其有3个孩子,G、H、I,其中G的右兄弟为下标为7的结点,即H,而H的右兄弟为下标为8的结点,即I,而I的右兄弟为什么不是J呢?是因为J是I的堂兄弟,而非兄弟。

2.孩子表示法:由于树中每个结点可能有多棵子树,可以考虑用多重链表,即每个结点有多个指针域,其中每个指针指向一棵子树的根结点,我们把这种方法叫做多重链表表示法。但是,树的每个结点的度是不同的,也就是说它的孩子个数是不同的。所以,可设计两种方案来解决。

方案一:指针域的个数就等于树的度。还是以最开始那棵树来讲,树的度为0,所以指针域的个数设置为3。即

data为数据域,child1到childn为指针域,用来指向该结点的孩子结点。

很明显,这种方法对于树中各结点的度相差很大时,非常浪费空间,因为很多结点是没有孩子结点的,也就是说它的指针域是空的。不过,如果树中的各结点的度相差很小时,这种结构便很好的利用了所开辟的空间。为了避免大量的空间被浪费的情况,采取按需分配空间的方法,于是便有了第二种方案:每个结点指针域的个数等于该结点的度,需要专门取一个位置来存储结点指针域的个数,即

其中data为数据域,degree为度域,存储的是该结点的孩子结点的个数,child1到childn为指针域,指向该结点的各个孩子的结点。

此方法克服了浪费空间的缺点,提高了空间的利用率,但是由于各个结点的链表是不相同的结构,在运算上就会带来时间的损耗。如果纪要减少空指针的浪费又能使结点结构相同该怎么处理呢?为了要遍历整棵树,把每个结点放到顺序存储结构的数据中是合理的,但是每个结点的孩子的数目是不确定的,所以我们再对每个结点的孩子建立一个单链表来体现它们的关系。此即孩子表示法,具体方法是:把每个结点的孩子结点排列起来,以单链表作存储结构,则n个结点有n个孩子链表,如果是叶子结点则此单链表为空。然后n个头指针又组成一个线性表,采用顺序存储结构,存放进一个一维数组中。

为此,需要设计两种结点结构,一个是孩子链表的孩子结点(左图),另一个是表头数组的表头结点(右图)。

           

其中,child是数据域,用来存储某个结点在表头数组中的下标。next是指针域,用来存储指向某结点的下一个孩子结点的指针。data是数据域,存储某结点的数据信息,firstchild是头指针域,存储该结点的孩子链表的头指针。

这样的话如果我们要查找某个结点的某个孩子,后者找某个结点的兄弟,只需要查找这个结点的孩子单链表即可。对于遍历整棵树也是很方便的,对头结点的数组循环即可。但是,我们要查找某个结点的双亲是谁的时候该怎么办呢?此时就需要遍历整棵树才行,如果我们能够把双亲表示法和孩子表示法综合一下不就简单点了嘛,此方法称为双亲孩子表示法。

3.孩子兄弟表示法:任意一棵树,它的结点的第一个孩子如果存在就是唯一的,它的右兄弟如果存在也是唯一的。因此,我们需设置两个指针,分别指向该结点的第一个孩子和此结点的右兄弟。

其中,data为数据域,firstchild为指针域,存储结点的第一个孩子结点的存储地址,rightsib是指针域,存储结点的右兄弟结点的存储地址。

这种表示法给查找某个结点的某个孩子带来了方便,只需要通过firstchild找到此结点的长子,然后再通过rightsib找到它的兄弟,接着一直下去,便可以找到具体的某个孩子。但是却很难找到某个结点的双亲,所以,可以再增加一个parent指针域来解决快速查找双亲的问题。于是,变形之后的图示就变成了这样:

以上即是树的相关定义和三种顺序存储方法的描述~~

文章中的图片均来自程杰先生所著的《大话数据结构》一书,在此表示感谢!

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值