数据结构入门5-2（树和二叉树）

w_pab

已于 2023-05-04 15:52:12 修改

阅读量577

点赞数 1

分类专栏：数据结构文章标签：数据结构

于 2023-02-26 16:58:30 首次发布

本文链接：https://blog.csdn.net/w_pab/article/details/128610545

版权

数据结构专栏收录该内容

13 篇文章 5 订阅

订阅专栏

注：

本笔记参考：《数据结构（C语言版）》

接下来是树的表示、遍历操作及树林与二叉树之间的对应关系。

树的存储结构

1. 双亲表示法

用一组连续的存储单元存储树的结点，每个结点包括两个域：

例如：

优点：求结点的双亲和树的根会十分方便；
缺点：求结点的孩子时需要遍历整个结构。

------

2. 孩子表示法

由于每个结点可以有多棵子树，所以每个结点可以有多个指针域，每个指针域分别指向其中一棵子树的根结点：

除此之外，还有一种存储结构：在这种存储结构中，由孩子结点组成了一个个线性表，并且把这些链表的头结点再组成一个线性表。

【例如】

而如果把双亲表示法和孩子表示法结合起来，就会得到又一种存储结构：

------

3. 重要：孩子兄弟法（二叉树表示法）

即将二叉链表作为树的存储结构，这种链表有两个链域：

typedef struct CSNode {
	ElemType data;
	CSNode* firstchild, * nextsibling;
}CSNode, *CSTree;

这种存储结构便于各种关于树的操作，譬如访问孩子节点：只需交替寻找 firstchild域和 nextsibling域即可。

而如果要方便寻找双亲结点，仅需在结构上多设置一个 parent域即可。

如上图所示，这种存储结构与二叉链表完全一致，可以通过这种结构，将一般的树转换成二叉树进行处理。因此，孩子兄弟表示法的运用较为普遍。

森林与二叉树的转换

由上述的孩子兄弟表示法可知，任何一棵和树对应的二叉树，其根结点的右子树必空。例如：

通过上述的例子，就可以揭示森林与二叉树之间的转换规律。

现在假设：

因为空树就是空二叉树，所以这种情况不做说明。

1. 森林转换为二叉树

2. 二叉树转换为森林

上述所描述的转换方式都可以通过递归实现。

树和森林的遍历

1. 树的遍历

与二叉树不同，树的遍历只有两种方式：

先根（次序）遍历：优先访问树的根结点，然后依此访问子树；
后根（次序）遍历：先后根遍历子树，再访问对应根结点。

【例如】

2. 森林的遍历

||| 森林和树之间是可以进行相互递归的。

遍历的一个前提：森林非空。

（1）先序遍历规则：

访问森林中第一棵树的根结点；
先序访问第一棵树的根结点的子树森林；
先序遍历由剩余的树构成的森林。

（2）中序遍历规则：

中序遍历森林中第一棵树的根结点的子树森林；
访问第一棵树的根结点；
中序遍历由剩余的树构成的森林。

【例如】

注：此处森林的先序和中序遍历，分别与对应二叉树的先序和中序遍历相对。

哈夫曼树及其应用

基本概念

||| 哈夫曼树（即最优二叉树）：是一类带权路径长度最短的二叉树。

以下是一些会用到的概念：

概念	定义
路径	从树中的一个结点到另一个结点之间的分支构成两结点之间的路径
路径长度	即路径上的分支数目
树的路径长度	从树根到每一结点的路径长度之和
权	赋予某个实体的一个量（是对实体的某个或某些属性的数值化描述）
结点的带权路径长度	= 该结点到树根之间的路径长度 × 结点上的权
树的带权路径长度（WSL） $WSL=\sum_{k=1}^{n}w_{k}l_{k}$	= 树中所有叶子结点的带权路径长度之和

【例如】

有4个叶子结点a、b、c、d，分别带权7、5、2、4，这4个叶子结点存在于不同的二叉树上：

可以验证，下面的这棵树的带权路径长度恰好是最小的（或者说，在所有带权为7、5、2、4的4个叶子结点的二叉树中其值最小），它就是哈夫曼树。

由上述例子可以看出：在哈夫曼树中，权值越大的结点离根结点越近。

哈夫曼树的构造算法

1. 构造过程

2. 算法实现

由上述构造可知，哈夫曼树中不存在度为1的结点。故若哈夫曼树存在n个叶子结点，则其总结点数一定是2n - 1。

哈夫曼树的结点存储结构：

若将上述的存储结构转换为代码，就是：

typedef struct
{
	int weight;					//结点的权值
	int parent, lchild, rchild;	//结点的双亲、左孩子和右孩子的下标
}HTNode, *HuffmanTree;

注意：和以往的链式存储不同，此次是通过动态分配的方式对哈夫曼树进行存储。

在具体的实现中，为了方便，往往会将下标为0的单元置空，所以开辟的数组大小将会是2n。对存储内容进行分类：

前1~n个单元：存储叶子结点；
后n - 1个单元：存储非叶子结点。

【参考代码：构造哈夫曼树】

void CreateHuffmanTree(HuffmanTree& HT, int n)
{
	//---初始化开始---
	if (n <= 1)
		return;

	int m = 2 * n - 1;
	HT = new HTNode[m + 1];				//规定：HT[m]表示根结点
	for (int i = 1; i <= m; i++)
	{									//处理 1 至 m 个单元（初始化）
		HT[i].parent = 0;
		HT[i].lchild = 0;
		HT[i].rchild = 0;
	}
	for (int i = 1; i <= n; i++)
	{									//输入叶子结点的权值（即前n个结点）
		cin >> HT[i].weight;
	}

	//---初始化完毕，开始创建哈夫曼树---
	for (int i = n + 1; i <= m; i++)
	{									//进行n-1次的构造操作
		int s1 = 0;
		int s2 = 0;
		SelectLeaves(HT, i - 1, s1, s2);//挑选目标结点
		HT[s1].parent = i;				//更改双亲域（相当于删除s1和s2，得到了新结点i）
		HT[s2].parent = i;

		HT[i].lchild = s1;				//将s1和s2作为i的孩子
		HT[i].rchild = s2;

		HT[i].weight = HT[s1].weight + HT[s2].weight;
	}
}

其中，函数SelectLeaves的参考如下（仅供参考）：

//挑选要求：
//1. 双亲域为0；
//2. 权值最小。
void SelectLeaves(HuffmanTree HT, int i, int& s1, int& s2)
{
	int left = 1;
	int right = i;
	while (left < right)
	{
		if (HT[left].parent == 0 && HT[right].parent == 0)
		{
			if (HT[left].weight <= HT[right].weight)
				right--;
			else
				left++;
		}
		else if (HT[left].parent != 0)
			left++;
		else
			right--;
	}
	s1 = left;
	HT[s1].parent = 1;

	left = 1;
	right = i;
	while (left < right)
	{
		if (HT[left].parent == 0 && HT[right].parent == 0)
		{
			if (HT[left].weight <= HT[right].weight)
				right--;
			else
				left++;
		}
		else if (HT[left].parent != 0)
			left++;
		else
			right--;
	}
	s2 = left;
}

哈夫曼编码

为了对数据文件进行尽可能的压缩，有人提出了不定长编码的概念：为出现次数较多的字符编以较短的代码。而通过哈夫曼树设计的二进制编码，就可以满足这一需求。

在上图中，约定：

左分支标记为0；
右分支标记为1。

由此，根结点到每个叶子结点的路径上的0、1序列就构成了相应字符的编码。这种由各分支的赋值构成的二进制串，就是哈夫曼编码。

前缀编码的概念（提及）：若在一个编码方案中，任一编码都不是其他任何编码的前缀（最左子串），则称该编码为前缀编码。譬如：

前缀编码： 0, 10, 110, 111

非前缀编码：0, 01, 010, 111

哈夫曼编码的两个性质：

哈夫曼编码是前缀编码（因为路径的不同）；
哈夫曼编码是最优前缀编码：对于包含n个字符的数据文件，分别以字符的出现次数为权值构造哈夫曼树，再用该树对应的哈夫曼编码压缩文件，可使文件压缩后对应的二进制文件长度最短。

算法实现

主要思想：

从叶子出发，向上回溯至根结点。
回溯时，走左分支则生成代码0。
回溯时，走右分支则生成代码1。

使用一个指针数组作为哈夫曼编码表，存放每个字符编码串的首地址（依旧是从1号单元开始使用）：

typedef char** HuffmanCode;		//通过动态分配数组存储哈夫曼表

在动态开辟数组时，会发现：由于当前并不清楚每个字符编码的长度，所以不能为每个字符分配合适的存储空间。为了解决这个麻烦，通常会动态分配一个长度为n的一维数组作为临时的存储。

注意：由于求解编码的过程是向上回溯的，所以对于每个字符，得到的编码顺序是从右往左的。因此，在将编码往临时的一维数组cd内存储时，顺序也是从后向前的（即字符的第一个编码应该存储到 cd[n - 2] 中，以此类推）。

【参考代码】

void CreateHuffmanCode(HuffmanTree HT, HuffmanCode& HC, int n)
{//将从叶子到根结点回溯求得的每个字符的哈夫曼编码，存储到编码表HC中
	HC = new char* [n + 1];				//分配存储n个字符编码的编码表空间
	char* cd = new char[n];				//分配临时存放每个字符编码的动态存储空间

	cd[n - 1] = '\0';					//编码结束符
	for (int i = 1; i <= n; i++)		//逐字符求编码
	{
		int start = n - 1;				//从后往前写入
		int c = i;						//从每个叶子结点开始
		int f = HT[i].parent;
		while (f != 0)					//直到回到根结点为止
		{
			--start;
			if (HT[f].lchild == c)		//左、右分支对应不同的代码
				cd[start] = '0';
			else
				cd[start] = '1';

			c = f;						//继续回溯
			f = HT[f].parent;
		}
		HC[i] = new char[n - start];	//分配空间
		strcpy(HC[i], &cd[start]);		//将求得的编码复制到HC中
	}
	delete[] cd;
}

【例子】

设在一系统通信内只可能出现8种字符，出现概率分别为0.05，0.29，0.07，0.08，0.14，0.23，0.03，0.11。

为设计哈夫曼编码，将概率作为对应字符的权值，得到：w = (5, 29, 7, 8, 14, 23, 3, 11)。其对应的哈夫曼表为：

文件的编码和译码

在完成字符集的哈夫曼编码表后，就可以进行编码和译码的操作。

对数据文件进行编码的过程是：

依此读入文件中的字符；
在哈夫曼编码表HC中找到此字符；
将对应字符转换为编码表中存放的编码串。

对编码后的文件进行译码的过程是：

依此读入文件中的二进制码；
从哈夫曼树的根结点（即HT[m]）出发，读入0，则进左孩子；读入1，则进右孩子。一旦到达某一叶子HT[i]，则译出相应的字符编码HC[i];
循环上述步骤，直到文件结束。

二叉树的运用 - 利用二叉树求解表达式

对于任一算术表达式，都可以使用二叉树进行表示。而当对应二叉树创建完毕时，就可以利用对于二叉树的操作，进行表达式的求值运算。

中缀表达式树的创建

假设：运算符均为双目运算符。

由于创建的表达式树需要准确表达运算的次序，所以需要考虑各个运算符之间的优先级。为此，可以借助一个运算符栈，来存储未处理的运算符。

由两个操作数与一个运算符即可建立一棵表达式二叉树，而该二叉树又可以是另一棵树的子树。可以结组一个表达式树栈，以此来暂存已建立好的树。

【参考代码】

假设每个表达式的开头和结尾均为“#”。

两个工作栈：

OPTR，用来暂存运算符。
EXPT，用来暂存已建立好的表达式树的根结点。

【参考代码】

BiTree InitExpTree()
{
	SqStack EXPT;
	LinkStack OPTR;
	InitStack(EXPT);	//初始化栈
	InitLinkStack(OPTR);
	LinkPush(OPTR, '#');		//将表达式起始符‘#’压入栈顶

	char ch = 0;
	cin >> ch;

	while (ch != '#' || LinkGetTop(OPTR) != '#')	//表达式未扫描完毕 || OPTR栈顶元素不是‘#’
	{
		if (!In(ch))	//ch不是运算符
		{
			BiTree T = new BiTNode;
			CreateExpTree(T, NULL, NULL, ch);	//以ch为根创建一棵只有根结点的二叉树
			Push(EXPT, T);					//将二叉树根结点T压入EXPT栈内
			cin >> ch;
		}
		else
		{
			switch (Precede(LinkGetTop(OPTR), ch))	//比较二者的优先级
			{
			case '<':
			{
				LinkPush(OPTR, ch);					//当前字符入栈
				cin >> ch;
				break;
			}
			case '>':
			{
				char theta = 0;
				BiTree T = new BiTNode;
				BiTree a = new BiTNode;
				BiTree b = new BiTNode;
				LinkPop(OPTR, theta);				//弹出OPTR栈顶的运算符
				Pop(EXPT, b);				//弹出EXPT栈顶的两个运算数
				Pop(EXPT, a);
				CreateExpTree(T, a, b, theta);	//创建新的子树
				Push(EXPT, T);
				break;
			}
			case '=':							//仅当：OPTR栈顶元素是'('，字符ch是')'
			{
				char x = 0;
				LinkPop(OPTR, x);
				cin >> ch;
				break;
			}
			}
		}
	}
	BiTree T = new BiTNode;
	Pop(EXPT, T);
	return T;
}

由于字符的限制，上述算法只能进行10以内的运算。

【算法分析】

时间复杂度：遍历表达式中的每个字符，故时间复杂度为O(n)；
空间复杂度：算法运行时所占用的辅助空间主要有OPTR栈和EXPT栈，它们的大小之和不会超过n，故空间复杂度为O(n)。

中缀表达式树的求值

【参考代码】

int EvaluateExpTree(BiTree T)
{
	int lvalue = 0, rvalue = 0;			///初始值均为0
	if (T->rchild == NULL && T->lchild == NULL)
		return T->data - '0';			//若当前结点为操作数，则返回该结点的对应数值
	else								//若结点为操作符
	{
		lvalue = EvaluateExpTree(T->lchild);
		rvalue = EvaluateExpTree(T->rchild);
		return GetValue(T->data, lvalue, rvalue);	//对取得的两个操作数进行计算
	}
}