数据结构之哈夫曼树

最新推荐文章于 2023-10-11 16:33:15 发布

无情的敲代码机器人

最新推荐文章于 2023-10-11 16:33:15 发布

阅读量558

点赞数

文章标签：数据结构 c++ 算法

本文链接：https://blog.csdn.net/m0_72936412/article/details/130694203

版权

数据结构之哈夫曼树

这部分内容为偏向于底层方面的哈夫曼树，样例代码为文件的读写，由于老师给出的代码并未给出运行截图，所以我并不知道我写的代码是否运行正确。

代码如下

#define _CRT_SECURE_NO_WARNINGS 1
#include <iostream>
#include <fstream>
#include <string.h>
using namespace std;

#define MaxSize 1024  // 读入文件的上限 
#define OK 1
#define ERROR 0
typedef int Status;

typedef struct wordcnt {  // 统计字符和对应的次数 
	char ch;
	int cnt = 0;
}Count;

typedef struct NumCount {  // 统计次数的外部封装 
	Count count[MaxSize];
	int length = 0;
}NumCount;

typedef struct HTree {  // 哈夫曼树结构 
	char data;
	int weight;
	int parent, lchild, rchild;
}HTNode, *HuffmanTree;

typedef struct HCode { // 编码结构 
	char data;
	char* str;
}*HuffmanCode;


Status ReadData(char *source);  // 读入文件 
Status WordCount(char *data, NumCount *paraCnt); // 统计次数 
Status Show(NumCount *paraCnt);   // 展示次数 
Status CreateHuffmanTree(HuffmanTree &HT, int length, NumCount cntarray);  // 创建哈夫曼树 
Status select(HuffmanTree HT, int top, int *s1, int *s2);  // 选择权重最小的两个节点 
Status CreateHuffmanCode(HuffmanTree HT, HuffmanCode &HC, int length);  // 创建哈夫曼编码 
Status Encode(char *data, HuffmanCode HC, int length);  // 将读入的文件编码，写到txt文件 
Status Decode(HuffmanTree HT, int length);  //读入编码文件，解码 

int main(int argc, char** argv) {
	char data[MaxSize];
	NumCount Cntarray;
	ReadData(data);  // 读入数据 
	WordCount(data, &Cntarray);  // 统计次数 
	HuffmanTree tree;
	CreateHuffmanTree(tree, Cntarray.length, Cntarray);  // 建树 
	HuffmanCode code;
	CreateHuffmanCode(tree, code, Cntarray.length);  // 创建编码 
	Encode(data, code, Cntarray.length);  // 生成编码文件 
	Decode(tree, Cntarray.length);  // 解码 
	cout << "Please view the generated TXT file to check the result" << endl;
	return 0;
}

Status ReadData(char *source)
{
	//打开文件读入数据 
	ifstream infile;
	infile.open("in.txt");
	cout << "Reading..." << endl;
	cout << "the input file is:" << endl;
	infile.getline(source, MaxSize);
	cout << source << endl;
	infile.close();
	cout << endl;
	return OK;
}

Status WordCount(char *data, NumCount *paraCnt)
{
	int flag;// 标识是否已经记录 
	int len = strlen(data);
	for (int i = 0; i < len; ++i)
	{
		flag = 0;
		for (int j = 0; j < paraCnt->length; ++j)
		{
			if (paraCnt->count[j].ch == data[i]) // 若已有记录，直接++ 
			{
				++paraCnt->count[j].cnt;
				flag = 1;
				break;
			}

		}
		if (!flag) // 没有记录，则新增 
		{
			paraCnt->count[paraCnt->length].ch = data[i];
			++paraCnt->count[paraCnt->length].cnt;
			++paraCnt->length;
		}
	}
	return OK;
}

Status Show(NumCount *paraCnt)
{
	cout << "the length is " << paraCnt->length << endl;
	for (int i = 0; i < paraCnt->length; ++i)
	{
		cout << "The character " << paraCnt->count[i].ch << "  appears  " << paraCnt->count[i].cnt << endl;
	}
	cout << endl;
	return OK;
}

Status CreateHuffmanTree(HuffmanTree &HT, int length, NumCount cntarray)
{
	if (length <= 1) return ERROR;
	int s1, s2;
	int m = length * 2 - 1;  // 没有度为1的节点，则总结点是2*叶子节点数-1个 
	HT = new HTNode[m + 1];
	for (int i = 1; i <= m; ++i)  // 初始化 
	{
		HT[i].parent = 0;
		HT[i].lchild = 0;
		HT[i].rchild = 0;
	}

	for (int i = 1; i <= length; ++i)
	{
		HT[i].data = cntarray.count[i - 1].ch;
		HT[i].weight = cntarray.count[i - 1].cnt;
	}

	for (int i = length + 1; i <= m; ++i)
	{
		select(HT, i - 1, &s1, &s2);  // 从前面的范围里选择权重最小的两个节点 
		HT[s1].parent = i;
		HT[s2].parent = i;
		HT[i].lchild = s1;
		HT[i].rchild = s2;
		HT[i].weight = HT[s1].weight + HT[s2].weight;  // 得到一个新节点 
	}
	return OK;
}

Status select(HuffmanTree HT, int top, int *s1, int *s2)
{
	int min = INT_MAX;
	for (int i = 1; i <= top; ++i)  // 选择没有双亲的节点中，权重最小的节点 
	{
		if (HT[i].weight < min && HT[i].parent == 0)
		{
			min = HT[i].weight;
			*s1 = i;
		}
	}

	min = INT_MAX;
	for (int i = 1; i <= top; ++i)  // 选择没有双亲的节点中，权重次小的节点 
	{
		if (HT[i].weight < min && i != *s1 && HT[i].parent == 0)
		{
			min = HT[i].weight;
			*s2 = i;
		}
	}
	return OK;
}

Status CreateHuffmanCode(HuffmanTree HT, HuffmanCode &HC, int length)
{
	HC = new HCode[length + 1];
	char *cd = new char[length];  // 存储编码的临时空间 
	cd[length - 1] = '\0';  // 方便之后调用strcpy函数 
	int c, f, start;
	for (int i = 1; i <= length; ++i)
	{
		start = length - 1;  // start表示编码在临时空间内的起始下标，由于是从叶子节点回溯，所以是从最后开始 
		c = i;
		f = HT[c].parent;
		while (f != 0)
		{
			--start;  // 由于是回溯，所以从临时空间的最后往回计 
			if (HT[f].lchild == c)
				cd[start] = '0';
			else
				cd[start] = '1';
			c = f;
			f = HT[c].parent;
		}
		HC[i].str = new char[length - start];  // 最后，实际使用的编码空间大小是length-start 
		HC[i].data = HT[i].data;
		strcpy(HC[i].str, &cd[start]);  // 从实际起始地址开始，拷贝到编码结构中 
	}
	delete cd;
	return 1;
}

Status Encode(char *data, HuffmanCode HC, int length)
{
	ofstream outfile;
	outfile.open("code.txt");
	for (int i = 0; i < strlen(data); ++i)  // 依次读入数据，查找对应的编码，写入编码文件 
	{
		for (int j = 1; j <= length; ++j)
		{
			if (data[i] == HC[j].data)
			{
				outfile << HC[j].str;
			}
		}
	}
	outfile.close();
	cout << "the code txt has been written" << endl;
	cout << endl;
	return OK;
}

Status Decode(HuffmanTree HT, int length)
{
	char codetxt[100001];
	ifstream infile;
	infile.open("code.txt");
	infile.getline(codetxt, MaxSize*length);
	infile.close();

	ofstream outfile;
	outfile.open("out.txt");

	int root = 2 * length - 1;  // 从根节点开始遍历 
	for (int i = 0; i < strlen(codetxt); ++i)
	{
		if (codetxt[i] == '0') root = HT[root].lchild;  //为0表示向左遍历 
		else if (codetxt[i] == '1') root = HT[root].rchild; //为1表示向右遍历 
		if (HT[root].lchild == 0 && HT[root].rchild == 0)  // 如果已经是叶子节点，输出到输出文件中，然后重新回到根节点 
		{
			outfile << HT[root].data;
			root = 2 * length - 1;
		}
	}
	outfile.close();
	cout << "the output txt has been written" << endl;
	cout << endl;
	return OK;
}

运行截图

在这里插入图片描述

思路讲解

哈夫曼树是一种特殊的二叉树，它的每个叶子节点都有一个权值，而且权值越大的叶子节点越靠近根节点。哈夫曼树的构造方法是：

首先将所有的叶子节点按照权值从小到大排序，然后每次取出最小的两个节点，合并成一个新的节点，新节点的权值为两个子节点的权值之和，然后将新节点插入到原来的序列中，重复这个过程直到只剩下一个节点，这个节点就是哈夫曼树的根节点。
其次，从根节点开始遍历这棵树，并且给每条边赋予一个bit值：左边为0，右边为1。最后我们可以得到每个叶子节点对应的编码：从根节点到叶子节点经过的所有边上的bit值组成。

举个例子，假设我们有四个叶子节点，它们的权值分别为2，3，4，6。我们可以按照如下步骤构造哈夫曼树：

将四个叶子节点按照权值排序：2，3，4，6。
取出最小的两个节点2和3，合并成一个新的节点5，5的权值为2+3=5。将5插入到原来的序列中：4，5，6。
取出最小的两个节点4和5，合并成一个新的节点9，9的权值为4+5=9。将9插入到原来的序列中：6，9。
取出最小的两个节点6和9，合并成一个新的节点15，15的权值为6+9=15。将15插入到原来的序列中：15。
此时只剩下一个节点15，它就是哈夫曼树的根节点。
从根节点开始遍历这棵树，并且给每条边赋予一个bit值：左边为0，右边为1。我们可以得到每个叶子节点对应的编码：

2 -> 00
3 -> 01
4 -> 10
6 -> 11

学习思考

哈夫曼树是一种特殊的二叉树，它的每个叶子节点都有一个权值，而且权值越大的叶子节点越靠近根节点。哈夫曼树的构造方法是：首先将所有的叶子节点按照权值从小到大排序，然后每次取出最小的两个节点，合并成一个新的节点，新节点的权值为两个子节点的权值之和，然后将新节点插入到原来的序列中，重复这个过程直到只剩下一个节点，这个节点就是哈夫曼树的根节点。

哈夫曼树有什么用呢？它可以用来进行数据的压缩和编码。我们知道，数据在计算机中是以二进制位（bit）来存储和传输的，每个bit只能表示0或1两种状态。如果我们想要表示更多的信息，就需要用更多的bit。比如，如果我们想要表示26个英文字母，就需要用5个bit（因为2^5=32>26），那么一个英文单词就需要用5乘以单词长度个bit来表示。这样会占用很多的存储空间和传输带宽。

但是，我们可以发现，英文中并不是所有的字母都出现得一样频繁，有些字母比如e、a、t等出现得很多，而有些字母比如q、z、x等出现得很少。如果我们能够给出现得多的字母分配较短的编码，而给出现得少的字母分配较长的编码，那么我们就可以节省很多的bit。比如，如果我们给e分配编码0，给a分配编码10，给t分配编码110等等，那么一个英文单词就可以用平均3.5个bit左右来表示（这个数字是根据英文中各个字母出现频率计算得到的）。这样就可以大大压缩数据。

但是，这样的编码方式有一个问题，就是如何区分不同的字母。比如，如果我们看到一个编码序列01011010，我们不知道它是表示eaat还是etaa还是其他什么组合。为了解决这个问题，我们需要保证编码具有前缀性，也就是说任何一个字母的编码都不是另一个字母的编码的前缀。这样我们就可以从左到右依次识别每个字母。比如，如果我们看到一个编码序列01011010，我们可以确定它是表示eat。

那么如何构造具有前缀性的编码呢？这就是哈夫曼树可以帮助我们做到的事情。我们可以把每个字母看作一个叶子节点，并且把它们出现的频率作为权值。然后按照哈夫曼树的构造方法生成一棵哈夫曼树。接着我们可以从根节点开始遍历这棵树，并且给每条边赋予一个bit值：左边为0，右边为1。最后我们可以得到每个叶子节点对应的编码：从根节点到叶子节点经过的所有边上的bit值组成。由于哈夫曼树具有最小外部路径长度（也就是所有叶子节点到根节点路径长度之和最小）的性质，所以这样得到的编码也具有最小平均长度（也就是所有字母对应编码长度之和最小）的性质。而且由于哈夫曼树是一棵二叉树，所以这样得到的编码也具有前缀性。

构造具有前缀性的编码呢？这就是哈夫曼树可以帮助我们做到的事情。我们可以把每个字母看作一个叶子节点，并且把它们出现的频率作为权值。然后按照哈夫曼树的构造方法生成一棵哈夫曼树。接着我们可以从根节点开始遍历这棵树，并且给每条边赋予一个bit值：左边为0，右边为1。最后我们可以得到每个叶子节点对应的编码：从根节点到叶子节点经过的所有边上的bit值组成。由于哈夫曼树具有最小外部路径长度（也就是所有叶子节点到根节点路径长度之和最小）的性质，所以这样得到的编码也具有最小平均长度（也就是所有字母对应编码长度之和最小）的性质。而且由于哈夫曼树是一棵二叉树，所以这样得到的编码也具有前缀性。