Huffman树及编解码

最新推荐文章于 2024-04-20 11:37:23 发布

vfdxvffd

最新推荐文章于 2024-04-20 11:37:23 发布

阅读量521

点赞数 2

分类专栏：数据结构与算法文章标签：哈弗曼树 Huffman树编解码

本文链接：https://blog.csdn.net/vfdxvffd/article/details/102530871

版权

本文介绍了Huffman树的构建及其在编解码中的应用。通过设定字符权值，构建Huffman树，并以此创建编码表，用于数据压缩。文章详细阐述了优先级队列、树和表这三种数据类型的实现，以及构建Huffman树和编码表的步骤。最后，实现了编解码函数，以便验证Huffman树的正确性。

摘要由CSDN通过智能技术生成

Huffman树——编解码

介绍：

Huffman树可以根据输入的字符串中某个字符出现的次数来给某个字符设定一个权值，然后可以根据权值的大小给一个给定的字符串编码，或者对一串编码进行解码，可以用于数据压缩或者解压缩，和对字符的编解码。

可是Huffman树的优点在哪？

1、就在于它对出现次数大的字符（即权值大的字符）的编码比出现少的字符编码短，也就是说出现次数越多，编码越短，保证了对数据的压缩。
2、保证编的码不会出现互相涵括，也就是不会出现二义性，比如a的编码是00100，b的编码是001，而c的编码是00，，这样的话，对于00100就可能是a，也可能是bc，而Huffman树编码方式不会出现这种问题。

如何实现

实现Huffman树的编解码需要三种数据类型，一个是优先级队列，用来保存树的结点，二是树，用来解码，三是表，用来当作码表编码。下面我们先一一介绍一下三种数据结构：

1、优先级队列

优先级队列里存放的是一个一个的树的结点，根据树结点中存放的字符的权值来确定其优先级，权重越小，优先级越小，放的位置越靠前。也就是说第一个结点存放的优先级最小，权值最小。

数据类型

//优先级队列,struct TNode表示树的结点，在后面介绍
typedef struct QNode
{
   
	struct TNode* val;			//树的结点,其实也就是数据域
	int priority;				//优先级
	struct QNode* next;			//指针域
}*Node;

typedef struct Queue
{
   
	int size;			//队列大小
	struct QNode* front;		//队列头指针
}queue;

2、树

树里面存放的是字符，以及指向自己的左右孩子结点的指针。比如下图，虽然下图中看起来书中存放了该字符的优先级，但其实可以不加，感觉比较繁琐，所以我取了，但是为了理解方便起见，我在图上标注了出来。
在这里插入图片描述

数据类型

//树
typedef struct TNode
{
   
	char data;				//字符值
	struct TNode* left;			//左孩子
	struct TNode* right;		        //右孩子
}*Tree;

3、表

这个表其实就是一张编码表，里面存放了字符和该字符的编码，用于编码的时候查看。
在这里插入图片描述

数据类型

//表
typedef struct BNode
{
   
	char code[256];				//编码
	char symbol;				//字符
	struct BNode* next;			//指向下一个
}*bNode;

typedef struct Table
{
   
	struct BNode* first;		        //表头
	struct BNode* last;		        //表尾
}*table;

思路

为了简单起见我们讲述的时候就先将权值设置为用户输入而不是根据出现频率统计，因为我们作业也刚好是用户输入，文章最后我会贴出根据出现频率统计的代码，有兴趣可以看看。因为用到了很多数据类型所以可能写到一半会觉得有点晕，所以我们开始之前先理一下思路：

先设定a，b，c三个数据，它们的权值分别为6，1，2

1、首先要根据用户输入的每个字符的权值，创建出一个一个的树结点，然后将其按照优先级的大小存入优先级队列中，按从小到大的顺序，具体实现我会在后面贴。

2、根据优先级队列中存放的树的结点构建起一棵树。

先出队前两个结点，然后创建一个新的树的结点，新的树的结点的权值就等于出队的两个结点的权值之和，但其没有字符域，也就是说它不是一个真正的树的结点，我们称其为假树结点，对应称为真树结点。
让出队的两个真树结点作为新得到的假树结点的左右孩子，优先级小的真树结点（也就是先出队的真树结点）作为左孩子，另一个为右孩子。

在这里插入图片描述
出队后

b和c为真树结点，最上面权值为3的为假树结点