05-哈夫曼编码哈夫曼编码

demons1914

已于 2023-05-31 08:22:31 修改

阅读量1.1k

点赞数

文章标签：算法

于 2023-05-31 08:17:36 首次发布

本文链接：https://blog.csdn.net/demons1914/article/details/130960915

版权

给定一段文字，如果我们统计出字母出现的频率，是可以根据哈夫曼算法给出一套编码，使得用此编码压缩原文可以得到最短的编码总长。然而哈夫曼编码并不是唯一的。例如对字符串"aaaxuaxz"，容易得到字母 'a'、'x'、'u'、'z' 的出现频率对应为 4、2、1、1。我们可以设计编码 {'a'=0, 'x'=10, 'u'=110, 'z'=111}，也可以用另一套 {'a'=1, 'x'=01, 'u'=001, 'z'=000}，还可以用 {'a'=0, 'x'=11, 'u'=100, 'z'=101}，三套编码都可以把原文压缩到 14 个字节。但是 {'a'=0, 'x'=01, 'u'=011, 'z'=001} 就不是哈夫曼编码，因为用这套编码压缩得到 00001011001001 后，解码的结果不唯一，"aaaxuaxz" 和 "aazuaxax" 都可以对应解码的结果。本题就请你判断任一套编码是否哈夫曼编码。

输入格式：

首先第一行给出一个正整数 N（2≤N≤63），随后第二行给出 N 个不重复的字符及其出现频率，格式如下：

c[1] f[1] c[2] f[2] ... c[N] f[N]

其中c[i]是集合{'0' - '9', 'a' - 'z', 'A' - 'Z', '_'}中的字符；f[i]是c[i]的出现频率，为不超过 1000 的整数。再下一行给出一个正整数 M（≤1000），随后是 M 套待检的编码。每套编码占 N 行，格式为：

c[i] code[i]

其中c[i]是第i个字符；code[i]是不超过63个'0'和'1'的非空字符串。

输出格式：

对每套待检编码，如果是正确的哈夫曼编码，就在一行中输出"Yes"，否则输出"No"。

注意：最优编码并不一定通过哈夫曼算法得到。任何能压缩到最优长度的前缀编码都应被判为正确。

输入样例：

7
A 1 B 1 C 1 D 3 E 3 F 6 G 6
4
A 00000
B 00001
C 0001
D 001
E 01
F 10
G 11
A 01010
B 01011
C 0100
D 011
E 10
F 11
G 00
A 000
B 001
C 010
D 011
E 100
F 101
G 110
A 00000
B 00001
C 0001
D 001
E 00
F 10
G 11

输出样例：

Yes
Yes
No
No

代码长度限制

16 KB

时间限制

400 ms

内存限制

64 MB

解题思路：

1.构造哈夫曼树的方法：

利用leaf数组构造哈夫曼树的当前叶子节点，使用qsort函数进行从小到大的排序。然后挑选前两个小者相加结果存至后者；

2.计算哈夫曼树权值的方法：

各位不妨随机列出一组数据，使用挑选当前两个最小值的方法构造哈夫曼树并用定义的方法去计算*带权路径和*，然后再不妨试着计算出所有非叶子节点的和值。发现这两个值相等，这不是偶然（这里不加以数学证明，证明思路类似于前缀和的方法）。所以我们可以利用后者的方法进行计算带权路径和，详细步骤请见代码；

3.判断待检数据是否为哈夫曼编码方法：

首先利用所给待测数据编码计算带权路径和并判断其值是否与我们所构造的哈夫曼树的带权路径和是否相等。若否，则肯定非“哈夫曼编码”。若是则继续判断是否为前缀编码（即是否有编码为另一个编码的前缀），判断方法具体步骤见代码实现（主要是使用了string.h库里面的两个重要函数strlen()与strncmp() <strncmp为strcmp的改进版>）。若为前缀编码则非“哈夫曼编码”，否则为“哈夫曼编码”。

代码具体实现如下：

//05 - 哈夫曼编码 哈夫曼编码
#include<stdio.h>
#include<string.h>
#include<stdlib.h>

int cmp(const void* a, const void *b)
{
	return *(int*)a - *(int*)b;
}//比较函数

int main()
{
	int n;
	scanf("%d", &n);
	char c;
	int f[70] = { 0 };//用于保存频率
	int leaf[70] = { 0 };//用于保存所有叶节点的频率值,并以此计算带权路径和
	int top = 0;
	int i, j;
	for (i = 0; i < n; i++)
	{
		getchar();
		scanf("%c %d", &c, &f[top]);
		leaf[top] = f[top];
		top++;
	}
	int sum = 0;//计算哈夫曼树的带权路径长度
	for (i = 0; i < n - 1;i++)//根据下面的分析画图可知需要加n-1次
	{
		qsort(leaf + i, n - i, sizeof(int), cmp);//排序(从小到大)
		leaf[i + 1] += leaf[i];
		sum += leaf[i + 1];//累加和的技巧
		//leaf[i+1]包含了之前的权值,而+leaf[i+1]正相当于重新更新了当前带权路径
		//*对于哈夫曼树的带权路径和为非叶节点的值的累加和*
	}
	int m;
	scanf("%d", &m);
	for (i = 0; i < m; i++)
	{
		char code[1024][70];
		int num = 0;//存储当前编码的带权路径长度
		//若带权路径和与sum相同 且不是前缀编码 则为"哈夫曼编码"
		for (j = 0; j < n; j++)
		{
			getchar();
			scanf("%c %s", &c, code[j]);
			num += strlen(code[j])*f[j];
		}
		if (num != sum)
			printf("No\n");
		else//进行前缀判断
		{
			int flag = 1;
			for (int x = 0; x < n; x++)
			{
				for (int y = 0; y < n; y++)
				{
					if (x == y) continue;
					//暴力遍历判断
					if (strlen(code[x]) <= strlen(code[y]) && strncmp(code[x], code[y], strlen(code[x])) == 0)
					{
						//lenx<leny 且 *x为y的前缀*(利用strncmp判断)
						flag = 0;
						break;
					}
				}
			}
			if (flag)
				printf("Yes\n");
			else
				printf("No\n");
		}
	}
	return 0;
}

demons1914

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
05-哈夫曼编码哈夫曼编码

给定一段文字，如果我们统计出字母出现的频率，是可以根据哈夫曼算法给出一套编码，使得用此编码压缩原文可以得到最短的编码总长。然而哈夫曼编码并不是唯一的。例如对字符串"aaaxuaxz"，容易得到字母 'a'、'x'、'u'、'z' 的出现频率对应为 4、2、1、1。我们可以设计编码 {'a'=0, 'x'=10, 'u'=110, 'z'=111}，也可以用另一套 {'a'=1, 'x'=01, 'u'=001, 'z'=000}，还可以用 {'a'=0, 'x'=11, 'u'=100, 'z'=101}，
复制链接

扫一扫