Huffman 树


命题描述

对于一个字符串,我们需要将它的每一个字符进行二进制编码(同一个字符可能会在字符串中出现多次

我们规定:

  • 1)相同的字符二进制编码相同。
  • 2)且每一个字符的二进制编码不是其他的任意一个字符的二进制编码的前缀(eg.假设a的编码为10,则其他字符的编码前2位一定不为10。

并找出最优的编码方式使整个字符串的二进制编码长度最短,求出这个最短长度。

eg.字符串:

AAAAABCD

其最优编码方式为:

A:1
B:01
C:000
D:001

故其原字符串的二进制编码为:

1111101000001

所以得出原字符串的二进制编码的最短长度为13。

显然,最优的编码方式不止一种。


正解思路

step1 贪心

首先,不难发现每个字符给总长度的贡献一定是:这个字符的编码长度 * 这个字符的出现次数。

因为我们的目的是让总长度尽可能的小,所以我们需要让每个字符的贡献尽可能的小。

又因为每个字符的出现次数在输出时就已经确定了,所以我们只需要让出现次数多的字符的编码长度尽可能小即可。

step2 二叉树

接下来我们尝试满足条件:每一个字符的二进制编码不是其他的任意一个字符的二进制编码的前缀

首先,如果定义一棵二叉树,这棵树的左节点为1,右节点为0,根为0

你会发现它所有的叶节点到根的经过的边上的权值构成的二进制编码一定不会是之前任意一个字符的前缀。如下图:
在这里插入图片描述

step3 结合

把1,,2综合来看,不就是把出现次数越多的放在深度越浅的点嘛,即上图中的(6)。
那么反之,就是把出现次数小的放在深度越深的点,如(4)(5)。

那我们能不能看成,每次找出出现次数最少的两个。然后把他们指向同一个父亲结点,然后把它们的父亲结点的”出现次数“值为这两个结点的出现次数相加,再把这两个结点删除……一直到只剩下一个结点。

不难想出利用优先队列来模拟以上过程


代码实现

#include <cstdio>
#include <cstring>
#include <algorithm>
#include <iostream>
#include <string>
#include <queue>
#include <vector>
using namespace std; 

const int MAXN = 105;
const int MAXM = 130; // ASCII码最大为127,所以我们开130

struct data {
   
	int ff; // Frequency of occurrence 出现次数
	vector<char> c; // 合并而成当前结点的字符集合
	friend bool operator<(data x, data y) {
   
	// 重载运算符&#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值