命题描述
对于一个字符串,我们需要将它的每一个字符进行二进制编码(同一个字符可能会在字符串中出现多次。
我们规定:
- 1)相同的字符二进制编码相同。
- 2)且每一个字符的二进制编码不是其他的任意一个字符的二进制编码的前缀(eg.假设a的编码为10,则其他字符的编码前2位一定不为10。
并找出最优的编码方式使整个字符串的二进制编码长度最短,求出这个最短长度。
eg.字符串:
AAAAABCD
其最优编码方式为:
A:1
B:01
C:000
D:001
故其原字符串的二进制编码为:
1111101000001
所以得出原字符串的二进制编码的最短长度为13。
显然,最优的编码方式不止一种。
正解思路
step1 贪心
首先,不难发现每个字符给总长度的贡献一定是:这个字符的编码长度 * 这个字符的出现次数。
因为我们的目的是让总长度尽可能的小,所以我们需要让每个字符的贡献尽可能的小。
又因为每个字符的出现次数在输出时就已经确定了,所以我们只需要让出现次数多的字符的编码长度尽可能小即可。
step2 二叉树
接下来我们尝试满足条件:每一个字符的二进制编码不是其他的任意一个字符的二进制编码的前缀
首先,如果定义一棵二叉树,这棵树的左节点为1,右节点为0,根为0
你会发现它所有的叶节点到根的经过的边上的权值构成的二进制编码一定不会是之前任意一个字符的前缀。如下图:
step3 结合
把1,,2综合来看,不就是把出现次数越多的放在深度越浅的点嘛,即上图中的(6)。
那么反之,就是把出现次数小的放在深度越深的点,如(4)(5)。
那我们能不能看成,每次找出出现次数最少的两个。然后把他们指向同一个父亲结点,然后把它们的父亲结点的”出现次数“值为这两个结点的出现次数相加,再把这两个结点删除……一直到只剩下一个结点。
不难想出利用优先队列来模拟以上过程
代码实现
#include <cstdio>
#include <cstring>
#include <algorithm>
#include <iostream>
#include <string>
#include <queue>
#include <vector>
using namespace std;
const int MAXN = 105;
const int MAXM = 130; // ASCII码最大为127,所以我们开130
struct data {
int ff; // Frequency of occurrence 出现次数
vector<char> c; // 合并而成当前结点的字符集合
friend bool operator<(data x, data y) {
// 重载运算符&#