概念:给定一些带有权值的结点。要构造一棵二叉树,使得这些结点作为二叉树的叶子结点。若树上带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树。直观来看,哈夫曼树中权值较大的结点离根较近。
举例:下图中,左树可以被称作哈夫曼树。
应用:哈夫曼编码,可以用于数据的无损压缩。
不能让其中一个编码串是另一个编码串的前缀
P2168 [NOI2015]荷马史诗
题目描述
追逐影子的人,自己就是影子 ——荷马
Allison 最近迷上了文学。她喜欢在一个慵懒的午后,细细地品上一杯卡布奇诺,静静地阅读她爱不释手的《荷马史诗》。但是由《奥德赛》和《伊利亚特》 组成的鸿篇巨制《荷马史诗》实在是太长了,Allison 想通过一种编码方式使得它变得短一些。
一部《荷马史诗》中有n种不同的单词,从1到n进行编号。其中第i种单 词出现的总次数为wi。Allison 想要用k进制串si来替换第i种单词,使得其满足如下要求:
对于任意的 1 ≤ i, j ≤ n , i ≠ j ,都有:si不是sj的前缀。
现在 Allison 想要知道,如何选择si,才能使替换以后得到的新的《荷马史诗》长度最小。在确保总长度最小的情况下,Allison 还想知道最长的si的最短长度是多少?
一个字符串被称为k进制字符串,当且仅当它的每个字符是 0 到 k − 1 之间(包括 0 和 k − 1 )的整数。
字符串 str1 被称为字符串 str2 的前缀,当且仅当:存在 1 ≤ t ≤ m ,使得str1 = str2[1..t]。其中,m是字符串str2的长度,str2[1..t] 表示str2的前t个字符组成的字符串。
输入格式
输入的第 1 行包含 2 个正整数 n, k ,中间用单个空格隔开,表示共有 n种单词,需要使用k进制字符串进行替换。
接下来n行,第 i + 1 行包含 1 个非负整数wi ,表示第 i 种单词的出现次数。
输出格式
输出包括 2 行。
第 1 行输出 1 个整数,为《荷马史诗》经过重新编码以后的最短长度。
第 2 行输出 1 个整数,为保证最短总长度的情况下,最长字符串 si 的最短长度。
输入输出样例
输入
4 2 1 1 2 2
输出
12 2
输入
6 3 1 1 3 3 9 9
输出
36 3
分析:因为每次都是将k个节点合并为1个(减少k-1个),一共要将n个节点合并为1个,如果(n-1)%(k-1)!=0 则最后一次合并时不足k个。也就表明了最靠近根节点的位置反而没有被排满,因此我们需要加入k-1-(n-1)%(k-1)个空节点使每次合并都够k个节点(也就是利用空节点将其余的节点挤到更优的位置上)。
使用k进制字符串进行替换,若中间节点个数为m个,则叶子节点个数为m*(k-1)+1
中间节点的总和就是哈夫曼编码的最短长度
AC代码:
#include <bits/stdc++.h>
using namespace std;
#define ll long long
struct node{
ll w,h;
bool operator<(const node& others)const{
return w!=others.w?w>others.w:h>others.h;
}//优先选择权值小,高度小的
};
int main(){
int n,k;
ll sum=0,x;
scanf("%d%d",&n,&k);
priority_queue<node>Q;
for(int i=0;i<n;i++){
scanf("%lld",&x);
Q.push(node{x,0});
}
while((n-1)%(k-1)!=0){//补上空节点
Q.push(node{0,0});
n++;
}
while(Q.size()>1){
ll w=0,h=0;
for(int i=0;i<k;i++){
w+=Q.top().w;
h=max(Q.top().h,h);
Q.pop();
}
sum+=w;
Q.push(node{w,h+1});
}
printf("%lld\n%lld",sum,Q.top().h);
return 0;
}