Huffman树与Huffman编码—介绍与基本应用

今天来谈谈huffman树吧。

先介绍一下树的路径长度(path length of a tree,PL),和树的带权路径长度(Weighted Path Length of Tree,WPL)。我们定义每个节点到树根的距离为l[i]。
树的路径长度(PL):所有节点到根的距离之和。\sum l[i]
树的带权路径长度(WPL):所有节点到根的距离与权值的乘积之和。\sum l[i]*w[i]

Huffman树可以是k叉的。我们先从最简单的二叉huffman树来学习。uffman树可以是k叉的。我们先从最简单的二叉huffman树来学习。

 

构造PL最小的huffman树

问题:给出n个原节点,求其构造成一棵有最小的PL的二叉树。
原理:将huffman树构造成一棵完全二叉树。
我们记录每个节点的当前深度(即合并次数)和其包含的原节点(这两个其实是等价的),把所有节点的深度放入小根堆中,每次取出最小的两个,将其合并。合并时,新节点的合并次数+1,原节点树等于左右子树的原节点树之和,ans=ans+左边的原节点数+右边的原节点树=ans+新节点的原节点数。最后的ans就是最小的PL了。

 

构造WPL最小的huffman树

问题:给出n个原节点,每个节点有一个权值w[i],求其构造成一棵有最小的WPL的二叉树。
原理:把权值大的原节点放在深度小的地方,权值小的放在深度大的地方。
把所有节点的权值放入小根堆,每次取出两个权值最小的节点,将其合并。合并时,新节点的权值等于左右节点的权值之和,ans=ans+左边的权值+右边的权值=ans+新节点的权值。最后的ans也就是最小的WPL。

 

问题升级,现在要构造k叉的huffman树

基本的思路是不变的,只是构造时要选前k小的节点来合并。但是要注意,如果这么从下往上做,到根节点是,根节点的子节点可能不足k个,这样显然不是最优解。于是我们要补上一些没有影响的0节点,使得树的节点数满足(n-1)%(k-1)==0。这样做后再取前k小的节点合并就是正确的。


例题1 洛谷1090 合并果子

【题目】

在一个果园里,多多已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆。多多决定把所有的果子合成一堆。
每一次合并,多多可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之和。可以看出,所有的果子经过 n−1 次合并之后, 就只剩下一堆了。多多在合并果子时总共消耗的体力等于每次合并所耗体力之和。
因为还要花大力气把这些果子搬回家,所以多多在合并果子时要尽可能地节省体力。假定每个果子重量都为 1 ,并且已知果子的种类 数和每种果子的数目,你的任务是设计出合并的次序方案,使多多耗费的体力最少,并输出这个最小的体力耗费值。
例如有3种果子,数目依次为 1,2,9。可以先将1 、2 堆合并,新堆数目为3,耗费体力为3。接着,将新堆与原先的第三堆合并,又得到新的堆,数目为 12 ,耗费体力为 12 。所以多多总共耗费体力 =3+12=15 。可以证明 15 为最小的体力耗费值。

【题解】
把n堆两堆两堆地合成一堆,把其过程画出来,不就是二叉huffman树吗?它要求的是最小的WPL。

【代码】

#include<queue>
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
const int inf=10010;

int n;
priority_queue<int,vector<int>,greater<int> > q;//小根堆

int main()
{
    scanf("%d",&n);
    for(int i=1,x;i<=n;i++)
    {
        scanf("%d",&x);
        q.push(x);
    }
    int ans=0;
    for(int i=1;i<n;i++)
    {
        int t1=q.top();q.pop();//每次取出最小的两个,将其合并
        int t2=q.top();q.pop();
        ans+=t1+t2;
        q.push(t1+t2);
    }
    printf("%d\n",ans);
    return 0;
}

 

Huffman编码

问题:一篇电文,原文为AMCADEDDMCCAD。现在要把原文转换成01串发送给对方。为了节省资源,我们当然希望翻译好的01串长度尽量的短。怎么办?
我们发现原文只有E,M,C,A,D,五个字母出现的次数分别为1,2,3,3,4。我们以此为权值,构建一棵WPL最小的huffman树。

我们给左节点配码0,右节点配码1。从根到该字母的路径上的代码连起来,就是该字母的huffman编码:
E(000),M(001),C(01),A(10),D(11)
我们发现huffman编码的前缀是不同的。把huffman树看成trie树,因为所有的字母都在叶子节点,没有一个字母B在另一个字母A从根到叶子A的路径上,所以即使有相同部分,它B一定不会是A的前缀。
各字母的编码即为哈夫曼编码: EMCAD 所有编码长度和为12位,即PL=12,此时的PL并不是最小的,但此时的WPL一定是最小的。WPL最小才能使得密报翻译的01串长度最短。
原电文AMCADEDDMCCAD翻译成01串后为:10001011011000111100101011011。
我们对其翻译会原文,试一试,只有一种翻译方法。没有一个01串会翻译成多个字母串,这就是相互不是前缀的作用。


【例题2】洛谷2168 荷马史诗

【题目】
追逐影子的人,自己就是影子 ——荷马

Allison 最近迷上了文学。她喜欢在一个慵懒的午后,细细地品上一杯卡布奇诺,静静地阅读她爱不释手的《荷马史诗》。但是由《奥德赛》和《伊利亚特》 组成的鸿篇巨制《荷马史诗》实在是太长了,Allison 想通过一种编码方式使得它变得短一些。
一部《荷马史诗》中有n种不同的单词,从1到n进行编号。其中第i种单 词出现的总次数为wi。Allison 想要用k进制串si来替换第i种单词,使得其满足如下要求:
对于任意的 1 ≤ i, j ≤ n , i ≠ j ,都有:si不是sj的前缀。
现在 Allison 想要知道,如何选择si,才能使替换以后得到的新的《荷马史诗》长度最小。在确保总长度最小的情况下,Allison 还想知道最长的si的最短长度是多少?
一个字符串被称为k进制字符串,当且仅当它的每个字符是 0 到 k − 1 之间(包括 0 和 k − 1 )的整数。
字符串 str1 被称为字符串 str2 的前缀,当且仅当:存在 1 ≤ t ≤ m ,使得str1 = str2[1..t]。其中,m是字符串str2的长度,str2[1..t] 表示str2的前t个字符组成的字符串。

【题解】
好复杂的题目啊,又是k进制,又是前缀,还有出现次数,完全混乱不知所措。但是一往huffman编码想,发现整体都在围绕huffman编码的基本要求,所有条件都在限制,让它可以是huffman编码。
k进制的含义是k叉树。出现次数的含义是每个节点的权值。
题目中提到,“在确保总长度最小的情况下,Allison 还想知道最长的si的最短长度是多少?”,用huffman术语来说:“在确保WPL最小的情况下,让huffman树的深度最小”。我们应对的策略是,当权值相同时,优先让当前深度小的(合并次数少的)先合并,因为每次合并都会增加1的深度,这么做可以使树尽可能的平衡,最大深度也会较小。

【代码】

#include<queue>
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
typedef long long ll;
const int maxn=1e5+10;

ll n,k;
struct N
{
    ll x,m;//x权值,m合并次数 
    bool operator<(N n1) const
    {
        if(x!=n1.x) return x>n1.x;
        return m>n1.m;//在权值相同时,合并次数少的优先 
    }
};priority_queue<N> q;

int main()
{
    scanf("%lld%lld",&n,&k);
    for(int i=1;i<=n;i++)
    {
        ll x;
        scanf("%lld",&x);
        q.push((N){x,0});
    }
    if((n-1)%(k-1)!=0)//补上0节点 
        for(int i=(n-1)%(k-1)+1;i<k;i++) q.push((N){0,0}),n++;
    
    ll ans1=0,ans2=0;
//  for(int i=1;i<n;i+=k-1)
    while(q.size()!=1)//结束标志有两种方法 
    {
        N now=(N){0,0};
        for(int j=1;j<=k;j++)//取出前k小的节点 
        {
            now.x+=q.top().x;
            now.m=max(now.m,q.top().m);
            q.pop();
        }
        now.m++;
        q.push(now);
        ans1+=now.x;//ans1记录长度 
        ans2=max(ans2,now.m);//ans2记录最大深度 
    }
    printf("%lld\n%lld\n",ans1,ans2);
    return 0;
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值