数据结构实验之二叉树六:哈夫曼编码
Problem Description
字符的编码方式有多种,除了大家熟悉的ASCII编码,哈夫曼编码(Huffman Coding)也是一种编码方式,它是可变字长编码。该方法完全依据字符出现概率来构造出平均长度最短的编码,称之为最优编码。哈夫曼编码常被用于数据文件压缩中,其压缩率通常在20%~90%之间。你的任务是对从键盘输入的一个字符串求出它的ASCII编码长度和哈夫曼编码长度的比值。
Input
输入数据有多组,每组数据一行,表示要编码的字符串。
Output
对应字符的ASCII编码长度la,huffman编码长度lh和la/lh的值(保留一位小数),数据之间以空格间隔。
Sample Input
AAAAABCD
THE_CAT_IN_THE_HAT
Sample Output
64 13 4.9
144 51 2.8
#include <bits/stdc++.h>
using namespace std;
char s[500];
int q[500],t[200];
/*t数组通过ASCLL编码统计间断的字符出现次数,
q数组统计将间断的次数连续起来,但是q的长度并不一定比t小,
因为后续q数组要进行堆的合并。*/
void arrange(int a[],int l,int r)
{
if(l>=r)
return;
int x=a[l],i=l,j=r;
while(i<j)
{
while(i<j&&a[j]>=x)
j--;
a[i]=a[j];
while(i<j&&a[i]<=x)
i++;
a[j]=a[i];
}
a[i]=x;
arrange(a,l,i-1);
arrange(a,i+1,r);
}
int main()
{
int len,i;
while(scanf("%s",s)!=EOF)
{
memset(t,0,sizeof(t));
int top=0,rear=0;
len=strlen(s);
int m=len*8;
for(i=0;i<len;i++)
{
int k=s[i];
t[k]++;
}
for(i=0;i<200;i++)
{
if(t[i])
{
q[top++]=t[i];
}
}
arrange(q,0,top-1);
int sum=0;
int x1,x2;
/* sum记录q数组中最小两项的和,并将此和重新放入数组中,
当数组中只有最后一项是,sum不再与最后一个数相加,大概这样求长度吧*/
while(top!=rear)
{
x1=q[rear++];
if(top!=rear)
{
x2=q[rear++];
sum+=x1+x2;
q[top++]=x1+x2;
arrange(q,rear,top-1);
}
}
printf("%d %d %.1f\n",m,sum,1.0*m/sum);
}
return 0;
}