数据结构实验之二叉树六:哈夫曼编码
Time Limit: 1000 ms Memory Limit: 65536 KiB
Submit Statistic Discuss
Problem Description
字符的编码方式有多种,除了大家熟悉的ASCII编码,哈夫曼编码(Huffman Coding)也是一种编码方式,它是可变字长编码。该方法完全依据字符出现概率来构造出平均长度最短的编码,称之为最优编码。哈夫曼编码常被用于数据文件压缩中,其压缩率通常在20%~90%之间。你的任务是对从键盘输入的一个字符串求出它的ASCII编码长度和哈夫曼编码长度的比值。
Input
输入数据有多组,每组数据一行,表示要编码的字符串。
Output
对应字符的ASCII编码长度la,huffman编码长度lh和la/lh的值(保留一位小数),数据之间以空格间隔。
Sample Input
AAAAABCD
THE_CAT_IN_THE_HAT
Sample Output
64 13 4.9
144 51 2.8
Hint
Source
xam
#include <stdio.h>
#include <stdlib.h>
#include<string.h>
char s[500];
int q[1000],t[1000];
void arrange(int a[],int left,int right)
{
int x=a[left],i=left,j=right;
if(i>=j)return ;
while(i<j)
{
while(i<j&&a[j]>=x)j--;
a[i]=a[j];
while(i<j&&a[i]<=x)i++;
a[j]=a[i];
}
a[i]=x;
arrange(a,left,i-1);
arrange(a,i+1,right);
}
int main()
{
int len,i;
while(~scanf("%s",s))
{
memset(t,0,sizeof(t));
int top=0,rear=0;
len=strlen(s);
int m=len*8;//ASCLL码值每位占8个字节
for(i=0; i<len; i++)
{
t[s[i]]++;
}//记录下每个字符出现的次数。
for(i=0; i<500; i++)
{
if(t[i])
{
q[top++]=t[i];//让这些记录的数字入队
}
}
arrange(q,0,top-1);//从小到大排好序
int sum=0;
int x1,x2;
while(top!=rear)
{
x1=q[rear++];//为什么是rear++,因为到最后一个的时候top是指在最后一个数的后面,此时rear指在最后一个数,
//这样rear++就立刻不满足下面的条件,里面的sum也不会增加了
if(top!=rear)
{
x2=q[rear++];//为了让rear指向第三个数,进行排序
sum+=x1+x2;
q[top++]=x1+x2;//存放的是x1+x2,而不是sum
arrange(q,rear,top-1);
}
}
printf("%d %d %.1lf\n",m,sum,1.0*m/sum);
}
return 0;
}
哈夫曼代码就是利用这串数字中的最小的两个之和代替这两个数,以此类推直到剩余最后一个数,就是树根了,然后把每个合成的数分解开就是一颗最优二叉树,这里是用数组进行模拟的,好像每个合成的数这样加起来之和是和每个叶子结点的权值乘所在的层数之和是一样的,就是哈夫曼编码的长度