数据结构实验之二叉树六:哈夫曼编码
Time Limit: 1000 ms Memory Limit: 65536 KiB
Problem Description
字符的编码方式有多种,除了大家熟悉的ASCII编码,哈夫曼编码(Huffman Coding)也是一种编码方式,它是可变字长编码。该方法完全依据字符出现概率来构造出平均长度最短的编码,称之为最优编码。哈夫曼编码常被用于数据文件压缩中,其压缩率通常在20%~90%之间。你的任务是对从键盘输入的一个字符串求出它的ASCII编码长度和哈夫曼编码长度的比值。
Input
输入数据有多组,每组数据一行,表示要编码的字符串。
Output
对应字符的ASCII编码长度la,huffman编码长度lh和la/lh的值(保留一位小数),数据之间以空格间隔。
Sample Input
AAAAABCD
THE_CAT_IN_THE_HAT
Sample Output
64 13 4.9
144 51 2.8
Hint
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include<algorithm>
#include<malloc.h> //上面几个用包含了sort函数
using namespace std; // c++里的
int main()
{
int j,i,len;
char s[5005];
while(gets(s))
{
int b[50005] = {0},a[50005] = {0};
int ct = 0;
int sum =0;
len = strlen(s);
for(i = 0;i < len;i++) //这段很重要,这段实现了统计字符,让b的空间大一点,超过ascii码
{
b[s[i]]++; //比如'A'的ascii码为65,那么当s数组中出现一次A,则b[65]++;
}
for(i = 0,j=0;i <= 500;i++)
{
if(b[i] != 0)a[j++] = b[i]; //不为零就让a数组计入
}
while(j - ct >= 2)
{
sort(a+ct,a+j); //排序
int x1 = a[ct++]; //x1 为第一小的数
int x2 = a[ct++]; //x2 第二小
a[j++] = x1 + x2; // 在a数组最后一个有效值后面计入两个数的和
sum +=x1+x2; //sum计入和,作为霍夫曼码统计
}
printf("%d %d %.1lf\n",len*8,sum,double((len*8*1.0)/(sum+0.0))); //double处强制转换
}
return 0;
}