问题 J: 赫夫曼编码
题目描述
赫夫曼编码能够产生最短的报文。以报文“ABCDABCDABCABDABAA”为例,A编为0,B对应10,C对应110,D对应111,整体的报文长度为35位二进制。相比于定长的ASCII码,压缩比达到了18*8/35=4.1。
输入
输入有一系列的字符串组成,每个字符串占据一行。字符串仅包含大写字母和下划线。字符串“END” 表示处理结束,不应对其处理。
输出
对每一个字符串,输出其ASCII编码的比特位长度,赫夫曼编码的比特位长度,以及二者之比,精确到小数点后一位。
样例输入
ABCDABCDABCABDABAA
AAAAAAAAAAAAAAAAAA
END
样例输出
144 35 4.1
144 18 8.0
#include <stdio.h> #include <string.h> #define N 5000000 #define inf 100000000 struct node { int val; int left,right,parent; }p[1000]; int f[N]; int len[N]; char str[N]; int data[N]; void hufuman(int n) { int i,flag; int min1,min2,pos1,pos2; //最小节点,次小节点,最小节点标记,次小节点标记 for(i =0; i < n; i++) { p[i].val = f[i]; //权值 p[i].parent =-1; //赋初值 p[i].left =-1; //赋初值 p[i].right =-1; //赋初值 } while(1) { int mark1=0,mark2=0; min1=min2=inf; for(i =0; i<n; i++) //找出最小的两个节点 { if(p[i].parent==-1&& p[i].val<min1) { if(min1!= min2) { min2 = min1; //将次小节点赋值给min2 pos2 = pos1; //标记跟着变化 mark2 =1; //标记 } min1 = p[i].val; //将最小节点赋值给min1 pos1 = i; //标记跟着变化 mark1 =1; //标记 } else if(p[i].parent ==-1&& p[i].val<min2) { min2 = p[i].val; //将次小节点赋值给min2 pos2 = i; //标记跟着变化 mark2 =1; //标记 } } if(mark1 ==0|| mark2 ==0) //已经没有节点 break; p[n].val=min1+min2; //父母节点的权值 p[pos1].parent=n; p[pos2].parent=n; p[n].left=pos1; //左子树 p[n].right=pos2; //右子树 p[n].parent=-1; n++; } for(i =0;i<n; i++) //计算赫夫曼编码长度过程 { if(p[i].right!=-1||p[i].left!=-1) break; flag=i; len[i]=1; while(p[flag].parent!=-1) //一直向上搜,直到顶层 { len[i]++; flag=p[flag].parent; } } return; } int main() { int i; while(scanf("%s",str)!=EOF) { if(!strcmp(str,"END")) break; memset(data,0,sizeof(data)); memset(f,0,sizeof(f)); int ll=strlen(str); for(i=0;i<ll;i++) data[(int)str[i]]++; int num =0; for(i=0;i<128;i++) //将字母的频数存入f数组 { if(data[i] !=0) { f[num++]=data[i]; } } if(num==1) //只有1种字母的情况 { printf("%d %d 8.0\n",strlen(str)*8,f[0]); continue; } hufuman(num); int sum=0; for(i =0; i < num; i++) { if(len[i] !=1) sum+=(len[i]-1)*f[i]; } printf("%d %d %.1lf\n", strlen(str)*8,sum, ll*8/(double)sum); } return 0; }