前言:之前就觉得大作业该写一篇博客,用word文档太不方便了。
哈夫曼树的应用
题目2:
要传输一则报文内容如下:
“AAAAAAAAAAAAAAABBBBBBBBBCCCCCCCCDDDDDDDDDDDDEEEEEEEEEEFFFFF”
请为这段报文设计哈夫曼编码,要求如下:
1.请计算出每个字符出现的概率,并以概率为权重来构造哈夫曼树,写出构造过程、画出
最终的哈夫曼树,得到每个字符的哈夫曼编码。
2.请将上述设计哈夫曼编码的过程,用代码来实现,并输出各个字母的哈夫曼编码。(有
代码,有运行结果的截图)
3.请分析算法的效率,至少包括时间复杂度和空间复杂度等。
一.构造原理
(1)
报文由59个字符组成,所以报文字符总数为59,报文字符的种类有6种,每种字符的频数和概率(保留两位小数)如图1所示:
图1
(2)
构造过程:
1.根据给定的n个权值{w1,w2,…,.wn}构成n棵二叉树的集合F={T1,T2,…,Tn},其中每棵二叉树Ti 中只有一个带权为wi根结点,其左右子树均为空。
图2
2.在F中选取两棵根结点的权值最小的树作为左右子树构造一棵新的二叉树,且置新的二叉树的根结点的权值为其左右子树上根结点的权值之和。
3.在F中删除这两棵树,同时将新得到二叉树加入F中。
4.重复2和3步骤,直到F只含一棵树为止。如图3所示这棵树便是哈夫曼树。
图3
对上述的哈夫曼树,将其树中每个结点左分支赋0、右分支赋1,则从根结点开始到叶子结点,得到的一个二进制串,即为该字符的哈夫曼编码。
图4
(3)
由图4知
A字符的编码为10
B字符的编码为110
C字符的编码为011
D字符的编码为00
E字符的编码为111
F字符的编码为010
二. 代码编写:
#include<stdio.h>
#include<stdlib.h>
#define MAXBIT 100
#define MAXLEAF 50
#define MAXNODE MAXLEAF*2-1
#define MAXQZ 99999//权重
typedef struct
{
int bit[MAXBIT];
int start;
}HCodeType;//编码结构体
typedef struct
{
int weight;
int parent;
int lchild;
int rchild;
char value;
}HNode;//结点结构体
void HuffmanTree(HNode HuffNode[MAXNODE],int n)//构造哈夫曼树
{
int i=0,j,m1,m2,x1,x2;
char x;
printf("请输入每种报文字符\n");
while(i<n)//初始化哈夫曼树中叶子结点
{
HuffNode[i].weight=0;
HuffNode[i].parent=-1;
HuffNode[i].lchild=-1;
HuffNode[i].rchild=-1;
scanf("%c",&x);
scanf("%c",&HuffNode[i].value);
i++;
}
printf("请输入每种报文字符的权重\n");
i=0;
while(i<n)
{
scanf("%d",&HuffNode[i].weight);
i++;
}
for(i=n;i<2*n-1;i++)//初始化哈夫曼树中其他结点
{
HuffNode[i].weight=0;
HuffNode[i].parent=-1;
HuffNode[i].lchild=-1;
HuffNode[i].rchild=-1;
HuffNode[i].value=i;
}
for(i=0;i<n-1;i++)//选出最小权重的两个结点
{
m1=m2=MAXQZ;
x1=x2=0;
for(j=0;j<n+i;j++)
{
if(HuffNode[j].weight<m1&&HuffNode[j].parent==-1)
{
m2=m1;
x2=x1;
m1=HuffNode[j].weight;
x1=j;
}
else if(HuffNode[j].weight<m2&&HuffNode[j].parent==-1)
{
m2=HuffNode[j].weight;
x2=j;
}
}
HuffNode[x1].parent=n+i;
HuffNode[x2].parent=n+i;
HuffNode[n+i].weight=HuffNode[x1].weight+HuffNode[x2].weight;
HuffNode[n+i].lchild=x1;
HuffNode[n+i].rchild=x2;
}
}
int main()
{
HNode HuffNode[MAXNODE];
HCodeType HuffCode[MAXLEAF],cd;
int i,j,c,p,n,k=0;
char z;
printf("请输入报文字符种类个数\n");
scanf("%d",&n);
HuffmanTree(HuffNode,n);
for(i=0;i<n;i++)//自下而上获取编码,逆序存入
{
cd.start=n-1;
c=i;
p=HuffNode[c].parent;
while(p!=-1)
{
if(HuffNode[p].lchild==c)
cd.bit[cd.start]=0;
else
cd.bit[cd.start]=1;
cd.start--;
c=p;
p=HuffNode[c].parent;
}
for(j=cd.start+1;j<n;j++)
HuffCode[i].bit[j]=cd.bit[j];
HuffCode[i].start=cd.start;
}
for(i=0;i<n;i++)//输出编码
{
printf("%c的编码:",HuffNode[i].value);
for(j=HuffCode[i].start+1;j<n;j++)
printf("%d",HuffCode[i].bit[j]);
printf("\n");
}
return 0;
}
(以概率为权重)
三. 算法分析
(1)总体分析:
1.哈夫曼编码是最优前缀编码:有n种不同的字符,分别以它们的出现概率构造哈夫曼树,利用该树对应的哈夫曼编码对报文进行编码,得到压缩后的最短二进制编码。
2.关键步骤是选出最小权重的两个结点,合并,形成一个新的结点,其权值是左右孩子权值之和,然后然后再根据哈夫曼树自下而上获取编码,逆序存入。
3.关键步骤属于贪心算法,每次选择的两个结点是当下的最优解,通过n-1次合并形成带权路径长度WPL最短的二叉树,即是哈夫曼树。
(2)复杂度:
1.时间复杂度:有n个叶子节点,构成的哈夫曼树总共有2n-1个节点,由于关键步骤是选出最小权重的两个结点,有for循环嵌套总共两层,所以时间复杂度为O(n^2)。
2.空间复杂度:由于关键步骤是选出最小权重的两个结点采用的是选择排序,不需要额外的存储空间,所以空间复杂度为O(1)。