1.问题
给定字符集C={x1,x2,…,xn}和每个字符的频率f(xi),求关于C的一个最优前缀码。
2.解析
由哈夫曼树求得的编码为最优前缀码。每个叶子表示的字符的编码,就是从根到叶子的路径上的标号 依次相连所形成的编码,显然这就是该字符的最优前缀码。所谓前缀码是指,对字符集进行编码时, 要求字符集中任一字符的编码都不是其它字符的编码的前缀,比如常见的等长编码就是前缀码。所谓 最优前缀码是指,平均码长或文件总长最小的前缀编码称为最优的前缀码(这里的平均码长相当于码 长的期望值)。
1.每个叶子字符ci的码长恰为从根到该叶子的路径长度li,平均码长(或文件总长)又是二叉树的带权 路径长度WPL.而哈夫曼树是WPL最小的二叉树,因此编码的平均码长亦最小。
2.树中没有一片叶子是另一个叶子的祖先,每片叶子对应的编码就不可能是其它叶子编码的前缀。
构造方法:用被编码的字符作为叶子,构造二叉树,然后在二叉树的左分支上标“0”,右分支标“1” (或反过来),每个字符的编码就是从根到该字符叶子所经路径上的0,1序列.
例如:有a、b、c、d、e 5个字符。
在这里插入图片描述
二叉树结构存储:
例如:
前缀码及其频率:00000:5%,00001:5%,0001:10%,001:15%,01:25%,100:10%,101:10%,11:10%。
二叉树如下:
在这里插入图片描述
3.设计
void CreateHuffmanTree(HuffmanTree T){
//构造哈夫曼树,T[m-1]为其根结点
int i,p1,p2;
InitHuffmanTree(T); //将T初始化
InputWeight(T); //输入叶子权值
for(i=n;i<m;i++){
//在当前森林T[0..i-1]的所有结点中,选取权最小和次小的
//两个根结点T[p1]和T[p2]作为合并对象
//共进行n-1次合并,新结点依次存于T[i]中
SelectMin(T,i-1,&p1,&p2);//选择权值最小和次小的根结点,其序号分别为p1和p2
//将根为T[p1]和T[p2]的两棵树作为左右子树合并为一棵新的树
//新树的根是新结点T[i]
T[p1].parent=T[p2].parent=i;//T[p1]和T[p2]的两棵树的根结点指向i
T[i].lchild=p1; //最小权的根结点是新结点的左孩子
T[i].rchild=p2; //次小权的根结点是新结点的右孩子
T[i].weight=T[p1].weight+T[p2].weight;//新结点的权值是左右子树的权值之和
}
}
void CharSetHuffmanEncoding(HuffmanTree T,HuffmanCode H){
//根据哈夫曼树T求哈夫曼编码表H
int c,p;//c和p分别指示T中孩子和双亲的位置
char cd[n+1];//临时存放编码
int start;//指示编码在cd中的起始位置
cd[n]=’\0’;//编码结束符
getchar();
for(int i=0;i<n;i++){//依次求叶子T[i]的编码
H[i].ch=getchar();//读入叶子T[i]对应的字符
start=n;//编码起始位置的初值
c=i;//从叶子T[i]开始上溯
while((p=T[c].parent)>=0){//直至上溯到T[c]是树根为止
//若T[c]是T[p]的左孩子,则生成代码0;否则生成代码1
if(T[p].lchild==c)
cd[–start]=‘0’;
else
cd[–start]=‘1’;
c=p;//继续上溯
}
strcpy(H[i].bits,&cd[start]);//复制编码位串
}
}
4.分析
5.源码
[github源码地址]
https://github.com/Windycat0/-/blob/main/%E6%9C%80%E4%BC%98%E5%89%8D%E7%BC%80%E7%A0%81