赫夫曼树即最优树,是一类带权路径长度最短的树。
首先得,澄清几个概念:
(1)结点的路径长度:
从根结点到该结点的路径上分支的数目。
(2)树的路径长度:
从树根到每个结点的路径长度之和。
(3)树的带权路径长度:
树中所有叶子结点的带权路径长度之和,记作:
假设有n个权值{w1 , w2 , …wn}, 试构造一颗有n个叶子结点的二叉树,每个叶子结点带权为wi , 则其中带权路径长度WPL最小的二叉树称做:最优二叉树OR 赫夫曼树。
接下来得构造赫夫曼树(最优树)了,该如何构造赫夫曼树呢?—— 赫夫曼算法
给定实数 a , b , c , d , ......k 为权
(1)作 t 片树叶,分别以a , b , c , d , ......k 为权;
(2)在所有入度为0的顶点(不一定是树叶)中选出两个权最小的顶点,添加一个新分支点,它以这 2 个顶点为儿子,其权等于这 2 个儿子的权之和。
(3)重复(2),直到只有 1 个入度为0 的顶点为 止 。
W(T) 等于所有分支点的权之和。
赫夫曼编码——应用:
在进行快速远距离通信时,需要将传送的文字转换为二进制的字符组成的字符串,例如,假设需传送的电文 为“A B A C C D A" ,它只有4 个字符,只需两个字符的串便可分辨,假设A , B , C , D,编码分别为 00 , 01 , 10 , 11 , 则上述7 个字符的电文变为”00010010101100“ , 总长为14位, 对方接受时, 按照二位一位进行译码。 当然,在传送电文时,为节省 时间,要求传送的字符长度 尽量的短。 这就要求编码时,对于每个字符 尽量采取短的编码方式,如:A, B , C , D :编码分别为:0 , 00 , 1 和 01 , 则上述7 个字符的电文 可转换为总长为9的字符串——”000011010“ ,但是:在译码时,”0000“ 可以出现多种译法”AAAA“ 或 ”ABA“ 或”BB“ ,因此,在设计长短不等的编码时采用另一种编码方式:前缀编码。
前缀编码——任一个字符的编码都不是另一个字符的编码的前缀。
如何得到使电文总长最短的二进制前缀编码呢?
具体做法:
先来解决结点结构——由于在构成赫夫曼树之后,为求编码需从叶子结点出发走一条叶子到根的路径;而为译码需从根出发走一条从根到叶子的路径。则对每个结点而言,即须知道 双亲的信息,又需知道孩子结点的信息。
存储结构如下:
/* 赫夫曼树和赫夫曼编码的存储表示 */ typedef struct { unsigned int weight; unsigned int parent,lchild,rchild; }HTNode,*HuffmanTree; /* 动态分配数组存储赫夫曼树 */ typedef char **HuffmanCode; /* 动态分配数组存储赫夫曼编码表 */
接下来就是求赫夫曼编码了:
void HuffmanCoding(HuffmanTree *HT,HuffmanCode *HC,int *w,int n) /* 算法6.12 */ { /* w存放n个字符的权值(均>0),构造赫夫曼树HT,并求出n个字符的赫夫曼编码HC */ int m,i,s1,s2,start; unsigned c,f; HuffmanTree p; char *cd; if(n<=1) return; m=2*n-1; *HT=(HuffmanTree)malloc((m+1)*sizeof(HTNode)); /* 0号单元未用 */ for(p=*HT+1,i=1;i<=n;++i,++p,++w) { (*p).weight=*w; (*p).parent=0; (*p).lchild=0; (*p).rchild=0; } for(;i<=m;++i,++p) (*p).parent=0; for(i=n+1;i<=m;++i) /* 建赫夫曼树 */ { /* 在HT[1~i-1]中选择parent为0且weight最小的两个结点,其序号分别为s1和s2 */ select(*HT,i-1,&s1,&s2); (*HT)[s1].parent=(*HT)[s2].parent=i; (*HT)[i].lchild=s1; (*HT)[i].rchild=s2; (*HT)[i].weight=(*HT)[s1].weight+(*HT)[s2].weight; } /* 从叶子到根逆向求每个字符的赫夫曼编码 */ *HC=(HuffmanCode)malloc((n+1)*sizeof(char*)); /* 分配n个字符编码的头指针向量([0]不用) */ cd=(char*)malloc(n*sizeof(char)); /* 分配求编码的工作空间 */ cd[n-1]='\0'; /* 编码结束符 */ for(i=1;i<=n;i++) { /* 逐个字符求赫夫曼编码 */ start=n-1; /* 编码结束符位置 */ for(c=i,f=(*HT)[i].parent;f!=0;c=f,f=(*HT)[f].parent) /* 从叶子到根逆向求编码 */ if((*HT)[f].lchild==c) cd[--start]='0'; else cd[--start]='1'; (*HC)[i]=(char*)malloc((n-start)*sizeof(char)); /* 为第i个字符编码分配空间 */ strcpy((*HC)[i],&cd[start]); /* 从cd复制编码(串)到HC */ } free(cd); /* 释放工作空间 */ } void main() { HuffmanTree HT; HuffmanCode HC; int *w,n,i; printf("请输入权值的个数(>1): "); scanf("%d",&n); w=(int*)malloc(n*sizeof(int)); printf("请依次输入%d个权值(整型):\n",n); for(i=0;i<=n-1;i++) scanf("%d",w+i); HuffmanCoding(&HT,&HC,w,n); for(i=1;i<=n;i++) puts(HC[i]); }
int min1(HuffmanTree t,int i) { /* 返回i个结点中权值最小的树的根结点序号,函数select()调用 */ int j,flag; unsigned int k=UINT_MAX; /* 取k为不小于可能的值(无符号整型最大值) */ for(j=1;j<=i;j++) if(t[j].weight<k&&t[j].parent==0) /* t[j]是树的根结点 */ k=t[j].weight,flag=j; t[flag].parent=1; /* 给选中的根结点的双亲赋1,避免第2次查找该结点 */ return flag; } void select(HuffmanTree t,int i,int *s1,int *s2) { /* 在i个结点中选择2个权值最小的树的根结点序号,s1为其中序号小的那个 */ int j; *s1=min1(t,i); *s2=min1(t,i); if(*s1>*s2) { j=*s1; *s1=*s2; *s2=j; } }