哈夫曼编码就是在哈夫曼树的基础上构建的,这种编码方式最大的优点就是用最少的字符包含最多的信息内容,进而实现信息的压缩存储。
根据发送信息的内容,通过统计文本中相同字符的个数作为每个字符的权值,建立哈夫曼树。对于树中的每一个子树,统一规定其左孩子标记为 0 ,右孩子标记为 1 。这样,用到哪个字符时,从哈夫曼树的根结点开始,依次写出经过结点的标记,最终得到的就是该结点的哈夫曼编码。
文本中字符出现的次数越多,在哈夫曼树中的体现就是越接近树根。编码的长度越短。
图 1 哈夫曼编码
举个例子,如图 1 所示,这是用权值分别为 7、5、2、4 的字符 a、b、c、d 构建的哈夫曼树。显然,字符 a 用到的次数最多,所以它对应的哈弗曼编码应最短,这里用 0
表示;其次,是字符 b 用的多,因此字符 b 编码为 10
,以此类推,字符 c 的编码为 110
,字符 d 的编码为 111
。
权值越大,表示此字符在文件中出现的次数越多,那么,为了实现用最少的字符包含最多的内容,就应该给出现次数越多的字符,分配的哈弗曼编码越短。
使用程序求哈夫曼编码有两种方法: