Hoffman 编码 (上)

Hoffman 编码
在讨论哈夫曼编码前,先说2个案例。
假如我们用01对数据进行编码一篇全英文的文章,要求编码后的文件最小。

比如我这篇文章是"AAABBC",
分析:
有3种字母A、B、C
那么只要用2位编码就够了,分别是0、1、10、 11


#1 假如我A用0表示,B用1表示 , C用10表示
那么这篇文章编码后就是0| 0| 0| 1| 1| 10| 一共13个数字

#2 假如我A用10表示,B用1表示 C用0表示
那么这篇文章编码后就是 000| 000| 000| 1| 1| 0| 一共18个数字

所以明显第一种情况比较优。


既然存在优化的可能,那么我们就可以尝试做到最优了。

这个优化的思路就是要求出这篇文章每个字母出现的次数,出现少的用长数字(比如:10),出现的次数多的用短数字(如:0 或 1)


现在问题来了。
已知这篇文章用到的字母,和每个字母出现的次数,用01对他们进行编码。
如果上面的例子:
已知字母{ A、B、C }, 出现次数 { 3、2、1  }
对于的编码:

A:10
B :  1
C :  0


分析:
我们可以分析发现有一种数据结构和这个命题很相似(其实是哈夫曼先生发现的)
就是树,当树的叶子节点离根节点越远,树干越多,而离跟节点越近,树干越少。
这个时候我们把叶子节点比喻成A、B、C 这些字母,出现次数越少的离根越远,出现次数越多的离根节点越近。
把树干比喻成0和1,左边的树干比喻成0,右边的树干比喻成1.这样树干在翻译一下,就是我们要的编码了。

现在我们的问题变成了怎么建立这颗二叉树呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值