使用Huffman方法对字符进行编码

1.字符编码有两种方式:定长编码和变长编码。定长编码如ASCII码,每一个字符都是由固定长度的二进制数据表示的。变长编码时,字符是可以由不同长度的二进制数据表示的。在变长编码时,为了保证解码时能有唯一的解码结果,编码必须为前缀码。(前缀码:任何一个字符的编码都不是其他字符编码的前缀)

2.huffman编码思路:将要编码的字符做为二叉树的叶节点,根据其权重构造二叉树,二叉树根到叶节点的路径代表词叶节点字符的编码。明显huffman方法产生的编码是前缀码,因为任何两个由根到叶节点的路径A,B是不可能存在A属于B或B属于A情况的 ( 由于A,B叶节点不同,所以叶节点到其父节点的路径是肯定不会相同的 )。

3.huffman编码思想:刚开始初始化n颗只有一个节点的树。不断从存在的树中选择权值最小的两颗构造成一颗新树,同时取代最小的这两颗,直到树构造完成。

4.代码:


哈夫曼编码(Huffman Coding)是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长 度最短的码字,有时称之为最佳编码,一般就叫作Huffman编码。 以哈夫曼树─即最优二叉树,带权路径长度最小的二叉树,经常应用于数据压缩。 在计算机信息处理中,“哈夫曼编码”是一种一致性编码法(又称"熵编码法"),用于数据的无损耗压缩。这一术语是指使用一张特殊的编码表将源字符(例如某文件中的一个符号)进行编码。这张编码表的特殊之处在于,它是根据每一个源字符出现的估算概率而建立起来的(出现概率高的字符使用较短的编码,反之出现概率低的则使用较长的编码,这便使编码之后的字符串的平均期望长度降低,从而达到无损压缩数据的目的)。这种方法是由David.A.Huffman发展起来的。 例如,在英文中,e的出现概率很高,而z的出现概率则最低。当利用哈夫曼编码对一篇英文进行压缩时,e极有可能用一个位(bit)来表示,而z则可能花去25个位(不是26)。用普通的表示方法时,每个英文字母均占用一个字节(byte),即8个位。二者相比,e使用了一般编码的1/8的长度,z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算,就可以大幅度提高无损压缩的比例。 <br>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值