Huffman编码
哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。
(来自百度百科)
霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。
<来自大佬博客>
在了解Huffman编码之前,首先你得对哈夫曼树进行了解
这里我浅谈一下哈夫曼树,具体定义我给不上来了,我举例子说明
譬如给你一些数,让你求这些数的最小两两合并代价(每一次合并的代价都是两堆数字的总和)
For example:
1 3 4 9 2
我们先合并 1 2, 得到3
再合并 3 3 得到6,
在合并 4 6 得到10,
最后合并9 10 得到 19;
这就是哈夫曼树的用法,每次把权值最小(在编码中就是所谓出现频率)的两个节点先进行合并
那么你仔细推一推可以发现,出现频率越高(权