哈夫曼(Huffman)编码实现
哈夫曼编码(Huffman Coding)是一种编码方法,哈夫曼编码是可变字长编码(VLC)的一种。
哈夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。
哈夫曼编码可以有效的减少编码的长度。
比如你想发送“hello”到朋友那去,hello可以用两位二进制数来表示
h | e | l | o |
---|---|---|---|
00 | 01 | 10 | 11 |
hello可以编码后为0001101011
进行传输,但是这里的l字母出现了两次,出现频率是最高的,于是我们想到可以把出现频率高的字母的编码尽可能的短,那么这样的话,编码长度就会大大缩短了,哈夫曼编码就是为了解决这个问题的
哈夫曼树
哈夫曼编码需要依赖哈夫曼树来实现,哈夫曼树又称为最优二叉树,哈夫曼树是带权路径长度最小的树。
下面逐步介绍如何创建一颗哈夫曼树
假设有这样一串字符 a, b, c, d, e 它们所对应的权重(出现的概率)为 50, 10, 16, 8, 12,现在将它们生成一颗哈夫曼树。
具体过程:
1.先找出权重最小的两个字符构成一棵二叉树,这里最小的为d 和 b
它们父节点的权重是两者相加的结果,现在将b和d的权重从最开始序列( 50, 10, 16, 8, 12)中删除,再将它们的父节点的权重加入,最后为50,16,12,18
重复第一步,直到序列中只有一个元素为止
最后生成的哈夫曼树为
从生成的哈夫曼树中可以看出,从根节点到权重最高的字符所需的路径最短。
但如何从哈夫曼树中得到哈夫曼编码呢?只需遵循一个规则:从根节点开始,往下递归寻找,如果是左孩子就为0,右孩子就为1,那么树中的50,也就是a,的哈夫曼编码应该是1,bcde依次是,001,011,000,010
下面给出实现方式(描述语言:js)
ps:为了方便展示,所有的代码都冗到一个文件里了,方便大家看