基本原理
目标
出现频率越高的字符编码的长度越短
步骤
- 统计字符(词)频率,例如
- 依次将频数最小的两个根节点合并,新的根节点记录两个子节点的频数和
- 合并 2 和 7
- 合并 9 和 12
- 合并 13 和 14
- 合并 21 和 27
- 最后合并 48 和 85,只剩下一个根节点
- 计算每个叶子节点的 huffman 编码
从根节点向叶子节点的路径等价于编码,左右两条边分别代表 0 和 1,则如上图所示的编码树,各个叶子节点的编码如下
a 001
b 0000
c 0001
d 010
e 011
f 1
python 实现
实现的时候可以使用抽象数据结构——优先队列
- 把所有字母加入优先队列,key 为字母的频率(数)
- 每次从优先队列中弹出两个节点,即频数最小的两个字母节点,将它们的频数相加,合并成新的节点并插入优先队列
- 重复第二步,直到队列只剩一个结点
from heapq import heappush, heappop, heapify
from collections import defaultdict
def HuffmanEncode(characterFrequency):
"""Huffman encode the given dict mapping symbols to weights"""
heap = [[freq, [sym, ""]] for sym, freq in list(characterFrequency.items())]
heapify(heap)
while len(heap) > 1:
lo = heappop(heap)
hi = heappop(heap)
for pair in lo[1:]:
pair[1] = '0' + pair[1]
for pair in hi[1:]:
pair[1] = '1' + pair[1]
heappush(heap, [lo[0] + hi[0]] + lo[1:] + hi[1:])
return sorted(heappop(heap)[1:], key=lambda p: (len(p[-1]), p))
inputText = "this is an example for huffman encoding"
characterFrequency = defaultdict(int)
for character in inputText:
characterFrequency[character] += 1
huffCodes = HuffmanEncode(characterFrequency)
print("Symbol\tFrequency\tHuffman Code")
for p in huffCodes:
print("%s\t\t\t%s\t\t\t%s" % (p[0], characterFrequency[p[0]], p[1]))
'''
Symbol Frequency Huffman Code
6 101
n 4 010
a 3 1001
e 3 1100
f 3 1101
h 2 0001
i 3 1110
m 2 0010
o 2 0011
s 2 0111
g 1 00000
l 1 00001
p 1 01100
r 1 01101
t 1 10000
u 1 10001
x 1 11110
c 1 111110
d 1 111111
'''