python 数据结构与算法——Huffman编码

最新推荐文章于 2024-04-10 17:20:51 发布

颹蕭蕭

最新推荐文章于 2024-04-10 17:20:51 发布

阅读量1.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：数据结构与算法编程语言文章标签： huffman 编码压缩 python 算法

我们不生产知识，我们只是互联网的搬运工

本文链接：https://blog.csdn.net/itnerd/article/details/103973728

编程语言同时被 2 个专栏收录

240 篇文章

订阅专栏

数据结构与算法

25 篇文章

订阅专栏

本文深入探讨了霍夫曼编码的基本原理，详细解释了如何通过统计字符频率，运用优先队列合并节点，最终生成高效的数据压缩编码。并通过Python代码实现了霍夫曼编码的全过程，展示了其在实际应用中的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本原理

目标

出现频率越高的字符编码的长度越短

步骤

统计字符（词）频率，例如
依次将频数最小的两个根节点合并，新的根节点记录两个子节点的频数和

合并 2 和 7
合并 9 和 12
合并 13 和 14
合并 21 和 27
最后合并 48 和 85，只剩下一个根节点

计算每个叶子节点的 huffman 编码
从根节点向叶子节点的路径等价于编码，左右两条边分别代表 0 和 1，则如上图所示的编码树，各个叶子节点的编码如下

python 实现

实现的时候可以使用抽象数据结构——优先队列

把所有字母加入优先队列，key 为字母的频率(数)
每次从优先队列中弹出两个节点，即频数最小的两个字母节点，将它们的频数相加，合并成新的节点并插入优先队列
重复第二步，直到队列只剩一个结点

from heapq import heappush, heappop, heapify
from collections import defaultdict
 
def HuffmanEncode(characterFrequency):
    """Huffman encode the given dict mapping symbols to weights"""
    heap = [[freq, [sym, ""]] for sym, freq in list(characterFrequency.items())]
    heapify(heap)
    while len(heap) > 1:
        lo = heappop(heap)
        hi = heappop(heap)
        for pair in lo[1:]:
            pair[1] = '0' + pair[1]
        for pair in hi[1:]:
            pair[1] = '1' + pair[1]
        heappush(heap, [lo[0] + hi[0]] + lo[1:] + hi[1:])
    return sorted(heappop(heap)[1:], key=lambda p: (len(p[-1]), p))

inputText = "this is an example for huffman encoding"
characterFrequency = defaultdict(int)
for character in inputText:
    characterFrequency[character] += 1

huffCodes = HuffmanEncode(characterFrequency)
print("Symbol\tFrequency\tHuffman Code")
for p in huffCodes:
    print("%s\t\t\t%s\t\t\t%s" % (p[0], characterFrequency[p[0]], p[1]))
'''
Symbol	Frequency	Huffman Code
 			6			101
n			4			010
a			3			1001
e			3			1100
f			3			1101
h			2			0001
i			3			1110
m			2			0010
o			2			0011
s			2			0111
g			1			00000
l			1			00001
p			1			01100
r			1			01101
t			1			10000
u			1			10001
x			1			11110
c			1			111110
d			1			111111
'''