python 数据结构与算法——Huffman编码

基本原理

目标

出现频率越高的字符编码的长度越短

步骤

  1. 统计字符(词)频率,例如
    在这里插入图片描述
  2. 依次将频数最小的两个根节点合并,新的根节点记录两个子节点的频数和
  • 合并 2 和 7
    在这里插入图片描述
  • 合并 9 和 12
  • 合并 13 和 14 在这里插入图片描述
  • 合并 21 和 27
    在这里插入图片描述
  • 最后合并 48 和 85,只剩下一个根节点
    在这里插入图片描述
  1. 计算每个叶子节点的 huffman 编码
    从根节点向叶子节点的路径等价于编码,左右两条边分别代表 0 和 1,则如上图所示的编码树,各个叶子节点的编码如下
a	001
b	0000
c	0001
d	010
e	011
f	1

python 实现

实现的时候可以使用抽象数据结构——优先队列

  • 把所有字母加入优先队列,key 为字母的频率(数)
  • 每次从优先队列中弹出两个节点,即频数最小的两个字母节点,将它们的频数相加,合并成新的节点并插入优先队列
  • 重复第二步,直到队列只剩一个结点
from heapq import heappush, heappop, heapify
from collections import defaultdict
 
def HuffmanEncode(characterFrequency):
    """Huffman encode the given dict mapping symbols to weights"""
    heap = [[freq, [sym, ""]] for sym, freq in list(characterFrequency.items())]
    heapify(heap)
    while len(heap) > 1:
        lo = heappop(heap)
        hi = heappop(heap)
        for pair in lo[1:]:
            pair[1] = '0' + pair[1]
        for pair in hi[1:]:
            pair[1] = '1' + pair[1]
        heappush(heap, [lo[0] + hi[0]] + lo[1:] + hi[1:])
    return sorted(heappop(heap)[1:], key=lambda p: (len(p[-1]), p))
inputText = "this is an example for huffman encoding"
characterFrequency = defaultdict(int)
for character in inputText:
    characterFrequency[character] += 1

huffCodes = HuffmanEncode(characterFrequency)
print("Symbol\tFrequency\tHuffman Code")
for p in huffCodes:
    print("%s\t\t\t%s\t\t\t%s" % (p[0], characterFrequency[p[0]], p[1]))
'''
Symbol	Frequency	Huffman Code
 			6			101
n			4			010
a			3			1001
e			3			1100
f			3			1101
h			2			0001
i			3			1110
m			2			0010
o			2			0011
s			2			0111
g			1			00000
l			1			00001
p			1			01100
r			1			01101
t			1			10000
u			1			10001
x			1			11110
c			1			111110
d			1			111111
'''
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值