哈夫曼编码：最小信息熵

三余知行

已于 2024-08-12 22:13:03 修改

阅读量1.1k

点赞数 22

分类专栏：「算法通解」「数智通识」文章标签： leetcode 霍夫曼树信息与通信熵压缩算法

于 2024-08-08 21:01:13 首次发布

本文链接：https://blog.csdn.net/ChaoMing_H/article/details/141034827

版权

「数智通识」同时被 2 个专栏收录

43 篇文章 1 订阅

订阅专栏

「算法通解」

7 篇文章 1 订阅

订阅专栏

概述

哈夫曼编码由大卫·哈夫曼在 1952 年提出，是一种贪心算法，旨在最小化传输数据时的平均码长。因此，它的研究涉及信息论、数据压缩和最优编码等多个领域。

哈夫曼编码是一种广泛应用的无损数据压缩技术。它基于字符出现频率构建一棵最优二叉树，从而生成不同长度的编码，使得频繁出现的字符用较短的编码，而不常见的字符用较长的编码。

原理分析

哈夫曼编码利用字符的频率构建一棵二叉树。频率较高的字符对应较短的编码，频率较低的字符对应较长的编码，从而降低整体编码长度。

哈夫曼编码的基本工作原理如下：

频率分析：扫描数据源，统计每个字符在数据中的出现频率。
优先队列：使用最小堆维护字符及其频率，将频率最低的两个字符合并为新节点，频率为其之和，直到只剩一个节点。这些节点构成哈夫曼树。
编码生成：从根节点出发，对每个分支（左 0 右 1）进行编码，直到达到叶节点，即获得字符对应的编码。

工程实现

哈夫曼编码的实现通常包含以下几个步骤:

统计每个字符的频率。
将每个字符及其频率作为节点，构建一个优先队列。
从队列中取出两个最小频率节点，合并为新节点，频率为两者之和，重新插入到队列中。
重复此过程，直到队列中只剩一个节点（即哈夫曼树）。
从根节点出发，左子树编码为 0，右子树编码为 1，生成对应编码。

哈夫曼树

哈夫曼树（Huffman Tree）是一种特殊的二叉树，用于实现哈夫曼编码。在哈夫曼树中，频率越高的字符离根节点越近，从而使得其编码长度较短。

哈夫曼树是一种基于字符频率的最优二叉树，每个叶节点代表一个字符，内部节点代表子树的合并。

构建哈夫曼树的过程是贪心算法的一个实例。首先统计每个字符出现的频率，然后根据频率构建一个优先队列（通常是最小堆）。接着，重复从队列中取出两个频率最低的节点，创建一个新的内部节点，其频率是这两个节点频率之和，直到队列中只剩下一个节点，这个节点就是哈夫曼树的根节点。

下面是哈夫曼树的具体实现：

import heapq
from collections import defaultdict, Counter

class HuffmanNode:
    def __init__(self, char=None, freq=0):
        self.char = char
        self.freq = freq
        self.left = None
        self.right = None

    def __lt__(self, other):
        return self.freq < other.freq

def build_huffman_tree(char_freq):
    heap = [HuffmanNode(char, freq) for char, freq in char_freq.items()]
    heapq.heapify(heap)

    while len(heap) > 1:
        node1 = heapq.heappop(heap)
        node2 = heapq.heappop(heap)
        merged = HuffmanNode(freq=node1.freq + node2.freq)
        merged.left = node1
        merged.right = node2
        heapq.heappush(heap, merged)

    return heap[0], len(heap[0])

def generate_codes(node, prefix="", codebook=None):
    if codebook is None:
        codebook = {}

    if node.char is not None:
        codebook[node.char] = prefix
    else:
        generate_codes(node.left, prefix + "0", codebook)
        generate_codes(node.right, prefix + "1", codebook)

    return codebook

def huffman_encoding(data):
    if not data:
        return "", None

    freq_count = Counter(data)
    root, _ = build_huffman_tree(freq_count)
    codebook = generate_codes(root)
    encoded_data = "".join(codebook[char] for char in data)

    return encoded_data, root

def huffman_decoding(encoded_data, root):
    decoded_data = []
    node = root
    for bit in encoded_data:
        node = node.left if bit == '0' else node.right
        if node.char is not None:
            decoded_data.append(node.char)
            node = root
    return ''.join(decoded_data)

# 测试
if __name__ == "__main__":
    data = "this is an example for huffman encoding"
    encoded_data, tree = huffman_encoding(data)
    print(f"Encoded Data: {encoded_data}")
    decoded_data = huffman_decoding(encoded_data, tree)
    print(f"Decoded Data: {decoded_data}")