【C++】哈夫曼编码：高效的压缩算法

一岁就可帅-

于 2024-05-26 20:20:20 发布

阅读量572

点赞数 9

分类专栏： C++ 文章标签： c++ java 算法

本文链接：https://blog.csdn.net/W9940/article/details/139219594

版权

C++ 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

哈夫曼编码：高效的压缩算法

什么是哈夫曼编码？

哈夫曼编码是一种用于数据压缩的无损编码方法，由David A. Huffman于1952年提出。它利用了字符出现频率的不均匀性，通过构建最优前缀码，能够有效减少数据的冗余，从而实现高效的压缩。

哈夫曼编码的基本原理

哈夫曼编码的核心思想是使用较短的编码表示高频字符，较长的编码表示低频字符。通过这种方式，可以显著减少总体编码长度。具体步骤如下：

统计频率：
- 统计每个字符在数据中的出现频率。
构建优先队列：
- 将每个字符及其频率作为一个节点，构建一个优先队列（最小堆）。
构建哈夫曼树：
- 从优先队列中取出两个频率最小的节点，构建一个新的节点，其频率为两个节点频率之和。
- 将新节点重新插入队列中，重复该过程，直到队列中只剩下一个节点，即哈夫曼树的根节点。
生成编码：
- 从根节点开始，为每个左子节点分配“0”，右子节点分配“1”，递归进行直到叶子节点，叶子节点的路径即为该字符的哈夫曼编码。

详细步骤示例

假设我们需要对字符串“abbccdd”进行编码，具体步骤如下：

统计频率：

a: 1
b: 2
c: 2
d: 2

构建优先队列：

初始化优先队列：[(1, ‘a’), (2, ‘b’), (2, ‘c’), (2, ‘d’)]

构建哈夫曼树：

取出频率最小的两个节点(1, ‘a’)和(2, ‘b’)，合并为新节点(3, ‘ab’)。
插入新节点后，队列变为：[(2, ‘c’), (2, ‘d’), (3, ‘ab’)]
取出频率最小的两个节点(2, ‘c’)和(2, ‘d’)，合并为新节点(4, ‘cd’)。
插入新节点后，队列变为：[(3, ‘ab’), (4, ‘cd’)]
取出频率最小的两个节点(3, ‘ab’)和(4, ‘cd’)，合并为新节点(7, ‘abcd’)，形成最终的哈夫曼树：

      (7)
   0/     \1
 (3)      (4)
 0/ \1  0/   \1
(1) (2) (2) (2)
 |   |   |   |
 a   b   c   d

生成编码：

a: 00
b: 01
c: 10
d: 11

哈夫曼编码的优缺点

优点：

高效压缩：对于具有较大频率差异的数据，哈夫曼编码能显著降低编码长度。
无损压缩：能够完全恢复原始数据。

缺点：

静态性：经典哈夫曼编码需要先扫描数据统计频率，对于动态数据或实时数据不太适用。
复杂性：构建哈夫曼树需要额外的存储空间和计算资源。

哈夫曼编码的应用

哈夫曼编码广泛应用于各种数据压缩场景，例如：

文件压缩：如ZIP、RAR等文件格式。
多媒体编码：如JPEG、MP3等格式中的数据压缩。
通信系统：用于高效数据传输。

代码实现

下面是一个用C++实现的简单哈夫曼编码示例：

#include <iostream>
#include <queue>
#include <unordered_map>
#include <vector>

using namespace std;

struct Node {
    char ch;
    int freq;
    Node *left, *right;

    Node(char c, int f) : ch(c), freq(f), left(nullptr), right(nullptr) {}
};

// 比较函数，用于优先队列
struct Compare {
    bool operator()(Node* l, Node* r) {
        return l->freq > r->freq;
    }
};

void buildCodes(Node* root, string str, unordered_map<char, string> &huffmanCode) {
    if (!root) return;

    // 叶子节点
    if (!root->left && !root->right) {
        huffmanCode[root->ch] = str;
    }

    buildCodes(root->left, str + "0", huffmanCode);
    buildCodes(root->right, str + "1", huffmanCode);
}

void huffmanCoding(string text) {
    // 统计频率
    unordered_map<char, int> freq;
    for (char ch : text) {
        freq[ch]++;
    }

    // 构建优先队列
    priority_queue<Node*, vector<Node*>, Compare> pq;
    for (auto pair : freq) {
        pq.push(new Node(pair.first, pair.second));
    }

    // 构建哈夫曼树
    while (pq.size() != 1) {
        Node *left = pq.top(); pq.pop();
        Node *right = pq.top(); pq.pop();

        int sum = left->freq + right->freq;
        Node *node = new Node('\0', sum);
        node->left = left;
        node->right = right;

        pq.push(node);
    }

    // 根节点
    Node* root = pq.top();

    // 生成编码
    unordered_map<char, string> huffmanCode;
    buildCodes(root, "", huffmanCode);

    // 输出编码
    cout << "哈夫曼编码：\n";
    for (auto pair : huffmanCode) {
        cout << pair.first << " " << pair.second << "\n";
    }

    // 编码文本
    string encodedString = "";
    for (char ch : text) {
        encodedString += huffmanCode[ch];
    }

    cout << "编码后的字符串：\n" << encodedString << "\n";
}

int main() {
    string text = "abbccdd";
    huffmanCoding(text);
    return 0;
}