目录
问题描述
哈夫曼树是一种特定类型的二叉树,用于数据压缩算法中,特别是在哈夫曼编码的创建中。在哈夫曼树中,每个叶节点代表数据中的一个唯一符号,每个内部节点代表一组符号。树是使用贪婪算法构建的,该算法在每一步将两个最低频率的符号合并为一个单个节点,直到所有符号合并为单个根节点。
生成的哈夫曼树用于为每个符号生成一组可变长度的编码,对于频率更高的符号分配较短的编码,对于频率较低的符号分配较长的编码。这允许对原始数据进行高效压缩,因为最常见的符号可以用较少的位表示。
哈夫曼树广泛用于文件压缩算法中,例如在JPEG和MP3文件格式中使用,以减少数据的大小而不丢失任何信息。
本文主要分析贪心算法求解哈夫曼编码问题。
解题思路
使用二叉树来表示前缀码,每个字符都是树的叶子结点,非叶子结点则不代表任何字符。将每个字符构造成结点形成结点集S,每次都从结点集S中选出频率最低的两个结点x和y作为子节点进行建树,为这两个子结点构造一个父节点,父节点不保存任何字符,父节点的频率为两个子节点频率之和,将两个子节点从S中移走,将父节点加入S中。不断迭代下去,直到S只剩一个结点时,这个结点就是树的根节点。这样我们就得到了一棵Huffman树,整个过程就是一个自底向上的建树过程。由于从根节点到每个叶子节点有且仅有一条路径,所以,每个叶子的路径都是不一样的,唯一的。我们把从根节点到叶子节点的路径记录下来,便可作为叶子节点上字符的编码。初始化编码为空,从根节点开始,往左走则编码加0,往右走则编码加1。
具体代码:
#include <iostream>
#include <queue>
using namespace std;
// 哈夫曼树节点结构
struct Node {
char data;
int freq;
Node* left;
Node* right;
Node(char d, int f) : data(d), freq(f), left(nullptr), right(nullptr) {}
};
// 用于比较节点频率的函数对象
struct CompareNode {
bool operator()(Node* a, Node* b) {
return a->freq > b->freq;
}
};
// 构建哈夫曼树
Node* buildHuffmanTree(char data[], int freq[], int n) {
priority_queue<Node*, vector<Node*>, CompareNode> pq;
for (int i = 0; i < n; i++) {
Node* newNode = new Node(data[i], freq[i]);
pq.push(newNode);
}
while (pq.size() > 1) {
Node* left = pq.top();
pq.pop();
Node* right = pq.top();
pq.pop();
Node* parent = new Node('$', left->freq + right->freq);
parent->left = left;
parent->right = right;
pq.push(parent);
}
return pq.top();
}
// 打印哈夫曼编码
void printHuffmanCodes(Node* root, string code) {
if (root == nullptr) {
return;
}
if (root->data != '$') {
cout << root->data << ": " << code << endl;
}
printHuffmanCodes(root->left, code + "0");
printHuffmanCodes(root->right, code + "1");
}
int main() {
char data[] = { 'a', 'b', 'c', 'd', 'e', 'f' };
int freq[] = { 5, 9, 12, 13, 16, 45 };
int n = sizeof(data) / sizeof(data[0]);
Node* root = buildHuffmanTree(data, freq, n);
printHuffmanCodes(root, "");
return 0;
}