0023算法笔记——【贪心算法】哈夫曼编码问题

最新推荐文章于 2025-05-01 16:36:20 发布

风仲达

最新推荐文章于 2025-05-01 16:36:20 发布

阅读量10w+

点赞数 49

分类专栏：算法算法笔记——《算法设计与分析》文章标签：哈夫曼问题贪心算法算法笔记最小堆二叉树

本文链接：https://blog.csdn.net/liufeng_king/article/details/8720896

版权

本文介绍了哈夫曼编码，一种用于数据压缩的有效编码方法。通过贪心算法构建最优前缀码，以降低文件编码的平均码长，从而提高压缩效率。文章详细讲解了哈夫曼编码的原理、构造过程、贪心选择性质和最优子结构，并给出了具体的代码实现示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、问题描述

哈夫曼编码是广泛地用于数据文件压缩的十分有效的编码方法。其压缩率通常在20%～90%之间。哈夫曼编码算法用字符在文件中出现的频率表来建立一个用0，1串表示各字符的最优表示方式。一个包含100,000个字符的文件，各字符出现频率不同，如下表所示。

有多种方式表示文件中的信息，若用0,1码表示字符的方法，即每个字符用唯一的一个0,1串表示。若采用定长编码表示，则需要3位表示一个字符，整个文件编码需要300,000位；若采用变长编码表示，给频率高的字符较短的编码；频率低的字符较长的编码，达到整体编码减少的目的，则整个文件编码需要（45×1+13×3+12×3+16×3+9×4+5×4）×1000=224,000位，由此可见，变长码比定长码方案好，总码长减小约25%。

前缀码：对每一个字符规定一个0,1串作为其代码，并要求任一字符的代码都不是其他字符代码的前缀。这种编码称为前缀码。编码的前缀性质可以使译码方法非常简单；例如001011101可以唯一的分解为0,0,101,1101，因而其译码为aabe。

译码过程需要方便的取出编码的前缀，因此需要表示前缀码的合适的数据结构。为此，可以用二叉树作为前缀码的数据结构：树叶表示给定字符；从树根到树叶的路径当作该字符的前缀码；代码中每一位的0或1分别作为指示某节点到左儿子或右儿子的“路标”。