哈夫曼压缩解压缩任意文件

最新推荐文章于 2024-05-19 17:39:56 发布

jefbai

最新推荐文章于 2024-05-19 17:39:56 发布

阅读量1.9k

点赞数 2

分类专栏：软件设计文章标签： windows Windows 数据结构

本文链接：https://blog.csdn.net/jefbai/article/details/8191514

版权

软件设计专栏收录该内容

6 篇文章 0 订阅

订阅专栏

哈夫曼压缩解压缩任意文件

jefby.

Xidian University.

花了两天多的时间，终于搞完了哈夫曼解压缩任意文件，因为以前写过哈夫曼编码/解码字符串的程序，以为会比较简单，技术难度应该不大，但是这次写这个程序才真的明白，代码实现和理论上构想之间的差距有多么大的差距！你想的再好，不能用代码实现起来，仍然是一件很扯的事情，踏踏实实的写代码，从实际出发，你会奇异的发现自己竟然会犯各种2B的问题，比如说=和==不分（笔者熟悉VHDL语言，在VHDL语言里面=就是相等比较符号，所以有点乱哈），还有你想不到的问题，缓冲区处理问题，字节对齐问题等等。好了，废话不多说，开始总结下实现的方法：

哈弗曼原理比较简单，相信很多人都很清楚，故笔者在这里不做理论方面的分析了，直接从具体实现入手：要实现任意文件的压缩和解压缩，首先得明白文件都是按字节存储的，故可以按字节进行统计，然后进行哈弗曼编码，获取到哈弗曼编码表后然后再进行压缩，为了提高效率，笔者从源文件读取的时候是按块进行读的，每次读取4MB的数据，然后逐字节进行处理，在此处笔者定义了数据结构，

这样查找替换的效率非常高，替换后也是先替换到一个暂存缓冲区

然后等到缓冲区满的时候再次利用一个’1’，’0’，字符串转换为字节的算法直接对其编码，这里有一个问题需要考虑，如果最后哈弗曼编码的长度不能按字节对齐，那么该怎么办？？笔者使用了一种比较简单的方法，即在文件头处预留16个字节，在第一个字节定义了为了对齐需补充的位数，在解码的时候，首先读取16个字节，然后将第一个字节保存起来，当一次读取的字节数小于缓冲区的大小时，说明是最后一次读取，此时需要注意将解码的实际个数修改为实际读到的字节数-第一个字节（为了去除掉补充的位）。这个是压缩时处理未对齐情况的具体代码实现部分。

另外压缩缓冲区的处理问题也比较多，第一，当替换的哈弗曼编码长度小于缓冲区长度时，直接更新写缓冲区的指针，如果刚好的话需要将缓冲区指针清零，将写缓冲区写入压缩文件，写缓冲区清零，如果大于写缓冲区的话，首先，从哈弗曼编码中取出刚好凑足写缓冲区长度大小，然后将写缓冲区写入文件，刷新写缓冲，并将剩余的哈弗曼编码值存储到新的写缓冲，更新写缓冲的指针。具体实现如下：

解压缩的时候思想比较简单，也是按块读取，然后一次性全部转换为’0’,’1’字符串，然后每次从树根向下查找，找到了叶子节点后，根据构建的哈弗曼树数组，将原始字符写入写缓冲区，这里缓冲区出来也比较复杂，第一，按块读取，第二个就是本次读取的块并不能刚好走到叶子节点处，此时，需要从此处回退，直至根节点，将走的步数记录下来，并将未成功的路径保存在异常处理数组中，而每次查找叶子节点时，首先必须确定异常处理指针是否为0，若不为0，则从异常处理数组中取出值，从树根开始走到指针处，然后将新读取的块加入进来，最终一定会找到一个匹配的字符，然后将该字符写入写缓冲区，具体实现代码如下：

其他的也就没啥了，上个成功运行图吧！原始文件为22MB左右的MP4文件，

原始视频

解压缩之后的视频：

经测试，解压缩之后的视频与原文件完全相同，

另一个例子是txt格式的文本

这个压缩比还可以，速度也挺快的1s中就搞定了。。^_^。

jefbai

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
哈夫曼压缩解压缩任意文件

哈夫曼压缩解压缩任意文件 jefby.Xidian University. 花了两天多的时间，终于搞完了哈夫曼解压缩任意文件，因为以前写过哈夫曼编码/解码字符串的程序，以为会比较简单，技术难度应该不大，但是这次写这个程序才真的明白，代码实现和理论上构想之间的差距有多么大的差距！你想的再好，不能用代码实现起来，仍然是一件很扯的事情，踏踏实实
复制链接

扫一扫