哈夫曼压缩解压缩任意文件

哈夫曼压缩解压缩任意文件

                       jefby.

Xidian University.

 

花了两天多的时间,终于搞完了哈夫曼解压缩任意文件,因为以前写过哈夫曼编码/解码字符串的程序,以为会比较简单,技术难度应该不大,但是这次写这个程序才真的明白,代码实现和理论上构想之间的差距有多么大的差距!你想的再好,不能用代码实现起来,仍然是一件很扯的事情,踏踏实实的写代码,从实际出发,你会奇异的发现自己竟然会犯各种2B的问题,比如说=和==不分(笔者熟悉VHDL语言,在VHDL语言里面=就是相等比较符号,所以有点乱哈),还有你想不到的问题,缓冲区处理问题,字节对齐问题等等。好了,废话不多说,开始总结下实现的方法:

哈弗曼原理比较简单,相信很多人都很清楚,故笔者在这里不做理论方面的分析了,直接从具体实现入手:要实现任意文件的压缩和解压缩,首先得明白文件都是按字节存储的,故可以按字节进行统计,然后进行哈弗曼编码,获取到哈弗曼编码表后然后再进行压缩,为了提高效率,笔者从源文件读取的时候是按块进行读的,每次读取4MB的数据,然后逐字节进行处理,在此处笔者定义了数据结构,

这样查找替换的效率非常高,替换后也是先替换到一个暂存缓冲区


然后等到缓冲区满的时候再次利用一个’1’,’0’,字符串转换为字节的算法直接对其编码,这里有一个问题需要考虑,如果最后哈弗曼编码的长度不能按字节对齐,那么该怎么办??笔者使用了一种比较简单的方法,即在文件头处预留16个字节,在第一个字节定义了为了对齐需补充的位数,在解码的时候,首先读取16个字节,然后将第一个字节保存起来,当一次读取的字节数小于缓冲区的大小时,说明是最后一次读取,此时需要注意将解码的实际个数修改为实际读到的字节数-第一个字节(为了去除掉补充的位)。这个是压缩时处理未对齐情况的具体代码实现部分。


另外压缩缓冲区的处理问题也比较多,第一,当替换的哈弗曼编码长度小于缓冲区长度时,直接更新写缓冲区的指针,如果刚好的话需要将缓冲区指针清零,将写缓冲区写入压缩文件,写缓冲区清零,如果大于写缓冲区的话,首先,从哈弗曼编码中取出刚好凑足写缓冲区长度大小,然后将写缓冲区写入文件,刷新写缓冲,并将剩余的哈弗曼编码值存储到新的写缓冲,更新写缓冲的指针。具体实现如下:


解压缩的时候思想比较简单,也是按块读取,然后一次性全部转换为’0’,’1’字符串,然后每次从树根向下查找,找到了叶子节点后,根据构建的哈弗曼树数组,将原始字符写入写缓冲区,这里缓冲区出来也比较复杂,第一,按块读取,第二个就是本次读取的块并不能刚好走到叶子节点处,此时,需要从此处回退,直至根节点,将走的步数记录下来,并将未成功的路径保存在异常处理数组中,而每次查找叶子节点时,首先必须确定异常处理指针是否为0,若不为0,则从异常处理数组中取出值,从树根开始走到指针处,然后将新读取的块加入进来,最终一定会找到一个匹配的字符,然后将该字符写入写缓冲区,具体实现代码如下:



其他的也就没啥了,上个成功运行图吧!原始文件为22MB左右的MP4文件,

原始视频


解压缩之后的视频:


经测试,解压缩之后的视频与原文件完全相同,

另一个例子是txt格式的文本


这个压缩比还可以,速度也挺快的1s中就搞定了。。^_^。

 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
综合实验: 1. 问题描述 利用哈夫曼编码进行通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。这要求在发送端通过一个编码系统对待传输数据预先编码,在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站编写一个哈夫曼码的编/译码系统。 2. 基本要求 一个完整的系统应具有以下功能: (1) I:初始化(Initialization)。从终端读入字符集大小n,以及n个字符和n个权值,建立哈夫曼树,并将它存于文件hfmTree中。 (2) E:编码(Encoding)。利用已建好的哈夫曼树(如不在内存,则从文件hfmTree中读入),对文件ToBeTran中的正文进行编码,然后将结果存入文件CodeFile中。 (3) D:译码(Decoding)。利用已建好的哈夫曼树将文件CodeFile中的代码进行译码,结果存入文件Textfile中。 (4) P:印代码文件(Print)。将文件CodeFile以紧凑格式显示在终端上,每行50个代码。同时将此字符形式的编码文件写入文件CodePrin中。 (5) T:印哈夫曼树(Tree printing)。将已在内存中的哈夫曼树以直观的方式(比如树)显示在终端上,同时将此字符形式的哈夫曼树写入文件TreePrint 中。 3. 测试数据 用下表给出的字符集和频度的实际统计数据建立哈夫曼树,并实现以下报文的编码和译码:“THIS PROGRAME IS MY FAVORITE”。 字符 A B C D E F G H I J K L M 频度 186 64 13 22 32 103 21 15 47 57 1 5 32 20 字符 N O P Q R S T U V W X Y Z 频度 57 63 15 1 48 51 80 23 8 18 1 16 1

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值