文件压缩与解压——哈夫曼编码

工程源代码下载(VS2008)

先上图

2011022205454516.jpg

  把要压缩或要解压的文件拖拽到窗口中即可。另存为编辑框是压缩或解压的输出路径。对于压缩来说,另存为路径是目标文件的路径加上一个.shc扩展名。对于解压来说,会去掉最后一个扩展名。

  压缩的核心其实就是用了哈夫曼编码原理。我封装了一个哈夫曼编码类,内部使用了一个哈夫曼树类。(关于哈夫曼树类,在我这篇文章有说:http://www.cnblogs.com/StevenKyleLee/archive/2011/02/19/1958278.html

  要对一个文件进行压缩,执行如下步骤:

  1.建立编码方案。第一遍扫描文件,统计这个文件中各种不同的字节出现的次数(256种),以这个次数作为权值,建立对应的哈夫曼树。然后取得每个不同字节对应的01编码序列。

  2.计算压缩后的大小,压缩率。需要再次扫描文件。由于我用内存文件映射的方式来做压缩,所以这一步必不可少,要先知道将要创建的压缩文件的大小。

  3.执行编码。执行编码的话,要把原先的压缩信息写入文件的头部。有一个长1024字节大小的表,这个表记录了原先压缩的文件的每种字节出现的次数。还有一个4字节的字段,这个字段记录了压缩文件最后一个字节使用的比特位数。为什么要记录最后一个字节使用的比特位数呢?比如:A 对应01序列,B对应001序列,那么AB压缩后是:01001。对于一个字节来说,是有8位的,01001只使用了5位,还有3位未使用。

  要对一个文件进行解压,执行如下步骤:

  1.读取压缩时写入的文件头,也就是解压信息。重建原先的哈夫曼树。设置一个哈夫曼树游走指针指向树根节点。

  2.文件遍历指针越过文件头,指向压缩数据起始位置,遍历到文件尾部。每遇到一字节,还需要遍历这个字节的所有位。从其最高位向下遍历,如果此位是0,那么哈夫曼树游走指针就游走左子树路径。如果此位是1,就游走右子树路径。每次在哈夫曼树中游走后,都要判断下,是否走到了叶子节点。如果走到了叶子节点,就说明找到了解压信息,取出对应的叶子节点的数据信息,写入解压文件,并设置哈夫曼树的游走指针重新指向树根节点。

  OK,以上是压缩和解压步骤的概括说明。再补充一些细节。

  怎么对文件进行编码的呢?比如说"A"这个字母,其对应的ASCII码值是65吧。65对应的字节二进制数是:1000001。同理,"B"对应的二进制数是:1000010。正常情况下,A和B在内存都占用了1字节,AB同占用2字节。

  如果我们的哈夫曼编码计算出:A对应的编码为:01,B对应的编码为001。那么AB在一起就应该是01001,才占用了一个字节的5位嘛。这样在原先的基础上就节省出了1字节零3位,当然,零头3位在没编码占用的情况下,是没用的。

  由于,各种01序列编码的长度都不一样,所以,有可能一个编码会被字节的大小隔开。我们知道的,一个字节是8位。假如A编码为00001,B编码为000001,那么AB在一起的编码就是:00001000001了。这样子,一个字节是装不下的,需要分2个字节来装,便是:00001000 001。第二个字节只用了3位,剩下5位没用。这时,你就需要设置一个规定了,是前一个字节的高位接上后一个字节的低位,还是前一个字节的低位接上后一个字节的高位。我的选择是后者,感觉比较直观一些。

  

转载于:https://www.cnblogs.com/StevenKyleLee/archive/2011/02/22/1960308.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
综合实验: 1. 问题描述 利用哈夫曼编码进行通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。这要求在发送端通过一个编码系统对待传输数据预先编码,在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站编写一个哈夫曼码的编/译码系统。 2. 基本要求 一个完整的系统应具有以下功能: (1) I:初始化(Initialization)。从终端读入字符集大小n,以及n个字符和n个权值,建立哈夫曼树,并将它存于文件hfmTree中。 (2) E:编码(Encoding)。利用已建好的哈夫曼树(如不在内存,则从文件hfmTree中读入),对文件ToBeTran中的正文进行编码,然后将结果存入文件CodeFile中。 (3) D:译码(Decoding)。利用已建好的哈夫曼树将文件CodeFile中的代码进行译码,结果存入文件Textfile中。 (4) P:印代码文件(Print)。将文件CodeFile以紧凑格式显示在终端上,每行50个代码。同时将此字符形式的编码文件写入文件CodePrin中。 (5) T:印哈夫曼树(Tree printing)。将已在内存中的哈夫曼树以直观的方式(比如树)显示在终端上,同时将此字符形式的哈夫曼树写入文件TreePrint 中。 3. 测试数据 用下表给出的字符集和频度的实际统计数据建立哈夫曼树,并实现以下报文的编码和译码:“THIS PROGRAME IS MY FAVORITE”。 字符 A B C D E F G H I J K L M 频度 186 64 13 22 32 103 21 15 47 57 1 5 32 20 字符 N O P Q R S T U V W X Y Z 频度 57 63 15 1 48 51 80 23 8 18 1 16 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值