引,工作了,大学里学的忘记的差不多了。
碰巧在工作中做一些东西的时候,遇到了自己大学时代想要完成却因为学业,以及各种娱乐而没能完成的事情。所以就想趁着空闲,把这些事情完成。
还记得上大二的时候,教数据结构的老师给我们将了一个Huffman的编码算法,总感觉抓到了一些东西,想用它做点东西出来,但是却因为没什么时间去上网查查资料,所以导致了考试考的很好,考过之后忘记了,不知道怎么用这个编码去做出点实际的东西。只是听说可以用来做压缩。现在唯一记得就是 贪心的思想。
------------------------------------------------------------
正题,现在,准备研究一下压缩的实现,所以回忆起用Huffman来做字节上的压缩。这里压缩的思想就不赘述了。碰到的问题有:
1. 原文件每个字节对应的 Huffman 编码要做成一个“表”或者类似于表的东西,放进压缩文件里。这个表是用来解压缩的,原先我的设计是把表做成形如:“AS0001EBS1000E”A 表示源文件中的字节,S标志编码的开始,E表示编码的结束。所以源文件中的A可以表示成二进制 0001.B表示成二进制 1000. 但是解析起来比较麻烦,并且表的空间看上去有点大,问,大家有木有比较好的格式。
碰巧在工作中做一些东西的时候,遇到了自己大学时代想要完成却因为学业,以及各种娱乐而没能完成的事情。所以就想趁着空闲,把这些事情完成。
还记得上大二的时候,教数据结构的老师给我们将了一个Huffman的编码算法,总感觉抓到了一些东西,想用它做点东西出来,但是却因为没什么时间去上网查查资料,所以导致了考试考的很好,考过之后忘记了,不知道怎么用这个编码去做出点实际的东西。只是听说可以用来做压缩。现在唯一记得就是 贪心的思想。
------------------------------------------------------------
正题,现在,准备研究一下压缩的实现,所以回忆起用Huffman来做字节上的压缩。这里压缩的思想就不赘述了。碰到的问题有:
1. 原文件每个字节对应的 Huffman 编码要做成一个“表”或者类似于表的东西,放进压缩文件里。这个表是用来解压缩的,原先我的设计是把表做成形如:“AS0001EBS1000E”A 表示源文件中的字节,S标志编码的开始,E表示编码的结束。所以源文件中的A可以表示成二进制 0001.B表示成二进制 1000. 但是解析起来比较麻烦,并且表的空间看上去有点大,问,大家有木有比较好的格式。
2. 1中的表,因为和压缩好的内容是放一个文件中的,那么如何在解压缩的时候分离出这个表?我的想法是在文件开始位置加个值,做成形如: "HUF"+SIZE+"E"+"AS0001EBS1000E"+"压缩内容"。 同样感觉解析比较麻烦。
----------------------------
续1,对于问题1,自己没有好好想一些更好的方案,在网上看压缩相关的资料时候,看到原来别人都是存储字符频率的,可以用这个重构Huffman树。这样空间上1个字节存储字符,4个字节存储频率。比自己想到的方案要好N倍。我好搓啊....
对于问题2,还是保持原状。改不动它。
----------------------------
续2,Huffman编码压缩已经完成,但是压缩率很低,对于压缩过的文件压缩反而会增大。试着写一个LZ77或者LZW的算法增加压缩率。
看了很多最终还是选中LZ77的算法,比较泛用一些,每个字节增加一个标志位,相同字符串用大小为两个字节的相对偏移量表示。
窗口大小暂时选定为32个字节,先写好流程,剩下的慢慢优化。
---------------------------
续3,LZ77算法,没有去看原始的论文,学习了大致的思路,按照自己的想法写了一下。
主要就是一个是匹配,一个是窗口的移动,还有就是字节的映射。
基本算法已经实现,对于图片压缩之后反而压缩之后变得更大。没有优化和改进的算法果然还是比不上一些当下流行的压缩代码。