文章目录
亲自尝试压缩数据
0、热身问题
- 文件储存的基本单位是什么?
字节,文件是字节数据的集合体。 - DOC、LZH 和 TXT这些扩展名中,哪一个是压缩文件的扩展名?
LZH是LHA等工具压缩过的文件的扩展名。 - 文件内容用“数据的值×循环次数”来表示的压缩方法是RLE算法还是哈夫曼算法?
RLE算法,比如AAABB变成A3B2 - 在 Windows计算机经常使用的 SHIFT JIS字符编码中,1个半角英数是用几个字节的数据来表示的?
1个字节,汉字等全角字符是用2个字节表示的 - BMP( BITMAP)格式的图像文件,是压缩过的吗?
BMP没有压缩过,比JPEG等压缩过的要大一些。 - 可逆压缩和非可逆压缩的不同点是什么?
压缩后的数据能复原的是可逆压缩,无法复原的是非可逆压缩 JPEG就是非可逆压缩。
1、文件以字节为单位保存
文件是将数据存储在磁盘等存储媒介中的一种形式。
存储数据的单位是字节(Byte),如xx KB,xx MB。所以,可以认为文件是字节数据的集合。
但是,请记住一点:文件中的字节数据都是连续存储的。
2、RLE算法
RLE算法(Run Length Encoding,行程长度编码):简单理解,就是“数据 x 重复次数”。
RLE算法常用于压缩传真的图像。
压缩率:12 / 17 = 70%。
3、RLE算法的缺点
虽然针对相同数据经常连续出现的图像、文件等,RLE算法可以发挥不错的效果,但它并不适合文本文件的压缩,因为在实际的文本文件中,同样字符多次重复出现的情况并不多见。
以存储着"This is a pen."这14个字符的文本文件为例。
使用RLE算法对其进行压缩后,就变成了"T1hlils1 lils1lal 1pleln1.1"。
长度变为28个字符,是压缩前的2倍。
4、通过莫尔斯编码来看哈夫曼算法的基础
哈夫曼算法的关键在于多次出现的数据用小于8位的字节数来表示,不常用的数据可以用超过8位的字节数来表示。
但最后都要以8位(1字节)为单位保存到文件中,因为磁盘是以1字节为单位来保存数据的。
5、用二叉树实现哈夫曼编码
这一章在《数据结构与算法》这门课会重点讲原理,这里简单了解一下。
哈夫曼算法:为各压缩对象文件分别构造最佳的编码体系,并以该编码体系为基础进行压缩。
用哈夫曼法压缩过的文件中,存储着哈夫曼编码信息和压缩过的数据。
在哈夫曼算法中,借助于哈夫曼树构造编码体系,就算表示各字符的数据位数不同,也能够做成可以明确区分的编码。
6、哈夫曼算法能够大幅提升压缩比率
还是以“RLE算法”中的那个为例子。
压缩前:AAAAAABBCDDEEEEEF
哈夫曼编码:
A:00
B:100
C:110
D:101
E:01
F:111
压缩后:00 00 00 00 00 100 100 110 101 101 01 01 01 01 01 111 ---> 40bit = 5byte
压缩率:5 /17 =29%。
7、可逆压缩和非可逆压缩
可逆压缩:能还原到压缩前状态的压缩。
不可逆压缩:无法还原到压缩前状态的压缩。
BMP:Windows的标准图像数据形式,是完全未压缩的。因为显示器和打印机输出的bit(点)是可以直接映射的,所以叫BMP(bitmap)
注:如有错误,敬请指正!