计算机基础_程序是怎样跑起来的_06_亲自尝试压缩数据

窝在角落里学习

于 2022-06-12 13:14:10 发布

阅读量2.7k

点赞数 1

分类专栏：计算机组成原理计算机基础文章标签：计算机组成原理

本文链接：https://blog.csdn.net/Window_mouse/article/details/125244407

版权

计算机基础同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

计算机组成原理

6 篇文章 0 订阅

订阅专栏

文章目录

亲自尝试压缩数据

亲自尝试压缩数据

0、热身问题

文件储存的基本单位是什么?
字节，文件是字节数据的集合体。
DOC、LZH 和 TXT这些扩展名中，哪一个是压缩文件的扩展名?
LZH是LHA等工具压缩过的文件的扩展名。
文件内容用“数据的值×循环次数”来表示的压缩方法是RLE算法还是哈夫曼算法?
RLE算法，比如AAABB变成A3B2
在 Windows计算机经常使用的 SHIFT JIS字符编码中，1个半角英数是用几个字节的数据来表示的?
1个字节，汉字等全角字符是用2个字节表示的
BMP( BITMAP)格式的图像文件，是压缩过的吗?
BMP没有压缩过，比JPEG等压缩过的要大一些。
可逆压缩和非可逆压缩的不同点是什么?
压缩后的数据能复原的是可逆压缩，无法复原的是非可逆压缩 JPEG就是非可逆压缩。

1、文件以字节为单位保存

文件是将数据存储在磁盘等存储媒介中的一种形式。

存储数据的单位是字节（Byte），如xx KB，xx MB。所以，可以认为文件是字节数据的集合。

在这里插入图片描述

但是，请记住一点：文件中的字节数据都是连续存储的。

2、RLE算法

RLE算法（Run Length Encoding，行程长度编码）：简单理解，就是“数据 x 重复次数”。

RLE算法常用于压缩传真的图像。

在这里插入图片描述

压缩率：12 / 17 = 70%。

3、RLE算法的缺点

虽然针对相同数据经常连续出现的图像、文件等，RLE算法可以发挥不错的效果，但它并不适合文本文件的压缩，因为在实际的文本文件中，同样字符多次重复出现的情况并不多见。

以存储着"This is a pen."这14个字符的文本文件为例。
使用RLE算法对其进行压缩后，就变成了"T1hlils1 lils1lal 1pleln1.1"。
长度变为28个字符，是压缩前的2倍。

4、通过莫尔斯编码来看哈夫曼算法的基础

哈夫曼算法的关键在于多次出现的数据用小于8位的字节数来表示，不常用的数据可以用超过8位的字节数来表示。

但最后都要以8位（1字节）为单位保存到文件中，因为磁盘是以1字节为单位来保存数据的。

在这里插入图片描述

5、用二叉树实现哈夫曼编码

这一章在《数据结构与算法》这门课会重点讲原理，这里简单了解一下。

哈夫曼算法：为各压缩对象文件分别构造最佳的编码体系，并以该编码体系为基础进行压缩。

用哈夫曼法压缩过的文件中，存储着哈夫曼编码信息和压缩过的数据。

在这里插入图片描述

在哈夫曼算法中，借助于哈夫曼树构造编码体系，就算表示各字符的数据位数不同，也能够做成可以明确区分的编码。

在这里插入图片描述

6、哈夫曼算法能够大幅提升压缩比率

还是以“RLE算法”中的那个为例子。

压缩前：AAAAAABBCDDEEEEEF
哈夫曼编码：
	A：00
	B：100
	C：110
	D：101
	E：01
	F：111
压缩后：00 00 00 00 00 100 100 110 101 101 01 01 01 01 01 111   --->   40bit = 5byte

压缩率：5 /17 =29%。

7、可逆压缩和非可逆压缩

可逆压缩：能还原到压缩前状态的压缩。

不可逆压缩：无法还原到压缩前状态的压缩。

BMP：Windows的标准图像数据形式，是完全未压缩的。因为显示器和打印机输出的bit(点)是可以直接映射的，所以叫BMP（bitmap）

在这里插入图片描述

注：如有错误，敬请指正！

窝在角落里学习

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
计算机基础_程序是怎样跑起来的_06_亲自尝试压缩数据

文件是将数据存储在磁盘等存储媒介中的一种形式。存储数据的单位是字节（Byte），如xx KB，xx MB。所以，可以认为文件是字节数据的集合。但是，请记住一点：文件中的字节数据都是连续存储的。压缩率：12 / 17 = 70%。虽然针对相同数据经常连续出现的图像、文件等，RLE算法可以发挥不错的效果，但它并不适合文本文件的压缩，因为在实际的文本文件中，同样字符多次重复出现的情况并不多见。4、通过莫尔斯编码来看哈夫曼算法的基础哈夫曼算法的关键在于多次出现的数据用小于8位的字节数来表示……...
复制链接

扫一扫