计算机基础_程序是怎样跑起来的_06_亲自尝试压缩数据

亲自尝试压缩数据

0、热身问题

  1. 文件储存的基本单位是什么?
    字节,文件是字节数据的集合体。
  2. DOC、LZH 和 TXT这些扩展名中,哪一个是压缩文件的扩展名?
    LZH是LHA等工具压缩过的文件的扩展名。
  3. 文件内容用“数据的值×循环次数”来表示的压缩方法是RLE算法还是哈夫曼算法?
    RLE算法,比如AAABB变成A3B2
  4. 在 Windows计算机经常使用的 SHIFT JIS字符编码中,1个半角英数是用几个字节的数据来表示的?
    1个字节,汉字等全角字符是用2个字节表示的
  5. BMP( BITMAP)格式的图像文件,是压缩过的吗?
    BMP没有压缩过,比JPEG等压缩过的要大一些。
  6. 可逆压缩和非可逆压缩的不同点是什么?
    压缩后的数据能复原的是可逆压缩,无法复原的是非可逆压缩 JPEG就是非可逆压缩。

1、文件以字节为单位保存

文件是将数据存储在磁盘等存储媒介中的一种形式。

存储数据的单位是字节(Byte),如xx KB,xx MB。所以,可以认为文件是字节数据的集合。

在这里插入图片描述

但是,请记住一点:文件中的字节数据都是连续存储的。


2、RLE算法

RLE算法(Run Length Encoding,行程长度编码):简单理解,就是“数据 x 重复次数”。

RLE算法常用于压缩传真的图像。

在这里插入图片描述

压缩率:12 / 17 = 70%。


3、RLE算法的缺点

虽然针对相同数据经常连续出现的图像、文件等,RLE算法可以发挥不错的效果,但它并不适合文本文件的压缩,因为在实际的文本文件中,同样字符多次重复出现的情况并不多见。

以存储着"This is a pen."这14个字符的文本文件为例。
使用RLE算法对其进行压缩后,就变成了"T1hlils1 lils1lal 1pleln1.1"。
长度变为28个字符,是压缩前的2倍。

4、通过莫尔斯编码来看哈夫曼算法的基础

哈夫曼算法的关键在于多次出现的数据用小于8位的字节数来表示,不常用的数据可以用超过8位的字节数来表示。

但最后都要以8位(1字节)为单位保存到文件中,因为磁盘是以1字节为单位来保存数据的。

在这里插入图片描述


5、用二叉树实现哈夫曼编码

这一章在《数据结构与算法》这门课会重点讲原理,这里简单了解一下。

哈夫曼算法:为各压缩对象文件分别构造最佳的编码体系,并以该编码体系为基础进行压缩。

用哈夫曼法压缩过的文件中,存储着哈夫曼编码信息和压缩过的数据。

在这里插入图片描述

在哈夫曼算法中,借助于哈夫曼树构造编码体系,就算表示各字符的数据位数不同,也能够做成可以明确区分的编码。

在这里插入图片描述


6、哈夫曼算法能够大幅提升压缩比率

还是以“RLE算法”中的那个为例子。

压缩前:AAAAAABBCDDEEEEEF
哈夫曼编码:
	A:00
	B:100
	C:110
	D:101
	E:01
	F:111
压缩后:00 00 00 00 00 100 100 110 101 101 01 01 01 01 01 111   --->   40bit = 5byte

压缩率:5 /17 =29%。

7、可逆压缩和非可逆压缩

可逆压缩:能还原到压缩前状态的压缩。

不可逆压缩:无法还原到压缩前状态的压缩。

BMP:Windows的标准图像数据形式,是完全未压缩的。因为显示器和打印机输出的bit(点)是可以直接映射的,所以叫BMP(bitmap)

在这里插入图片描述


注:如有错误,敬请指正!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: EPUB是一种数字出版物格式,它可以在各种设备上阅读。 为了使EPUB可以被阅读,需要运行一个程序。这个程序可以是电子书阅读器应用程序或浏览器插件,也可以是文本编辑器或任何其他能够解析EPUB格式的工具。 当用户打开一个EPUB文件时,程序首先会解压缩ZIP格式的文件夹,其中包含了EPUB文件的各个组成部分,如HTML、图像、CSS等文件。 然后程序会根据EPUB中的元数据来进行布局和格式化。这些元数据包括书名、作者、章节标题、字符集等。 接下来,程序会将EPUB中的内容以合适的方式呈现给用户。如果内容需要分页,程序会将内容分页并根据设备屏幕大小进行调整。 EPUB中的内容可以包含可交互的元素,例如超链接、音频、视频等。当用户点击一个超链接或元素时,程序会解析并展示它。 总之,程序通过解压EPUB文件、解析元数据、调整布局和格式化内容等步骤来将EPUB文件呈现给用户。 ### 回答2: EPUB程序需要涉及到多个步骤才能起来。其主要过程如下: 1.编写EPUB文件:需要将内容以HTML格式编写,并按照规定的目录结构进行组织,将CSS、图片、视频等文件进行添加。 2.制作容器文件:容器文件是EPUB程序的核心。输入文件夹大小、命令、包的名称、作者等必要的信息,通过进行压缩成ZIP格式的文档,制作容器文件。 3.编写OPF文件:OPF文件是EPUB电子书内容的描述文件,包括书名、作者、出版日期、目录、封面图片等信息。可通过Microsoft Word等工具进行制作。 4.制作目录文件:目录文件可以让读者快速了解电子书的内容结构。可通过XML、HTML或XHTML等文件制作目录。 5.书籍封面制作:EPUB电子书一般需要制作封面图,以提高阅读体验。 6.验证EPUB文件:通过工具或在线验证工具验证EPUB文件是否符合EPUB标准。如通过检测,则可发布或上传EPUB文件。 7.运行EPUB程序:在EPUB电子书阅读器或浏览器等设备上打开EPUB文件,即可进行阅读。 通过以上步骤,EPUB程序能够成功起来,读者可以享受到高质量的电子书阅读体验。 ### 回答3: epub 是一种电子书的格式,可以在各种不同的设备和平台上使用。它的实现涉及到多个方面的技术和工作,其中包括了程序的运行。 程序的运行可以简单地理解为把代码转化为计算机可以理解的指令,让计算机按照这些指令来操作数据和实现功能。对于 epub 来说,程序运行的核心在于两个方面: 一是解析书籍内容。epub 经过压缩和打包,需要程序把这些文件进行解压,并且解析 epub 的文件结构。这样程序才能够识别出哪些是正文内容,哪些是书签,目录,封面等辅助信息,从而实现相关的功能。 二是渲染内容。epub 中的内容除了文字,还包括了图片、样式和布局等格式。因此,程序需要利用相关技术将这些内容按照规定的样式和排版布局来渲染出来,以便用户进行阅读。 总的来说,程序运行的成功与否取决于代码的质量、相应库文件的调用和设备的性能。 在运行过程中,程序还需要与读取硬盘信息,解析成文本和图像格式,最终完成文本内容渲染的过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

窝在角落里学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值