《多媒体信息技术》复习思考题

最新推荐文章于 2023-05-19 15:50:00 发布

ShzJo

最新推荐文章于 2023-05-19 15:50:00 发布

阅读量5w

点赞数 11

文章标签：多媒体技术试题

本文链接：https://blog.csdn.net/ShzJo/article/details/74516921

版权

《多媒体信息技术》复习思考题

一、思考题

1. 什么是多媒体？什么是多媒体技术？多媒体有哪些关键技术？

答：

①多媒体是融合两种或者两种以上媒体的一种人－机交互式的信息交流和传播媒体。

对信息技术而言，多媒体是用多种媒体综合表达信息内容。对计算机而言，多媒体是将图、文、声、像等内容混成在一起的一门计算机技术。

②多媒体技术是利用计算机对文本、图形、图像、声音、动画、视频等多种信息综合处理、建立逻辑关系和人机交互作用的技术。

③多媒体的关键技术有a、视频音频数据压缩/解压缩技术（如今已有压缩编码/解压缩编码的国际标准JPEG和MPEG）b、多媒体专用芯片技术（专用芯片是多媒体计算机硬件体系结构的关键，一种是固定功能的芯片；另一种是可编程的数字信号处理器（DSP）芯片）c、大容量信息存储技术（利用数据压缩技术，在一张CD-ROM光盘上能够存取70多分全运动的视频图像或者十几个小时的语言信息或数千幅静止图像）d、多媒体输入与输出技术（包括媒体变换技术、媒体识别技术、媒体理解技术和综合技术）e、多媒体软件技术（多媒体操作系统、多媒体素材采集与制作技术、多媒体编辑与创作工具、多媒体数据库技术、超文本/超媒体技术、多媒体应用开发技术）f、多媒体通信技术（是多媒体技术与通信技术的有机结合，突破了计算机、通信、电视等传统产业间相对独立发展的界限，是计算机、通信和电视领域的一次革命）g、虚拟现实技术（利用计算机技术生成的一个逼真的视觉、听觉触觉及嗅觉等得感觉世界，用户可以用人的自然技能对这个生成的虚拟实体进行交互考察）

2. 超媒体与超文本之间有什么不同？

答：超媒体与超文本的不同之处在于：超文本主要是以文字的形式表示信息，建立的链接关系主要是文句之间的链接关系。超媒体除了使用文本外，还使用图形、图像、声音、

动画或影视片断等多种媒体来表示信息，建立的链接关系是文本、图形、图像、声音、

动画和影视片断等媒体之间的链接关系。
3. 音频的定义以及分类，声音的三要素。（待定）

答：①音频的定义为：1.Audio，指人说话的声音频率，通常指300Hz-3400Hz的频带。 2.指存储声音内容的文件。 3.在某些方面能指作为波滤的振动。

②音频分为四类：非平衡模拟音频、平衡式模拟音频、非平衡数字音频、平衡式数字音频。

③声音三要素：音调，响度，音色。

4. 数字音频的含义，音频信号的数字化处理过程。

答：①数字音频是一个数据序列，在时间上是断续的。数字音频是通过采样和量化，把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。

②音频信号数字化分为三个步骤。1、取样：对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为，只要取样频率大于等于信号中所包含的最高频率的两倍，则可以根据其取样完全恢复出原始信号，这相当于当信号是最高频率时，每一周期至少要采取两个点。但这只是理论上的定理，在实际操作中，人们用混叠波形，从而使取得的信号更接近原始信号。2、量化：取样的离散音频要转化为计算机能够表示的数据范围，这个过程称为量化。量化的等级取决于量化精度，也就是用多少位二进制数来表示一个音频数据。一般有8位，12位或16位。量化精度越高，声音的保真度越高。以8位的举例稍微说明一下其中的原理。若一台计算机能够接收八位二进制数据，则相当于能够接受256个十进制的数，即有256个电平数，用这些数来代表模拟信号的电平，可以有256种，但是实际上采样后的某一时刻信号的电平不一定和256个电平某一个相等，此时只能用最接近的数字代码表示取样信号电平。3、编码：对音频信号取样并量化成二进制，但实际上就是对音频信号进行编码，但用不同的取样频率和不同的量化位数记录声音，在单位时间中，所需存贮空间是不一样的。波形声音的主要参数包括：取样频率.量化位数.声道数.压缩编码方案和数码率等，未压缩前，波形声音的码率计算公式为：波形声音的码率=取样频率*量化位数*声道数/8。波形声音的码率一般比较大，所以必需对转换后的数据进行压缩。

5. 什么是非均匀采样？什么是非均匀量化？各有什么优点？

答：①非均匀采样有时又称为随机采样。均匀采样的采样时间间隔是完全相等，而非均匀采样的采样时间间隔是不确定的，完全随机。

②对微小信号采用细量化（Δ小），对大幅度信号，采用粗量化（Δ大）的方法。

③非均匀采样的优点是：具有抗频率混叠的性能，从而可以突破奈奎斯特频率的限制，实现以比较低的采样频率检测到很高频率的信号。

非均匀量化的优点是：a.当输入量化器的信号具有非均匀分布的概率密度时，非均匀量化器的输出端可以较高的平均信号量化噪声功率比。b.非均匀量化时，量化噪声功率的均方根值基本上与信号抽样值成比例。因此，量化噪声对大、小信号的影响大致相同，即改善了小信号时的量化信噪比。

6. 什么是 MIDI？ MIDI 文件与 WAV 文件有什么不同？

答：①MIDI是英语Music Instrument Digital Interface 的缩写，翻译过来就是“数字化乐器接口”，也就是说它的真正涵义是一个供不同设备进行信号传输的接口的名称。

②MIDI文件与WAV文件的不同之处在于，表面上，两种文件都可以产生声响效果或音乐，但它们的本质是完全不同的。普通的声音文件（*.wav文件）是计算机直接把声音信号的模拟信号经过取样——量化处理，变成与声音波形对应的数字信号，记录在计算机的储存介质（硬盘或光盘）中。通常，声音文件都比较大，如记录一分钟的声音（立体声、CD音质），大概需要10.5M的储存空间。一首几分钟的歌曲需要几十兆的硬盘，一张CD光盘只能容纳十来首歌曲。为了减少声音文件储存的空间，近年来在计算机技术上采用了压缩技术，把声音文件经过处理，在不太影像播放质量的前提下，把文件的大小压缩到原来的10～12分之一，这就是近年流行的MP3文件格式。而MIDI文件则不是直接记录乐器的发音，而是记录了演奏乐器的各种信息或指令，如用哪一种乐器，什么时候按某个键，力度怎么样等等，至于播放时发出的声音，那是通过播放软件或者音源的转换而成的。因此MIDI文件通常比声音文件小得多，一首乐曲，只有十几K或几十K，只有声音文件的千分之一左右，便于储存和携带。

7. 音频文件大小的计算。

答：

数据传输率＝采样频率×量化位数×声道数
音频文件大小＝数据传输率×播放时间

8. 简述什么是真彩色及其与伪彩色的不同之处。

答：真彩色(true-color)是指图像中的每个像素值都分成R、G、B三个基色分量，每个基色分量直接决定其基色的强度，这样产生的色彩称为真彩色。

而伪彩色一般是指用颜色查找表（简称CLUT）的索引值来表示。如在MS Windows 16

色位图格式中，图像像素的编码值用色板的索引号0~F表示，在256、2¹⁶、…色图像格式中直接用RGB的真实值进行编码。16色位图格式所记录的图像颜色是伪彩色，256、2¹⁶、…色图像格式所记录的是真彩色。

9. 多媒体数据中的冗余有哪几种？

答:多媒体数据中存在多种数据冗余：空间冗余、时间冗余、结构冗余、视觉冗余、知识冗余、图像区域的相同性冗余。

a.空间冗余是静态图像中存在的最主要的一种数据冗余。同一景物表面上采样点的颜色之间往往存在着空间连贯性，但是基于离散像素采样来表示物体颜色的方式通常没有利用这种连贯性。例如：图像中有一片连续的区域，其像素为相同的颜色，空间冗余产生。

b.时间冗余是序列图像中经常包含的冗余。一组连续的画面之间往往存在着时间和空间的相关性，但是基于离散时间采样来表示运动图像的方式通常没有利用这种连贯性。例如：房间里的两个人在聊天，在这个聊天的过程中，背景（房间和家具）一直是相同的，同时也没有移动，而且是同样的两个人在聊天，只有动作和位置的变化。

c.结构冗余是在某些场景中，存在着明显的图像分布模式，这种分布模式称作结构。图像中重复出现或相近的纹理结构，结构可以通过特定的过程来生成。例如：方格状的地板，蜂窝，砖墙，草席等图结构上存在冗余。已知分布模式，可以通过某一过程生成图像。

d.视觉冗余是人类的视觉系统对图像场的敏感性是非均匀和非线性的。对亮度变化敏感，而对色度的变化相对不敏感；在高亮度区，人眼对亮度变化敏感度下降；对物体边缘敏感，内部区域相对不敏感；对整体结构敏感，而对内部细节相对不敏感。可以根据这些视觉特性对图像信息进行取舍。

e.知识冗余。对于图像中重复出现的部分，我们可以构造出基本模型，并创建对应各种特征的图像库，进而使图像的存储只需要保存一些特征参数，从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。

f.图像区域的相同性冗余。它是指在图像中的两个或多个区域所对应的所有像素值相同或相近，从而产生的数据重复性存储，这就是图像区域的相似性冗余。在以上的情况下，当记录了一个区域中各像素的颜色值，则与其相同或相近的其他区域就不需要记录其中各像素的值。采用向量量化（Vector quantization）方法就是针对这种冗余性的图像压缩编码方法。
10.多媒体数据为什么需要压缩？为什么可以压缩？

答：①由于媒体元素种类繁多、构成复杂，数字化信息的数据量十分庞大。无疑给存储器的存储量、通信干线的信道传输率以及计算机的速度都增加了极大的压力。如果单纯靠扩大存储器容量、增加通信干线传输率的办法来解决问题是不现实的。通过数据压缩技术可以大大降低数据量，以压缩的形式存储和传输，既节约了存储空间，又提高了通信干线的传输效率，同时也使计算机得以实时处理音频、视频信息，保证播放出高质量的视频和音频节目。

②经研究发现，与音频数据一样，图像数据中存在着大量的冗余。通过去除多媒体那些冗余数据可以极大地降低原始图像数据量，从而解决图像数据量巨大的问题。

11.按照信息是否有损失，数据压缩方法分为哪两类？各举出一些压缩技术的例子和应用的例子。

答：数据压缩可分成两种类型,一种叫做无损压缩,另一种叫做有损压缩.
无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同；无损压缩用于要求重构的信号与原始信号完全一致的场合.一个很常见的例子是磁盘文件的压缩.根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2～1/4.一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法. 无损压缩：Huffman编码、游程编码、算术编码、词典编码

有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解.有损压缩适用于重构信号不一定非要和原始信号完全相同的场合.例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比. 有损压缩：预测编码、变换编码、模型编码、基于重要性的编码、混合编码（JPEG，MPEG）

12.数据压缩技术的三个重要指标。

压缩比图像质量压缩和解压的速度

13.掌握 Huffman 编码过程。理解算术编码、预测编码、变换编码、模型编码的原理。

首先，将符号按照概率由大到小排队，如图所示。编码时，从最小概率的两个符号开始，可选其中一个支路为0，另一支路为1。这里，我们选上支路为0，下支路为1。再将已编码的两支路的概率合并，并重新排队。多次重复使用上述方法直至合并概率归一时为止。从图（a）和（b）可以看出，两者虽平均码长相等，但同一符号可以有不同的码长，即编码方法并不唯一，其原因是两支路概率合并后重新排队时，可能出现几个支路概率相等，造成排队方法不唯一。一般，若将新合并后的支路排到等概率的最上支路，将有利于缩短码长方差，且编出的码更接近于等长码。

14.DPCM 与 APCM 有什么异同。

APCM是一种根据输入信号的幅度大小来改变量化阶距大小的编码技术，分为前向自适应和后向自适应编码两种类型。而DPCM是根据样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术，它先对输入信号进行预测，计算预测值与真值之间的差，对差值进行编码。两者各考虑了问题的一个方面，如提高量化的自适应性、减少信息冗余，未能全面考虑既提高自适应性又减少信息的冗余。将二者的结合形成了ADPCM压缩技术。

DPCM(Differential Pulse Code Modulation——差分脉冲编码调制)
对输入对相邻样本之差编码而不是对样本本身编码，由于相邻样本之差比实际样本幅度小，所以表示差信号需要较小的位数。

对于有些信号(例如图像信号)由于信号的瞬时斜率比较大，很容易引起过载，因此，不能用简单增量调制（△M编码）进行编码，对于这类瞬时斜率比较大的信号，通常采用一种综合了增量调制和PCM脉冲编码调制两者特点的调制方法进行编码，这种编码方式被简称为脉码增量调制，或称差值脉码调制，用DPCM表示。
这种调制方式的主要特点是把增量值分为个等级，然后把个不同等级的增量值编为位二进制代码( )再送到信道传输，因此，它兼有增量调制和PCM的各自特点。

此外，在相同比特速率条件下，DPCM比PCM信噪比也有很大的改善。与ΔM相比，由于它增多了量化级，因此，在改善量化噪声方面优于ΔM系统。DPCM的缺点是易受到传输线路上噪声的干扰，在抑制信道噪声方面不如ΔM。

备注：MPEG4里的预测编码方法，简称预测法（DPCM）

APCM(Adaptive Pulse Code Modulation——自适应脉冲编码调制)
自适应脉冲编码调制是一种根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变；也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。
改变量化阶大小的方法有两种：前向自适应（forward adaptation）和后向自适应（backward adaptation）。

15.和 Huffman 编码相比，算术编码有什么特点？

算术编码的特点：

从整个符号序列出发，采用递推形式连续编码的方法

不存在源符号和码字间的一一对应关系

1个算术码字要赋给整个信源符号序列，而每个码字本身确定了0和1之间的1个实数区间

算术编码过程只需用到加法和移位运算

16.信息熵是什么？熵编码是什么类型的编码？

信息熵是用来度量信息中所含的信息量为信源的平均信息量（不确定性的度量）熵编码即编码过程中按熵原理不丢失任何信息的编码。信息熵为信源的平均信息量（不确定性的度量）。常见的熵编码有：香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)。在视频编码中，熵编码把一系列用来表示视频序列的元素符号转变为一个用来传输或是存储的压缩码流。输入的符号可能包括量化后的变换系数，运动向量，头信息（宏块头，图象头，序列的头等）以及附加信息（对于正确解码来说重要的标记位信息）。是无损数据压缩编码

17.给出 Shannon-Fano 编码的思路。

1. 对于一个给定的符号列表，制定了概率相应的列表或频率计数，使每个符号的相对发生频率是已知。

2. 排序根据频率的符号列表，最常出现的符号在左边，最少出现的符号在右边。

3. 清单分为两部分，使左边部分的总频率和尽可能接近右边部分的总频率和。

4. 该列表的左半边分配二进制数字0，右半边是分配的数字1。这意味着，在第一半符号代都是将所有从0开始，第二半的代码都从1开始。

5. 对左、右半部分递归应用步骤3和4，细分群体，并添加位的代码，直到每个符号已成为一个相应的代码树的叶

Shannon-Fano算法采用从上到下构造二叉树的方法进行编码：首先按照符号出现的概率排序，然后从上到下使用递归方法将符号组分成两个部分，使每一部分具有近似相同的频数，在两边分别标记0和1，最后每个符号从顶至底的0/1序列就是它的二进制编码。

18.给出 Huffman 编码的思路与过程。

Huffman编码是一种从下到上构造二叉树的统计最优变码长符号编码，让最频繁出现的符号具有最短的编码；Huffman编码的过程=生成一棵二叉树，具体编码步骤：(1) 将符号按概率从小到大排列叶节点、(2) 连接两个概率最小的顶层节点来组成一个父节点，并在到左右子节点的两条连线上分别标记0和1、(3) 重复步骤2，直到得到根节点，形成一棵二叉树、(4) 从根节点开始到相应于每个符号的叶节点的0/1串，就是该符号的二进制编码。

19.Shannon-Fano 编码和 Huffman 编码有哪些共同的优缺点？哪个编码效率更高一些？与

Huffman 编码比较，算术编码有什么优势？给出算术编码的思路与过程。

都属于不对称、无损、变码长的熵编码，都不需要另外附加同步分割符号；都没有错误保护功能、且不能随机定位；哈夫曼编码方法的编码效率一般会更高一些。

算术编码也是一种最优变码长的熵编码，其主要优点是克服了Huffman编码必须为整数位，这与实数的概率值相差大的缺点；思路——区间映射：把输入符号串（数据流）映射成[0，1)区间中的一个实数值；过程：将串中使用的符号表按原编码从小到大顺序排列成表，用[0，1)中的一个宽度等于其出现概率的实数区间来表示表中的每一个符号，设置初始编码区间为[0, 1]，根据当前输入字符所对应的区间的端点xi与yi及原编码区间的左端点lj-1和大小dj-1来确定当前编码区间：

lj?lj?1?dj?1?xi, rj?lj?1?dj?1?yi, j ? 1, ..., n

输入串的最后一个符号所对应编码区间的下限ln就是该符号串的算术编码值。

20.RLE 的英文原文与中文译文各是什么？RLE 编码的思路什么？其压缩效率如何？

• run-length encoding游程编码又称“运行长度编码”或“行程编码”，是一种统计编码，该编码属于无损压缩编码，是栅格数据压缩的重要编码方法。

• 游程编码的基本原理是：用一个符号值或串长代替具有相同值的连续符号（连续符号构成了一段连续的“行程”。行程编码因此而得名），使符号长度少于原始数据的长度。只在各行或者各列数据的代码发生变化时，一次记录该代码及相同代码重复的个数，从而实现数据的压缩。

RLE = run length encoding 行程编码/游程长度编码； RLE视数字信息为无语义的字符序列(字节流)，对相邻重复的字符，用一个数字表示连续相同字符的数目(称为行程长度)，可达到压缩信息的目的； RLE所能获得的压缩比主要是取决于图像本身的特点，如果图像中具有相同颜色的图像块越大，图像块数目越少，获得的压缩比就越高（一般为人造的图形）。反之，压缩比就越小（一般为拍摄的图片）。

21、电视主要有哪几种制式？并简要叙述。

答： 1、NTSC（