多媒体技术期末复习部分习题

最新推荐文章于 2020-01-02 22:38:47 发布

张志强Incredible

最新推荐文章于 2020-01-02 22:38:47 发布

阅读量2.9k

点赞数

分类专栏：图形图像

图形图像专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨了信息技术领域的核心概念，包括话音编译码器、量化技术、图像压缩算法、JPEG压缩编码、矢量空间、哈尔小波、零树编码、SPIHT算法、电视图像数据压缩依据、听阈与痛阈、频域与时域掩蔽、只读光盘记录方式、CD-DA采样频率选择、CRC检测错误原理、纠正错误所需校验符数量等，全面覆盖了从编码到压缩再到错误检测与校正的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.1 用自己的语言说出下面3种话音编译码器的基本想法。① 波形编译码器，②音源编译码器，③混合编译码器

解答：① 波形编译码器的基本想法是，尽可能生成一种与原来话音波形一致的重构信号。

②音源编译码器的想法可归纳为两部分，第一部分是在话音波形的信号中提取生成话音的参数；第二部分是使用提取的参数通过话音生成模型重构出话音。

③混合编译码器的基本想法很简单，就是填补以上两种译码器的质检的间隔，解决数据率和音质之间的问题。

3.4 什么叫做均匀量化？什么叫做非均匀量化？

解答：均匀量化是采用相等的量化间隔对采样得到的信号进行的量化，均匀量化也称为线性量化。非均匀量化是在对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，这样就可以在满足精度要求的情况下用较少的位数来表示整个信号。

3.10 自适应差分脉冲编码调制(ADPCM)的两个基本思想是什么？

解答：第一，利用自适应的思想改变量化阶的大小，即使用小的量化阶去编码小的差值，使用大的量化阶去编码大的差值。

第二，使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。

5.5 JPEG压缩编码算法的主要计算步骤是：①DCT变换，②量化，③Z字形编码，④使用DPCM对直流系数(DC)进行编码，⑤使用RLE对交流系数(AC)进行编码，⑥熵编码。假设计算机的精度足够高，问在上述计算方法中，哪些计算对图像的质量是有损的？哪些计算对图像的质量是无损的？

解答：②量化和④使用DPCM对直流系数(DC)进行编码对图像的质量是有损；其它计算对图像的质量是无损的。

8.1写出矢量空间W3 的哈尔小波并画出它的波形。

答：

8.2 写出4×4 哈尔小波变换矩阵。

9.1 什么叫做零树？

用来表示小波变换的系数的一种树形数据结构叫做“零树”。因为离散小波变换是一种多分辨率的分解方法，每一级分解都会产生表示图像比较粗糙和比较精细的小波系数，在同一方向和相同空间位置上的所有小波系数之间的关系可用一棵树的形式表示，如果树根和它的子孙的小波系数的绝对值小于某个给定的阈值，那么这棵树就叫做零树。

9.2 解释EZW的含义。

嵌入零树小波编码(embedded zerotree wavelet, EZW)是Shapiro, J. M在1993年开发的一种编码算法。"小波"表示该算法以离散小波变换为基础，以变换后的大系数比小系数更重要以及高频子带中的小系数可以忽略为背景；"零树"表示小波变换系数之间的一种数据结构，用同一方向和相同空间位置上的所有小波系数构成一棵树，如果树根及其子孙的小波系数的绝对值小于某个给定域值，则这棵树就称为零树；"嵌入"表示一幅图像可以分解成一幅低分辨率图像和分辨率由低到高(表示图像细节)的许多子图像，图像合成过程是通过子图像生成许多分辨率不同的图像。EZW编码就是按照用户对图像分辨率的不同要求，编码器进行多次编码，每进行一次编码，域值降低1/2，水平和垂直方向上的图像分辨率各提高1倍。编码从最低分辨率图像开始扫描，每当遇到幅度大于域值的正系数就用符号P表示，幅度小于域值的负系数用符号N表示，树根节点上的系数幅度小于域值而树枝中有大于域值的非零树用符号Z表示，零树用符号T表示，编码的输出是符号集{P, N, T, Z, 0, 1}中的一系列符号。

9.4 解释SPIHT的含义。
层树分集算法(set partitioning in hierarchical trees, SPIHT)的根据是，图像经过小波变换之后，大部分能量都集中在低频子带。从这个事实出发，最先传送幅度大的系数，这样解码器即使在低速率应用环境下也可得到图像的大部分信息。编码树的结构与EZW算法的结构类似，每一个节点要么没有子节点，要么有4个子节点。在编码过程中，使用三个列表变量存储重要系数和不重要系数。该算法适用于图像的渐进传输，具有比较高的PSNR，复杂度比较低，计算量比较少，位速率容易控制等优点。

第十章练习与思考题

10.1 世界上主要的彩色电视制式是哪几种？

目前世界上使用的彩色电视制式主要有PAL，NTSC，SECAM三种，都是模拟彩色电视制式。

10.2 隔行扫描是什么意思？非隔行扫描是什么意思？

(1) 在隔行扫描中，一帧画面分两场，第一场扫描总行数的一半，第二场扫描总行数的另一半。电子束扫完第1行后回到第3行开始的位置接着扫，如图10-01(b)所示，然后在第5、7、……，行上扫，直到最后一行。奇数行扫完后接着扫偶数行，这样就完成了一帧(frame)的扫描。隔行扫描要求第一场结束于最后一行的一半，不管电子束如何折回，它必须回到显示屏顶部的中央，这样就可以保证相邻的第二场扫描恰好嵌在第一场各扫描线的中间。正是这个原因，才要求总的行数必须是奇数。

(2) 在非隔行扫描中，电子束从显示屏的左上角一行接一行地扫到右下角，在显示屏上扫一遍就显示一幅完整的图像。

10.8 一幅YUV彩色图像的分辨率为720×576。分别计算采用4:2:2、4:1:1和4:2:0子采样格式采样时的样本数。

(1) 4:4:4 这种采样格式不是子采样格式，它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本，这就相当于每个像素用3个样本表示。 720×576×3 ＝ 1 244 160

(2) 4:2:2 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本，平均每个像素用2个样本表示。 720×576×2 ＝ 829 440

(3) 4:1:1 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。 720×576×1.5 ＝ 622 080

(4) 4:2:0 这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。 720×576×1.5 ＝ 622080

11.2 MPEG-1, -2, -4和-7的目标是什么？

MPEG-1处理的是标准图像交换格式的电视，即NTSC制为352像素×240行/帧×30帧/秒，PAL制为352像素×288行/帧×25帧/秒，压缩的输出速率定义在1.5 Mb/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的，用于在CD-ROM上存储数字影视和在网络上传输数字影视。

MPEG-2标准是一个直接与数字电视广播有关的高质量图像和声音编码标准，是MPEG-1的扩充。MPEG-2提供位速率的可变性能功能，其最基本目标是：位速率为4～9 Mb/s，最高达15 Mb/s。

MPEG-4是为视听数据的编码和交互播放开发算法和工具，是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作，并且具有很强的交互功能。

MPEG-7的名称叫做多媒体内容描述接口，目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下，数据类型还可包括面部特性和个人特性的表达。

13.1 电视图像数据压缩的依据是什么？

根据人的视觉特性和电视图像数据自身的冗余特性。人的视觉系统具有的两种特性可以用来压缩电视图像数据。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉；二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。

12.2 什么叫做听阈？什么叫做痛阈？

(1) 当声音弱到人的耳朵刚刚可以听见时，称此时的声音强度为“听阈”

(2) 当声音强到人的耳朵刚刚感到疼痛时，称此时的声音强度为“听阈”。实验表明，如果频率为1 kHz的纯音的声强级达到120 dB左右时，人的耳朵就感到疼痛，这个阈值称为“痛阈”。

12.3 什么叫做频域掩蔽？什么叫做时域掩蔽？

(1) 强纯音掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽。 (2) 在时间方向上相邻声音之间的掩蔽，这种特性称为时域掩蔽。

14.1 只读光盘是如何记录“0”和“1”的？

只读光盘通常是指CD/DVD系列只读光盘。在盘上压制凹坑的机械办法来记录“0”和“1”。凹坑的边缘代表“1”，凹坑和非凹坑的平坦部分代表“0”，凹坑的长度和非凹坑的长度都代表有多少个“0”。

14.2 CD-DA的音乐信号的采样频率为什么选择44.1 kHz？

人耳朵能听到的声音信号频率范围是20～20 000 Hz，为了避免高于20 000 Hz的高频信号干扰采样，在进行采样之前，需要对输入的声音信号进行滤波。考虑到滤波器在20000 Hz的地方大约有10%的衰减，所以可以用22 000 Hz的2倍频率作为声音信号的采样频率。但是，为了能够与电视信号同步，PAL电视的场扫描为50 Hz，NTSC电视的场扫描为60 Hz，所以取50和60的整数倍，选用了44 100 Hz作为激光唱盘声音的采样标准。

16.1 CRC用于检测错误还是校正错误？

用于检测错误。

16.5 要纠正1个符号的错误，至少需要附加多少个校验符？

2个，用于表示错误的位置和错误的值