3.1 用自己的语言说出下面3种话音编译码器的基本想法。① 波形编译码器,②音源编译码器,③混合编译码器
解答:① 波形编译码器的基本想法是,尽可能生成一种与原来话音波形一致的重构信号。
②音源编译码器的想法可归纳为两部分,第一部分是在话音波形的信号中提取生成话音的参数;第二部分是使用提取的参数通过话音生成模型重构出话音。
③混合编译码器的基本想法很简单,就是填补以上两种译码器的质检的间隔,解决数据率和音质之间的问题。
3.4 什么叫做均匀量化?什么叫做非均匀量化?
解答:均匀量化是采用相等的量化间隔对采样得到的信号进行的量化,均匀量化也称为线性量化。非均匀量化是在对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示整个信号。
3.10 自适应差分脉冲编码调制(ADPCM)的两个基本思想是什么?
解答:第一,利用自适应的思想改变量化阶的大小,即使用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值。
第二,使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
5.5 JPEG压缩编码算法的主要计算步骤是:①DCT变换,②量化,③Z字形编码,④使用DPCM对直流系数(DC)进行编码,⑤使用RLE对交流系数(AC)进行编码,⑥熵编码。假设计算机的精度足够高,问在上述计算方法中,哪些计算对图像的质量是有损的?哪些计算对图像的质量是无损的?
解答:②量化和④使用DPCM对直流系数(DC)进行编码对图像的质量是有损;其它计算对图像的质量是无损的。
8.1写出矢量空间W3 的哈尔小波并画出它的波形。
答:
8.2 写出4×4 哈尔小波变换矩阵。
9.1 什么叫做零树?
9.2 解释EZW的含义。
9.4 解释SPIHT的含义。
第十章 练习与思考题
10.1 世界上主要的彩色电视制式是哪几种?
目前世界上使用的彩色电视制式主要有PAL,NTSC,SECAM三种,都是模拟彩色电视制式。
10.2 隔行扫描是什么意思?非隔行扫描是什么意思?
(1) 在隔行扫描中,一帧画面分两场,第一场扫描总行数的一半,第二场扫描总行数的另一半。电子束扫完第1行后回到第3行开始的位置接着扫,如图10-01(b)所示,然后在第5、7、……,行上扫,直到最后一行。奇数行扫完后接着扫偶数行,这样就完成了一帧(frame)的扫描。隔行扫描要求第一场结束于最后一行的一半,不管电子束如何折回,它必须回到显示屏顶部的中央,这样就可以保证相邻的第二场扫描恰好嵌在第一场各扫描线的中间。正是这个原因,才要求总的行数必须是奇数。
(2) 在非隔行扫描中,电子束从显示屏的左上角一行接一行地扫到右下角,在显示屏上扫一遍就显示一幅完整的图像。
10.8 一幅YUV彩色图像的分辨率为720×576。分别计算采用4:2:2、4:1:1和4:2:0子采样格式采样时的样本数。
(1) 4:4:4 这种采样格式不是子采样格式,它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本,这就相当于每个像素用3个样本表示。 720×576×3 = 1 244 160
(2) 4:2:2 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本,平均每个像素用2个样本表示。 720×576×2 = 829 440
(3) 4:1:1 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。 720×576×1.5 = 622 080
(4) 4:2:0 这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。 720×576×1.5 = 622080
11.2 MPEG-1, -2, -4和-7的目标是什么?
MPEG-1处理的是标准图像交换格式的电视,即NTSC制为352像素×240行/帧×30帧/秒,PAL制为352像素×288行/帧×25帧/秒,压缩的输出速率定义在1.5 Mb/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的,用于在CD-ROM上存储数字影视和在网络上传输数字影视。
MPEG-2标准是一个直接与数字电视广播有关的高质量图像和声音编码标准,是MPEG-1的扩充。MPEG-2提供位速率的可变性能功能,其最基本目标是:位速率为4~9 Mb/s,最高达15 Mb/s。
MPEG-4是为视听数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作,并且具有很强的交互功能。
MPEG-7的名称叫做多媒体内容描述接口,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下,数据类型还可包括面部特性和个人特性的表达。
13.1 电视图像数据压缩的依据是什么?
根据人的视觉特性和电视图像数据自身的冗余特性。人的视觉系统具有的两种特性可以用来压缩电视图像数据。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉;二是人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉。
12.2 什么叫做听阈?什么叫做痛阈?
(1) 当声音弱到人的耳朵刚刚可以听见时,称此时的声音强度为“听阈”
(2) 当声音强到人的耳朵刚刚感到疼痛时,称此时的声音强度为“听阈”。实验表明,如果频率为1 kHz的纯音的声强级达到120 dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。
12.3 什么叫做频域掩蔽?什么叫做时域掩蔽?
(1) 强纯音掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽。 (2) 在时间方向上相邻声音之间的掩蔽,这种特性称为时域掩蔽。
14.1 只读光盘是如何记录“0”和“1”的?
14.2 CD-DA的音乐信号的采样频率为什么选择44.1 kHz?
人耳朵能听到的声音信号频率范围是20~20 000 Hz,为了避免高于20 000 Hz的高频信号干扰采样,在进行采样之前,需要对输入的声音信号进行滤波。考虑到滤波器在20000 Hz的地方大约有10%的衰减,所以可以用22 000 Hz的2倍频率作为声音信号的采样频率。但是,为了能够与电视信号同步,PAL电视的场扫描为50 Hz,NTSC电视的场扫描为60 Hz,所以取50和60的整数倍,选用了44 100 Hz作为激光唱盘声音的采样标准。
16.1 CRC用于检测错误还是校正错误?
16.5 要纠正1个符号的错误,至少需要附加多少个校验符?