【多媒体技术】题目整理

Loli_Wolf

已于 2024-01-06 23:32:00 修改

阅读量164

点赞数 1

分类专栏：多媒体技术文章标签：语音识别人工智能软件工程音视频视频编解码

于 2023-11-21 13:57:03 首次发布

本文链接：https://blog.csdn.net/loli_wolf/article/details/134530245

版权

多媒体技术专栏收录该内容

1 篇文章 0 订阅

订阅专栏

题目整理

简答题
PCM，子带编码，LPC的区别
PCM是脉冲编码调制，是把模拟信号变换为数字信号的一种调制方式，把连续输入的模拟信号变换为数字信号传输或存储。
子带编码：把输入信号的频带分成若干个连续的子带，对每个子带采用单独的编码方案。在接收端将每个子带的编码单独译码，然后把它们组合起来，还原成原来的音频信号。
线性预测编码(LPC)是通过分析语音波形来获得语音生成模型的参数，以及利用该模型重构语音的参数，于是对声音波形的编码就转化为对这些参数的编码，达到压缩语音数据的目的。
ADPCM基本思想

利用自适应的思想改变量化阶的大小，即使用小的量化阶去编码小的差值，使用大的量化阶去编码大的差值。
使用过去的样本值估算当前输入样本的预测值，使实际样本值和预测值之间的差值总是最小。
JPEG的过程步骤，量化的目的，直流系数交流系数分别用什么编码处理
步骤：
正向离散余弦变换
量化
Z字形扫描
使用差分脉冲编码调制DPCM对直流系数DC进行编码
使用行程长度编码对交流系数AC进行编码
量化的目的：减小非“0”系数的幅度以及增加“0”值系数的数目。
直流系数DC用差分脉冲调制编码
交流系数AC用行程编码
熵编码
JPEG 2种累进方式
频谱选择法：扫描中只对64个DCT量化系数中某些频带的系数进行编码、传送，随后对其它频带编码、传送，直到全部系数传送完毕为止。
按位逼近法：沿着DCT量化系数有效位方向分段累进编码。
JPEG的直流系数和交流系数用什么方法编码与取样。
直流系数用差分脉冲调制编码
交流系数用行程编码
都使用色度子采样，对YCbCr三个分量取样，亮度Y取较高频率，色度分量Cb和Cr取较低频率。
颜色空间YCbCr的矩阵变换（会给一个变换矩阵）

TCP和UDP的特点，以及多媒体视频传输选哪个协议，以及为什么？
TCP是可靠传输协议，可以保证完整性和顺序性，需要三次握手来建立会话。TCP有流量控制和拥塞控制机制。
UDP是无连接的不可靠传输协议，头部开销较小。
多媒体视频传输通常选择UDP，因为UDP可以更快传输数据，虽然不可靠，但多媒体视频可以容忍一定程度的丢失。对于实时的视频，需要降低延迟，TCP的重传等机制可能会升高延迟。所以在多媒体领域，有位于应用层的RTP等协议，并且在传输层使用了UDP。
哈夫曼编码，行程编码，算术编码的思路。
哈夫曼编码：
统计信源符号出现的频率，以建立Huffman码表。把信源符号按概率递减排列，建立二叉树。沿树的路径赋予二进制值，以生成符号编码。用在数据概率分布不均匀的场合。
行程编码：
行程是具有相同灰度值的连续符号的长度。按规定的路径进行扫描，将相同灰度值的连续符号合并记录为符号值和长度。
算术编码：
算术编码的思想是对整个消息的概率范围进行编码。首先把整个消息读一遍，总结出不同值的概率区间，然后遍历整个消息，调整当前编码上下界，最终得到一个非常小的区间，可以描述整个消息的符号序列。
分层传输算法描述

JPEG分层压缩

这个分层压缩传输的过程和应用无关，只是单纯的传输图片的过程。发送方将原始图像分辨率降低，给接收方发过去。并且发送方将预览插值(补0)到和我们目标的分辨率相同，并将原始图像降采样到目标分辨率，对插值后的预览图和降采样的图像求差，得到预览图和目标清晰度的差图像，发送给接收方。接收方可以把预览图插值到目标分辨率后与接受到的差图像求和，得到完整的目标分辨率图像。在接受过程中每次清晰度都以2的次方倍恢复。
MPEG有哪三种帧，分别有什么特性，去除什么冗余，谁的压缩率最高
I帧、P帧、B帧。
I帧包含内容完整的图像，为其他帧提供参考，有同步作用。去除了空间冗余，类似JPEG图像压缩。I帧不使用时间冗余，所以压缩率比较低。
P帧使用前面的I帧作为参考来进行预测编码。去除时间冗余，只记录和前一帧的差异。P帧的压缩率高于I帧。
B帧使用前后的帧来进行双向预测编码。同时去除了时空冗余，记录与前后帧的差异信息。B帧压缩率最高。
画图表示帧序列和视频流的关系
帧序列是视频流的一部分，主要负责图像内容的连续播放。视频流不仅包含了这些连续的图像帧，还通常包括音频流、可能的字幕数据、元数据（如编码信息、时间戳、同步信号等），以及其他可能的数据流。
计算题
奈奎斯特抽样定理，PCM的采样率。
奈奎斯特采样定理：要想抽样后能够不失真地还原出原信号，则抽样频率必须大于两倍信号谱的最高频率

奈奎斯特抽样定理题目：

理论问答题
题目： 解释奈奎斯特采样定理，并讨论如果采样率低于理论要求会发生什么现象。
解答：
奈奎斯特采样定理指出，为了从其采样值无失真地重构连续时间信号，信号的采样率必须至少是其最高频率成分的两倍。如果采样率低于这个最小值（即奈奎斯特率），则会发生混叠现象。混叠是指高频信号成分被错误地解释为低频信号，导致原始信号无法被正确重构，从而产生失真。
计算题
题目： 一段音频的最高频率成分为15 kHz。根据奈奎斯特定理，计算出理论上的最小采样率是多少。
解答：
根据奈奎斯特定理，最小采样率应该是信号最高频率的两倍。因此，对于最高频率为15 kHz的音频，最小采样率 = 2 * 15 kHz = 30 kHz。
应用分析题
题目： CD音质的采样率为44.1 kHz，但人类的听觉频率范围通常只达到20 kHz。解释为什么CD音质的采样率会设置为44.1 kHz，而不是根据奈奎斯特定理计算出的40 kHz。
解答：
CD音质的采样率之所以设定为44.1 kHz，是基于几个考虑因素：

为了留出足够的频带来设计有效的抗混叠滤波器，这些滤波器在采样之前用于去除高于20 kHz的频率成分。
44.1 kHz的选择还与早期数字音频设备的技术限制和存储容量有关。这个采样率是与当时的视频设备的标准兼容的结果，它使得音频和视频信号能够更容易地在同一设备上处理。

混叠现象分析题
题目： 描述在数字音频处理中混叠现象的原因和可能的影响，并讨论如何避免混叠。
解答：
在数字音频处理中，混叠现象通常是因为采样率低于信号最高频率的两倍所致。这导致高频信号成分被错误地解释为低频信号，从而在重构信号时产生失真。为了避免混叠，可以在采样前使用低通滤波器来滤除那些高于奈奎斯特频率一半的频率成分，并确保采样率满足奈奎斯特定理的要求。
实际应用题
题目： 考虑一个用于语音通信的数字系统，其语音信号的最高频率为3.4 kHz。根据奈奎斯特定理，确定合适的采样率，并讨论在选择采样率时需要考虑的其他实际因素。
解答：
根据奈奎斯特定理，合适的采样率至少应该是最高频率的两倍，即 2 * 3.4 kHz = 6.8 kHz。然而，在实际应用中，通常会选择稍高的采样率来考虑滤波器的
不完美性和其他工程因素。例如，标准电话质量的语音采样率通常设定为8 kHz。此外，在选择采样率时，还应考虑如成本、设备兼容性和所需的数据存储量等因素。
比较分析题
题目： 比较奈奎斯特采样定理与欠采样定理。讨论在何种情况下可以使用欠采样，并解释其背后的原理。
解答：
奈奎斯特采样定理强调，为了避免混叠并能够无失真地重构信号，采样率必须至少是信号最高频率的两倍。而欠采样定理允许在特定条件下，用低于这个标准的采样率采样信号，但这通常适用于带通信号，即信号的能量集中在一个高于零的频率范围内。在这种情况下，可以利用信号频带的位置来使用较低的采样率，同时避免混叠。欠采样的关键是确保信号的频带宽度较小，并且采样频率足够高，以覆盖这个频带的整个范围。欠采样在雷达、无线通信和频谱分析等领域中有着广泛的应用。

算1分钟内的数据容量

采样率：信号每秒被采样的次数，通常以赫兹（Hz）为单位。
量化位数：每个采样的位数，决定了信号的动态范围和噪声水平。
通道数：例如，单声道（Mono）是1个通道，立体声（Stereo）是2个通道。
时间长度：数据录制或播放的时间。

这个PCM是不是对自然界的频率都适用
PCM 理论上可以应用于任何频率的模拟信号，但实际应用中需要考虑到采样率、量化精度以及技术限制。
解答题
智能监控系统和传统监控系统的区别，智能监控系统的组成，以及面临的技术问题
传统监控模式下需要监视的视频画面过多，远超人的接受能力。智能监控系统由机器自动分析视频图像源，从中识别并提取出有用的关键信息，并自动控制机器进行相应动作。智能监控系统可以增加有效性，主动发出警示，自动进行目标识别和事件统计，解放人力降低成本。
构成：视频的采集、视频压缩、解压缩、视频的传输、视频的存储、视频的分析、决策
面临的技术问题：视频自身的限制，智能技术面对的挑战，特殊场景的影响
应对策略：高清视频，人工智能技术进步，工程角度的设计
多模态学习的基本思想典型应用和关键技术
多模态学习指建立模型使计算机学习多个模态的信息，并且实现模态间信息的融合、交流和转换。
典型应用：

视听语音识别：融合视觉和听觉信息来克服噪声干扰，提高识别准确度。
图文情感分析：结合图像和文本信息来更好地理解对某些事件的态度或观点。
协同标注：利用资源丰富的模态辅助资源相对较少的模态进行学习。
多模态转化：将一个模态的信息转化为另一个模态的信息，例如机器翻译、语音翻译等。
多模态检索：对一种模态的查询词，返回与之相关的不同模态的检索结果。
关键技术：
模态表示：利用多模态之间的互补性，剔除模态间的冗余，从而学习到更好的特征表示。
模态转化：将一个模态的信息转换成另一个模态的信息。
模态融合：多模态融合是指将来自两个或多个模态的信息综合起来进行预测的过程
模态对齐：在同一个实例中寻找来自不同模态信息的对应关系。
说下课本里面的知识组成，以及每个部分分别讲了什么东西
首先课程对多媒体技术做了概要介绍，包括多媒体技术的基本概念，发展和应用。然后是多媒体数据的采集，介绍了系统中的硬件和采集原理。之后讲数据的压缩，介绍了数据存在的不同冗余以及针对这些冗余的压缩思路及编码。之后是声音，图像以及视频的信息表示、采集和编码。针对不同种类的数据信息以及不同的冗余产生的各种编码，重点讲了声音的PCM、APCM、DPCM、ADPCM，图片的JPEG以及视频的MPEG等编码方法。然后从数据传输的角度讲解，对多媒体通信建立基本认识后学习了应用层，传输层的基本协议，再到多媒体专用的通信协议RTP、RTCP等等。接着简单介绍了超媒体的概念后就讲解了多媒体的几种应用场景。包括智能视频监控、基于内容的多媒体信息检索以及多模态学习，每种应用都从传统场景入手，指出行业痛点并使用多媒体技术进行改进和实现。