1、音视频录制原理
2、音视频播放原理
3、图像表示
3.1、RGB
图像需要压缩,不然太大了;
3.2 、YUV格式1
Y:明亮度
U和V:色度
3.3、YUV格式2
3.3、YUV格式3
YUV 4:2:0:表示4个Y像素点使用同样一个U,同样一个V(即Y1,Y2,Y9,Y10,对应U1,V1)
3.4、YUV420P的格式表示图像
(4+2)/4=1.5;
4、视频主要概念
4.1、主要概念1
4.2、视频的主要概念2 - I P B帧
GOP以I帧开始;
- 先解出I帧;
- P帧参考I帧解出;
- B帧参考I和P帧解出。
4.3、常用视频压缩算法
MPEG2 | MPEG阵营 |
---|---|
H264 | MPEG阵营 |
H265 | MPEG阵营 |
AVS | 中国阵营 |
VP8 | Google阵营 |
VP9 | Google阵营 |
5、音频基础知识
5.1、声音的物理性质
5.1.1-振动
声音是一种由物体振动引发的物理现象,如小提琴的弦声等。物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化以波的形式向四周传播,当被人耳所接收时,我们就听见了声音。
次声 | 0~20Hz |
---|---|
人耳能听见的声音 | 20Hz~20KHz |
超声 | 20KHz~1GHz |
特超声 | 1GHz~10THz |
5.1.2-振幅
声音有振幅,振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。
5.2、数字音频
模拟信号——》数字化,涉及三个概念:
-
采样频率
-
采样量化
-
编码
计算机并不直接使用连续平滑的波形来表示声音,它是每隔固定的时间对波形的幅值进行采样,用得到的一系列数字量来表示声音。右图 是经过数字采样的波形示意图。
PCM脉冲编码调制
PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。
5.2.1、采样频率
Nyguist采样定律:要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。
人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。
采样频率: 每秒钟采样的点的个数。
常用的采样频率有:
22000(22kHz) | 无线广播 |
---|---|
44100(44.1kHz) | CD音质 |
48000(48kHz) | 数字电视,DVD |
96000(96kHz) | 蓝光,高清DVD |
192000(192kHz) | 蓝光,高清DVD |
5.2.2、采样量化
采样是在离散的时间点上进行的,而采样值本身在计算机中也是离散的。
采样值的精度取决于它用多少位来表示,这就是量化。例如8位量化可以表示256个不同值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]。
下图是一个3位量化的示意图,可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1,因而量化位数越少,波形就越难辨认,还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)
5.3、音频常见名词
采样频率:
22000(22kHz) | 无线广播 |
---|---|
44100(44.1kHz) | CD音质 |
48000(48kHz) | 数字电视,DVD |
96000(96kHz) | 蓝光,高清DVD |
192000(192kHz) | 蓝光,高清DVD |
采样精度(采样深度):每个“样本点”的大小, 常用的大小为8bit, 16bit,24bit。
通道数: 单声道,双声道,四声道,5.1声道。
举例:
5.4、音视频编码
5.4.1、编码原理简介
冗余信号: 包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。
-
例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。
-
此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应。
5.4.2、频谱掩蔽效应
掩蔽效应:一个频率的声音能量小于某个阈值之后,人耳就会听不到。当有另外能量较大的声音出现的时候,该声音频率附近的阈值会提高很多。
由图中我们可以看出人耳对2KHz~5KHz的声音最敏感,而对频率太低或太高的声音信号都很迟钝,当有一个频率为0.2KHz、强度为60dB的声音出现时,其附近的阈值提高了很多。
由图中我们可以看出在0.1KHz以下、1KHz以上的部分,由于离0.2KHz强信号较远,不受0.2KHz强信号影响,阈值不受影响;而在0.1KHz~1KHz范围,由于0.2KHz强音的出现,阈值有较大的提升,人耳在此范围所能感觉到的最小声音强度大幅提升。
如果0.1KHz~1KHz范围内的声音信号的强度在被提升的阈值曲线之下,由于它被0.2KHz强音信号所掩蔽,那么此时我们人耳只能听到0.2KHz的强音信号而根本听不见其它弱信号,这些与0.2KHz强音信号同时存在的弱音信号就可视为冗余信号而不必传送。
5.4.2、时域掩蔽效应
时域掩蔽效应:当强音信号和弱音信号同时出现时,即两者发生时间很接近的时候,也会发生掩蔽效应。
时域掩蔽过程曲线如图所示,分为前掩蔽、同时掩蔽和后掩蔽三部分:
时域掩蔽效应可以分成三种:前掩蔽,同时掩蔽,后掩蔽。
前掩蔽:指人耳在听到强信号之前的短暂时间内,已经存在的弱信号会被掩蔽而听不到。
同时掩蔽:指当强信号与弱信号同时存在时,弱信号会被强信号所掩蔽而听不到。
后掩蔽:指当强信号消失后,需经过较长的一段时间才能重新听见弱信号,称为后掩蔽。
这些被掩蔽的弱信号即可视为冗余信号。