352-音视频基础

liufeng2023

于 2022-06-12 15:31:32 发布

阅读量263

点赞数

文章标签：音视频录制 YUV格式音频编码掩蔽效应音视频同步

本文链接：https://blog.csdn.net/Edward_LF/article/details/125245710

版权

音视频开发专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、音视频录制原理

在这里插入图片描述

2、音视频播放原理

3、图像表示

3.1、RGB

在这里插入图片描述

图像需要压缩，不然太大了；

3.2 、YUV格式1

Y：明亮度

U和V：色度

在这里插入图片描述

3.3、YUV格式2

在这里插入图片描述

3.3、YUV格式3

在这里插入图片描述

YUV 4:2:0：表示4个Y像素点使用同样一个U，同样一个V(即Y1，Y2，Y9，Y10，对应U1，V1)

3.4、YUV420P的格式表示图像

在这里插入图片描述

(4+2)/4=1.5；

4、视频主要概念

4.1、主要概念1

在这里插入图片描述

4.2、视频的主要概念2 - I P B帧

在这里插入图片描述

GOP以I帧开始；

在这里插入图片描述

		- 先解出I帧；
		- P帧参考I帧解出；
		- B帧参考I和P帧解出。

4.3、常用视频压缩算法

MPEG2	MPEG阵营
H264	MPEG阵营
H265	MPEG阵营
AVS	中国阵营
VP8	Google阵营
VP9	Google阵营

5、音频基础知识

5.1、声音的物理性质

5.1.1-振动

声音是一种由物体振动引发的物理现象，如小提琴的弦声等。物体的振动使其四周空气的压强产生变化，这种忽强忽弱变化以波的形式向四周传播，当被人耳所接收时，我们就听见了声音。

次声	0～20Hz
人耳能听见的声音	20Hz～20KHz
超声	20KHz～1GHz
特超声	1GHz～10THz

5.1.2-振幅

声音有振幅，振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。

在这里插入图片描述

5.2、数字音频

模拟信号——》数字化，涉及三个概念：

采样频率
采样量化
编码

计算机并不直接使用连续平滑的波形来表示声音，它是每隔固定的时间对波形的幅值进行采样，用得到的一系列数字量来表示声音。右图是经过数字采样的波形示意图。

PCM脉冲编码调制

PCM(Pulse Code Modulation)，脉冲编码调制。人耳听到的是模拟信号，PCM是把声音从模拟信号转化为数字信号的技术。
在这里插入图片描述

在这里插入图片描述

5.2.1、采样频率

Nyguist采样定律：要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍。

人耳能听到的频率范围是[20H~20kHz]，所以采样频率一般为44.1Khz，这样就能保证声音到达20Khz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。

采样频率： 每秒钟采样的点的个数。

常用的采样频率有：

22000（22kHz）	无线广播
44100（44.1kHz）	CD音质
48000（48kHz）	数字电视，DVD
96000（96kHz）	蓝光，高清DVD
192000(192kHz)	蓝光，高清DVD

5.2.2、采样量化

采样是在离散的时间点上进行的，而采样值本身在计算机中也是离散的。

采样值的精度取决于它用多少位来表示，这就是量化。例如8位量化可以表示256个不同值，而CD质量的16位量化可以表示65 536个值，范围为[-32768, 32767]。

下图是一个3位量化的示意图，可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1，因而量化位数越少，波形就越难辨认，还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)

在这里插入图片描述

5.3、音频常见名词

采样频率：

22000（22kHz）	无线广播
44100（44.1kHz）	CD音质
48000（48kHz）	数字电视，DVD
96000（96kHz）	蓝光，高清DVD
192000(192kHz)	蓝光，高清DVD

采样精度（采样深度）：每个“样本点”的大小，常用的大小为8bit， 16bit，24bit。

通道数： 单声道，双声道，四声道，5.1声道。

在这里插入图片描述

举例：

在这里插入图片描述

5.4、音视频编码

5.4.1、编码原理简介

在这里插入图片描述

冗余信号： 包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。

例如，人耳所能察觉的声音信号的频率范围为20Hz～20KHz，除此之外的其它频率人耳无法察觉，都可视为冗余信号。
此外，根据人耳听觉的生理和心理声学现象，当一个强音信号与一个弱音信号同时存在时，弱音信号将被强音信号所掩蔽而听不见，这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应，主要表现在频谱掩蔽效应和时域掩蔽效应。

5.4.2、频谱掩蔽效应

掩蔽效应：一个频率的声音能量小于某个阈值之后，人耳就会听不到。当有另外能量较大的声音出现的时候，该声音频率附近的阈值会提高很多。

在这里插入图片描述

由图中我们可以看出人耳对2KHz～5KHz的声音最敏感，而对频率太低或太高的声音信号都很迟钝，当有一个频率为0.2KHz、强度为60dB的声音出现时，其附近的阈值提高了很多。

由图中我们可以看出在0.1KHz以下、1KHz以上的部分,由于离0.2KHz强信号较远，不受0.2KHz强信号影响,阈值不受影响；而在0.1KHz～1KHz范围，由于0.2KHz强音的出现,阈值有较大的提升，人耳在此范围所能感觉到的最小声音强度大幅提升。

如果0.1KHz～1KHz范围内的声音信号的强度在被提升的阈值曲线之下，由于它被0.2KHz强音信号所掩蔽，那么此时我们人耳只能听到0.2KHz的强音信号而根本听不见其它弱信号，这些与0.2KHz强音信号同时存在的弱音信号就可视为冗余信号而不必传送。

5.4.2、时域掩蔽效应

时域掩蔽效应：当强音信号和弱音信号同时出现时，即两者发生时间很接近的时候，也会发生掩蔽效应。

时域掩蔽过程曲线如图所示，分为前掩蔽、同时掩蔽和后掩蔽三部分：

在这里插入图片描述

时域掩蔽效应可以分成三种：前掩蔽，同时掩蔽，后掩蔽。

前掩蔽：指人耳在听到强信号之前的短暂时间内，已经存在的弱信号会被掩蔽而听不到。

同时掩蔽：指当强信号与弱信号同时存在时，弱信号会被强信号所掩蔽而听不到。

后掩蔽：指当强信号消失后，需经过较长的一段时间才能重新听见弱信号，称为后掩蔽。

这些被掩蔽的弱信号即可视为冗余信号。

5.4.3、压缩编码方法

在这里插入图片描述

5.5、音频编解码器选型

在这里插入图片描述

6、封装格式

6.1、封装格式的概念

在这里插入图片描述

6.2、封装格式示例

在这里插入图片描述

6.3、常见的视频封装格式

在这里插入图片描述

7、音视频同步基础

7.1、音视频同步概念：

在这里插入图片描述

7.2、音视频同步方式

在这里插入图片描述

liufeng2023

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
352-音视频基础

图像需要压缩，不然太大了；Y：明亮度U和V：色度YUV 4:2:0：表示4个Y像素点使用同样一个U，同样一个V(即Y1，Y2，Y9，Y10，对应U1，V1)(4+2)/4=1.5；GOP以I帧开始；4.3、常用视频压缩算法MPEG2MPEG阵营H264MPEG阵营H265MPEG阵营AVS中国阵营VP8Google阵营VP9Google阵营5、音频基础知识5.1、声音的物理性质5.1.1-振动声音是一种由物体振动引发的物理现象，如小提琴的
复制链接

扫一扫