352-音视频基础

1、音视频录制原理

在这里插入图片描述

2、音视频播放原理

3、图像表示

3.1、RGB

在这里插入图片描述

图像需要压缩,不然太大了;

3.2 、YUV格式1

Y:明亮度

U和V:色度

在这里插入图片描述

3.3、YUV格式2

在这里插入图片描述

3.3、YUV格式3

在这里插入图片描述

YUV 4:2:0:表示4个Y像素点使用同样一个U,同样一个V(即Y1,Y2,Y9,Y10,对应U1,V1)

3.4、YUV420P的格式表示图像

在这里插入图片描述

(4+2)/4=1.5;

4、视频主要概念

4.1、主要概念1

在这里插入图片描述

4.2、视频的主要概念2 - I P B帧

在这里插入图片描述

GOP以I帧开始;

在这里插入图片描述

		- 先解出I帧;
		- P帧参考I帧解出;
		- B帧参考I和P帧解出。

4.3、常用视频压缩算法

MPEG2MPEG阵营
H264MPEG阵营
H265MPEG阵营
AVS中国阵营
VP8Google阵营
VP9Google阵营

5、音频基础知识

5.1、声音的物理性质

5.1.1-振动

声音是一种由物体振动引发的物理现象,如小提琴的弦声等。物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化以波的形式向四周传播,当被人耳所接收时,我们就听见了声音。

次声0~20Hz
人耳能听见的声音20Hz~20KHz
超声20KHz~1GHz
特超声1GHz~10THz
5.1.2-振幅

声音有振幅,振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。

在这里插入图片描述

5.2、数字音频

模拟信号——》数字化,涉及三个概念:

  • 采样频率

  • 采样量化

  • 编码

计算机并不直接使用连续平滑的波形来表示声音,它是每隔固定的时间对波形的幅值进行采样,用得到的一系列数字量来表示声音。右图 是经过数字采样的波形示意图。

PCM脉冲编码调制

PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。
在这里插入图片描述

在这里插入图片描述

5.2.1、采样频率

Nyguist采样定律:要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。

人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。

采样频率: 每秒钟采样的点的个数。

常用的采样频率有:

22000(22kHz)无线广播
44100(44.1kHz)CD音质
48000(48kHz)数字电视,DVD
96000(96kHz)蓝光,高清DVD
192000(192kHz)蓝光,高清DVD
5.2.2、采样量化

采样是在离散的时间点上进行的,而采样值本身在计算机中也是离散的。

采样值的精度取决于它用多少位来表示,这就是量化。例如8位量化可以表示256个不同值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]。

下图是一个3位量化的示意图,可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1,因而量化位数越少,波形就越难辨认,还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)

在这里插入图片描述

5.3、音频常见名词

采样频率:

22000(22kHz)无线广播
44100(44.1kHz)CD音质
48000(48kHz)数字电视,DVD
96000(96kHz)蓝光,高清DVD
192000(192kHz)蓝光,高清DVD

采样精度(采样深度):每个“样本点”的大小, 常用的大小为8bit, 16bit,24bit。

通道数: 单声道,双声道,四声道,5.1声道。

在这里插入图片描述

举例:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

5.4、音视频编码

5.4.1、编码原理简介

在这里插入图片描述

冗余信号: 包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。

  • 例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。

  • 此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应时域掩蔽效应

5.4.2、频谱掩蔽效应

掩蔽效应:一个频率的声音能量小于某个阈值之后,人耳就会听不到。当有另外能量较大的声音出现的时候,该声音频率附近的阈值会提高很多。

在这里插入图片描述

由图中我们可以看出人耳对2KHz~5KHz的声音最敏感,而对频率太低或太高的声音信号都很迟钝,当有一个频率为0.2KHz、强度为60dB的声音出现时,其附近的阈值提高了很多。

由图中我们可以看出在0.1KHz以下、1KHz以上的部分,由于离0.2KHz强信号较远,不受0.2KHz强信号影响,阈值不受影响;而在0.1KHz~1KHz范围,由于0.2KHz强音的出现,阈值有较大的提升,人耳在此范围所能感觉到的最小声音强度大幅提升。

如果0.1KHz~1KHz范围内的声音信号的强度在被提升的阈值曲线之下,由于它被0.2KHz强音信号所掩蔽,那么此时我们人耳只能听到0.2KHz的强音信号而根本听不见其它弱信号,这些与0.2KHz强音信号同时存在的弱音信号就可视为冗余信号而不必传送

5.4.2、时域掩蔽效应

时域掩蔽效应:当强音信号和弱音信号同时出现时,即两者发生时间很接近的时候,也会发生掩蔽效应。

时域掩蔽过程曲线如图所示,分为前掩蔽同时掩蔽后掩蔽三部分:

在这里插入图片描述

时域掩蔽效应可以分成三种:前掩蔽,同时掩蔽,后掩蔽。

前掩蔽:指人耳在听到强信号之前的短暂时间内,已经存在的弱信号会被掩蔽而听不到。

同时掩蔽:指当强信号与弱信号同时存在时,弱信号会被强信号所掩蔽而听不到。

后掩蔽:指当强信号消失后,需经过较长的一段时间才能重新听见弱信号,称为后掩蔽。

这些被掩蔽的弱信号即可视为冗余信号。

5.4.3、压缩编码方法

在这里插入图片描述

5.5、音频编解码器选型

在这里插入图片描述

6、封装格式

6.1、封装格式的概念

在这里插入图片描述

6.2、封装格式示例

在这里插入图片描述

6.3、常见的视频封装格式

在这里插入图片描述

7、音视频同步基础

7.1、音视频同步概念:

在这里插入图片描述

7.2、音视频同步方式

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liufeng2023

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值