音视频基础——声音的主要概念

声音的主要概念

声音的物理概念

声音是一种正弦波,具有振幅、周期、频率等基本属性。

而人耳能听到的声音其实是有一定限制的

振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。

数字音频

基本概念

计算机并不直接使用连续平滑的波形来表示声音,它是每隔固定的时间对波形的幅值进行采样,用得到的一系列数字量来表示声音。

PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。

采样频率

采样频率:每秒钟采样的点的个数。常用的采样频率有:

22000(22kHz): 无线广播。

44100(44.1kHz): CD音质。

48000(48kHz): 数字电视,DVD。

96000(96kHz): 蓝光,高清DVD。

192000(192kHz): 蓝光,高清DVD。

根据Nyguist采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。

人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。

采样量化(采样精度)

采样是在离散的时间点上进行的,而采样值本身在计算机中也是离散的。采样值的精度取决于它用多少位来表示,这就是量化。

例如8位量化可以表示256个不同值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]。

而如果只是采用3位去量化的话,可能什么都听不到。

通道数

常有单声道和立体声之分,单声道的声音仅仅能使用一个喇叭发声(有的也处理成两个喇叭输出同一个声道的声音),立体声能够使两个喇叭都发声(一般左右声道有分工) ,更能感受到空间效果,当然还有很多其它的通道数。

常见的有:单声道,双声道,四声道,5.1声道。

比特率

每秒传输的bit数,单位为:bps(Bit Per Second) 间接衡量声音质量的一个标准。

没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。

码率

压缩后的音频数据的比特率。常见的码率:

96kbps: FM质量

128-160kbps:一般质量音频。

192kbps: CD质量。

256-320Kbps:高质量音频

码率越大,压缩效率越低,音质越好,压缩后数据越大。

码率 = 音频文件大小/时长。

每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。

帧长

有两个解释,一个指的是播放的时间长度,一个指的是帧数据的大小

每帧播放持续的时间:每帧持续时间(秒) = 每帧采样点数 / 采样频率(HZ)

比如:MP3 48k, 1152个采样点,每帧则为 24毫秒 1152/48000= 0.024 秒 = 24毫秒;

交错模式

数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录

非交错模式

首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本

数字音频压缩编码

为什么要使用压缩编码

数字音频信号如果不加压缩地直接进行传送,将会占用极大的带宽。例如,一套双声道数字音频若取样频率为44.1KHz,每样值按16bit量化,则其码率为: 2*44.1kHz*16bit=1.411Mbit/s

如此大的带宽将给信号的传输和处理都带来许多困难和成本(阿里云服务器带宽大于5M后,每M价格是100元/月),因此必须采取音频压缩技术对音频数据进行处理,才能有效地传输音频数据。

什么是数字音频压缩编码

数字音频压缩编码在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩,降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号,它们对确定声音的音色,音调等信息没有任何的帮助。

数字音频压缩编码原理(频谱掩蔽效应和时域掩蔽效应)

冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。

例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。

此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。

这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应。

一个频率的声音能量小于某个阈值之后,人耳就会听不到。当有另外能量较大的声音出现的时候,该声音频率附近的阈值会提高很多,即所谓的掩蔽效应。

当强音信号和弱音信号同时出现时,还存在时域掩蔽效应。即两者发生时间很接近的时候,也会发生掩蔽效应。

编码方法

对每一个音频声道中的音频采样信号:

  • 将它们映射到频域中,这种时域到频域的映射可通过子带滤波器实现。每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值;
  • 由计算出的掩蔽门限值决定从公共比特池中分配给该声道的不同频率域中多少比特数,接着进行量化以及编码工作;
  • 将控制参数及辅助数据加入数据之中,产生编码后的数据流。

常见的编码方案

AAC、MP3、AC3、EAC3、OPUS等

其中AC3、EAC3是杜比公司的方案

什么是杜比音效

杜比定向逻辑环绕声(Dolby Pro Logic)是美国杜比公司开发的环绕声系统。杜比环绕声系统则是美国杜比实验室为改善立体声质量而研制成功的影院音响系统 。

它是把四声道立体声在录制时通过特定的编码手段合成为两声道,即将原来的左声道(L)、右声道(R)、中置声道(C)、环绕声道(S)的4个信号,经编码后合成为LT、RT复合双声道信号,重放时通过解码器将已编码的双声道复合信号LT和RT还原为编码的左、右、中、环绕四个互不干犹的独立信号,经放大后分别输入左音箱、右音箱、中置音箱和环绕音箱。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ym影子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值