声音简介
定义:声音(wiki) 是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。
本质:声音是一种机械波。
声音三要素
图示:
心理声学
心理声学(wiki) 是研究人对声音感知的学科,即研究人对声音(包括言语和音乐)的生理和心理反应的科学。
听觉/发声范围
音频量化
量化过程
基本概念
- 采样大小:一个采样用多少bit存放。常用16bit
- 采样率:采样频率 8k、16k、32k、44.1k、48k
- 声道数:单声道、双声道、多声道
码率计算
码率 = 采样率 × 采样大小 × 声道数
如:
采样率为44.1kHz,采样大小为16bit,双声道PCM编码的WAV文件
码率 = 44.1k × 16 × 2 = 1411.2kb/s = 176.4KB/s
音频压缩
音频压缩(wiki) 属于数据压缩的一种,用以减少音频流媒体的传输带宽需求与音频档案的存储大小。
压缩方法
无损压缩
保留原始文件的所有信息,在播放上与原始文件没有任何差别。
利用 信息冗余 进行数据压缩,是一个可逆的过程。
有损压缩
对原始文件的一些信息做一些近似处理,以得到更小的文件。
将人类心理学、听觉系统的识别都纳入压缩结果的考量,是一个不可逆的过程。
人耳听觉范围外的音频信号,以及被掩蔽掉的音频信号。
掩蔽效应
掩蔽效应(wiki):听觉系统对一种声音的感知被另一种声音所阻碍的现象。
频域掩蔽
一种声音被另一种同时发出的声音所掩盖。
时域掩蔽
发生在时间上相邻的声音之间的掩蔽。
音频编码
编码过程
音频文件格式
音频文件格式(wiki):存放音频数据的文件的格式。
格式分类
- 无损格式:如 WAV,FLAC,APE,ALAC,WavPack(WV)
- 有损格式:如 MP3,AAC,Ogg Vorbis,Opus
性能比较
延迟对比
效率对比
AAC编码
AAC(wiki):高级音频编码(Advanced Audio Coding),为一种基于MPEG-2的有损数字音频压缩的专利音频编码标准,出现于1997年。
AAC比MP3表现出更好的声音质量,目的是取代MP3格式
常用规格
- AAC LC:(Low Complexity) 低复杂度规格
- AAC HE V1:(High-Efficiency) AAC LC + SBR(频段复制,Spectral Band Replication)
- AAC HE V2:AAC LC + SBR + PS(参数立体声,Parametric Stereo)
数据交换格式
- ADIF:(Audio Data Interchange Format) 音频数据交换格式,只能从头开始解码,常用在磁盘文件。
- ADTS:(Audio Data Transport Stream) 音频传输流格式,每一帧都有一个同步字,可以在音频流的任何位置开始解码,用于数据流传输。
References: