以下是个人对音频方面基础知识的个人理解,内容十分基础,纯用作个人记忆,如有错误欢迎指正
我们平时听到的声音属于物理信号,由声带或其他物体的振动发出,通过空气的震动进行传播,如果需要通过机器录音或者播放就需要进行物理信号和电信号之间的转换。
录音的过程就是将声音的物理信号通过采样转换为电信号的过程。而播放音频就将电信号量化通过音响等设备震动转换为物理信号的过程。
目录
原始音频
可以通过三个参数来衡量一段原始音频数据(PCM):采样率、采样格式、声道数
采样率
采样频率是指1秒内对声音进行多少次采样,单位为Hz
根据采样定理(奈奎斯特–香农采样定理,Nyquist-Shannon sampling theorem)得知:只有当采样率高于声音信号最高频率的2倍时,才能把采集的声音信号唯一地还原成原来的声音。人耳能够感觉到的最高声音频率为20000Hz,因此为了满足人耳的听觉要求,需要至少每秒进行40000次采样(40kHz采样率)。
采样格式
当我们进行一次采样时可以得到一个关于当前样本的数据,用什么形式来存储这个样本数据就叫做采样格数,将样本以指定格式存放这一过程称为量化。
采样格式一般从三个方面来衡量:
1.位深度
也就是以多少位的数据来存放当前样本,常见的有16位和32位
2.存放格式
将数据以什么格式的数据类型进行存放,一般分为short、unsigned short和float
3.字节序
一般分为大端字节序和小端字节序
声道数
单声道产生一组声波数据,双声道(立体声)产生两组声波数据。
除此之外还有比特率的概念:
比特率就是指单位时间内传输或处理的比特数量
比特率计算公式: 比特率 = 采样率 * 位深度 * 声道数
没有经过编码压缩的音频称为原始音频,一般以PCM的格式进行存放(就是以以一个样本一个样本的格式存放的文件),PCM文件无法直接播放,因为只有样本数据,并不知道样本的采样格式、采样率和声道数,如果想要播放PCM的格式必须传递给播放器这三个数据。
原始的PCM文件的大小等于 采样率 * 位深度 * 声道数 * 时间
如果我们采样率采取44100 位深度为16 声道数为2
那么仅1分钟的音频就需要10.34MB,显然是无法接受的。为了能够更好的存放和传输音频数据,就需要用到编码和解码了
编码
编码可以看作是对音频的压缩
压缩分为无损压缩和有损压缩。
无损压缩
解压后可以完全还原出原始数据
压缩比小,体积大
有损压缩
解压后不能完全还原出原始数据,会丢失一部分信息
压缩比大,体积小
压缩比越大,丢失的信息就越多,还原后的信号失真就会越大
一般是通过舍弃原始数据中对人类听觉不重要的部分,达成压缩成较小文件的目的
压缩比 = 未压缩大小 / 压缩后大小
解码
当需要播放音频时,得先解码(解压缩)出PCM数据,然后再进行播放。
常见的AAC和MP3都属于有损压缩