采集音频主要由以下步骤构成从模拟信号转换为数字信号。采样、量化、编码模拟信号,就是我们平常听到的声音,因为计算机只能识别数字01,无法直接存储,需要转换为数字存储。最常用的采集设备就是麦克风,膜片接收到声波产生振动引发感应电流,将声音转换为电信号。 转化为电信号后还要经过模数转换(ADC)后才能存储,模数转换芯片会定时的对音频信号进行采样,将其保存为二进制数据。
采样
模拟信号的波形可以看作一个无限连续的点组成,受采集设备、存储空间的影响,无法完整的复刻出模拟信号。需要对模拟信号进行采样,就是在时间轴上的抽样;采样率就是每秒采集的样本数量;从理论上来说采样率越高就越能保存最真实的声音。随之带来的数据量就越大。根据奈奎斯特–香农采样定理,只有当采样率高于声音信号最高频率的2倍时,才能把采集的声音信号唯一地还原成原来的声音;因此要按比声音最高频率高2倍以上的频率对声音进行采样;
量化
抽样值在一定的取值范围内,可有无限多个值。用数字是无法表示的。所以我们要对其进行“四舍五入”的操作取整。将其表示为有限个值。我们用来量化的单位就是位宽,例如8bit、16bit等,16bit表示的范围是[-32768,32767],共有2^16=625536个可能取值,所以最终模拟的音频信号在幅度上也分为了65536层;位宽表示使用多少个二进制位来存储一个采样点的样本值;位深度越高,表示的振幅越精确;数据量就会越大。采样率、位宽还是要根据实际场景来选择,并不是追求越高越好。
编码
量化后的抽样信号在一定的取值范围内仅有有限个可取的样值,且信号正、负幅度分布的对称性使正、负样值的个数相等,正、负向的量化级对称分布。若将有限个 量化样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码(例如,赋予样值0的十进制数字代码为0),在码前以“+”、“-”号为前缀,来 区分样值的正、负,则量化后的抽样信号就转化为按抽样时序排列的一串十进制数字码流,即十进制数字信号。简单高效的数据系统是二进制码系统,因此,应将十 进制数字代码变换成二进制编码。根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长。这种把量化的抽样信号变换成给定字长的二进制码流的 过程称为编码。
码率=采样率*位宽*声道数