未经本人同意 请务转载 David QQ:435398366
0、前言
最近智能音响、AI蓝牙耳机、语音助手、翻译机器很火呀,为了跟上时代的步伐,我最近也开始语音相关的开发工作。
1、PCM
PCM(Pulse Code Modulation),脉冲编码调制。
PCM是把声音从模拟信号转化为数字信号的技术,把一个时间连续取值连续的模拟信号变换成时间离散取值离散的数字信号,模拟信号转化为数字信号需要三个步骤:采样、量化、编码。
1.1、采样
采样用一个固定的频率对模拟信号进行提取样值。
常用采样率为8KHz,16kHz,22.05kHz,32kHz,44.1kHz,48kHz,192kHz。
人耳能够感觉到的最高频率为20kHz,要满足人耳的听觉要求,根据奈奎斯特采样定律则,需要每秒进行40k次采样,即40kHz。
8Khz的采样率就可以达到人的对话程度,通常电话的采样率为8kHz/16kHz。
常见的无线电广播采样率为22.05KHz,CD采样率为44.1kHz,DVD采样率为48kHz,Hi-Res音频采样率为192kHz
1.2、量化编码
量化编码就是把采样得到的声音信号幅度转换成数字值。这个过程会产生失真,量化的精度越高失真越小。常见的量化位数为8bit,16bit,24bit。
PCM约定俗成为无损编码