语音识别 ---------- Automatic Speech Recognition,(ASR)
一、音频编解码过程
连续的模拟信号(人的声音或一切声音/声波)------>01bit的数字信号(PCM、mp3、WAV等音频文件或CD) ----->非连续的数字音频,该过程需要经过采样、量化、编码、解码;
1.1采样:
采样就是从一个时间上连续变化的模拟信号中取出若干个有代表性的样本值,来代表这个连续变化的模拟信号,如图示,按照奈奎斯特采样定理:要从采样值序列中完全恢复成原始波形,采样频率必须大于原始信号最高频率的2倍。
1.2量化
将采样后的每个点使用n个二进制数据表示,幅值相同的点所表示的二进制数据一样,比如0001表示A点和B点,0010表示C点。二进制数据位数越多,对声波幅值的纵向切分越精细。
1.3编码
采样、量化后的数据还不是数字信号,需要把它转化成数字脉冲,这个过程称为编码。
1.4采样频率和量化级
量化级:也叫量化数据位数,常见有8bit和16bit,8bit表示把纵轴划分为256个量化等级(2^8),量化位数越高,量化值越接近采样值,其精度越高,但要求的信息存储量就越大。
采样频率:采样频率高低决定了声音失真程度的大小,为保证声音不失真,采样频率应该在40kHz左右。采样频率一般有三种,44.1kHz是最常见的采样率标准(每秒取样44100次,用于CD品质的音乐);22.05kHz(适用于语音和中等品质的音乐);11.25kHz(低品质)。对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值。
5kHz的采样率仅能达到人们讲话的声音质量。
11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。
22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。
44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。