在实时录音的情况下 , 利用该语音识别系统 , 不同的人对 20 条 2~8 个字的语音命令进行识别 , 准确率可达到 95 % , 识别时间115~3 s , 实现了小词汇量连续语音的非特定人的实时识别。
目前 , 用于语音识别的方法有基于动态时轴归整(DTW) 技术的模板匹配法、基于概率统计的 HMM 法和基于人工神经网络 (ANN) 的最优搜索法。
当录音控件录音完成并进行端点检测后 , 向主程序发送一个事件 , 通知主程序读取语音数据及短时参数信息等. 端点检测算法主要采用短时平均能量和短时平均过零率作为判决的主要特征。
本系统采用 8 kHz 采样频率、16 bit、单声道的PCM 录音格式 , 帧长 N 为 30 ms , 帧移 M 为 10 ms 。
语音信号特征参数的提取是语音识别的一个重要环节。目前常用的方法是基于人的发音器官建立声道模型和基于听觉器官建立听觉模型。
基于听觉模型得到的MEL 倒 谱 系 数 (Mel - Frequency Cepstrum Coefficients ,MFCC) 比基于声道模型得到的 LPC 倒谱系数更符合人耳的听觉特性 , 在有信道噪声和频谱失真的情况下 , 能产生更高的识别精度。
MFCC 建立在 Fourier 频谱分析基础上 , 首先利用人耳的感知特性 , 在语音的频谱范围内设置若干个带通滤波器 , 每个滤波器具有三角形或正弦形滤波特性 , 然后在特征矢量中纳入能量信息 , 计算相应滤波器组的信号能量 , 再通过离散余弦变换 (DCT) 计算其对应的倒谱系数。
语音信号的 MFCC 特征参数主要反映语音的静态特征 , 语音信号的动态特征可以通过这些静态特征的差分谱来描述 , 这些动态信息和静态信息形成互补 , 能很大程度上提高系统的识别性能。因此本系统利用 12 阶MFCC 参数及其一阶差分作为语音信号的特征参数 。
隐含马尔科夫模型 (Hidden Markov Model) 是 20 世纪 80 年代在语音识别领域的重大发展 , 一方面用隐含的状