语音识别是一种以语音为研究对象,通过语音信号处理和模式识别使得机器自动识别人类语言的高级技术,被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。通常情况下,可以根据识别对象的不同分为三类,即孤立词识别、关键词识别和连续语音识别。其中在孤立词识别中,最常用的方法就是动态时间规整(Dynamic Time Warping,简称DTW)算法。
一、语音识别
在介绍DTW算法之前,首先简单了解一下语音识别的操作步骤。主要有5个步骤,具体流程如图1所示。
图1 语音识别流程图1 预处理
提取真正需要分析的音频信号,主要包括静音切除和声音分帧两部分操作。其中静音切除部分主要采用的是语音活动检测(Voice Activity Detection,简称VAD)算法。声音分帧主要是通过使用移动窗函数来实现的。分帧之后各帧之间一般具有一定的交叠,如图2所示。
图2 音频分帧示意图 2