在研究者眼中的语音识别是通过三个步骤完成:一是录入语音信号;二是搜素训练数据集包含(声音模型、词库、语言模型);三是解码输出文本。也就是说音频->提取为声学特征->转成音素(这部分为声学模型)->组成字/词->按时序组成句子(这部分为语言模型)。
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,语音识别系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来;特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示,如图1所示 连续语音识别框图[1]。
图1 连续语音识别框图
语音识别的第一步是特征提取。特征提取是将输入的样点(波形)序列转换成特征向量序列,一个特征向量表示一个音频片段,成为一帧。
一帧包含若干样点,在语音识别中,常用25ms作为帧长。为了捕捉连续语音稳定的变化,避免帧之间的特征突变,每隔10ms取一帧,即帧移为10ms[2]。
采样是声波数字化的方法,而分帧是信号特征化的前提,分帧遵循的前提是,语音信号在25ms内,人耳认为信号特征是平稳的,这个前提称为短时平稳假设。正是有了此假设,可以将语音信号转换为缓慢变化的特征项量序列,进而可以通过时序建模的方法来描述。
图2 分帧
[参考文献]
[1]陈孝良,冯大航,李智勇.语音识别技术简史,CSDN,2019.8
[2]陈果果,都家宇,那兴宇,张俊博著.Kaldi语音识别实战[M],电子工业出版社,2020.4