一、总述
解码器是ASR重要的组件之一,在传统的基于GMM-HMM/DNN-HMM混合系统中,解码器架起语言模型、声学模型、发音词典等知识源的桥梁,得到最终的识别结果,如图1所示。
随着深度学习技术的盛行,一系列ASR端到端系统、ASR-NLP端到端系统甚至ASR-NLP-TTS端到端系统被相继提出,解码器的作用在被一步步弱化,但是笔者认为,抛弃解码器,实现完全的端到端系统还有相当长的路要走。因为文本数据和语音数据之间存在着很大的数据差异,单靠一个网络很难有比较好的效果,使用语言模型,往往会使结果更佳。
解码器是一个系统性的东西,要写一个好的解码器,不仅需要扎实的工程实现能力,而且要对声学模型、语言模型、发音词典等知识有一定的理解。所以下面简单介绍ASR每个组件。
二、声学特征提取
利用声音信号的短时平稳性,对音频进行分帧,提取每帧的特征,ASR常用的特征有Fbank、MFCC等。当然也有一些利用DNN提取特征的方法,目前还不是主流方法。
图2为Fbank提取过程,图3为MFCC提取过程。
MFCC是在Fbank的基础上做DCT变换,去除特征维度之间的相关性,同时也可以起降维的