该篇翻译自How to start with Kaldi and Speech Recognition
Kaldi架构
Kaldi主要分为两个主要部分:分别是特征抽取、识别模型
特征抽取模块
大多数处理音频数据的模型都会需要对音频进行特征的抽取,用以达到以下两个目的:
- 识别人类语音的声音
- 丢弃任何不必要的噪音。
今天在行业,广泛使用MFCC:
在Kaldi中,还使用了额外的两种特征:
- CMVN:用于更好的对MFCC特征进行归一化
- I-Vectors:用于声纹识别,将说话人的特征从音频信息中单独提取出来,让音频特征更“纯粹”
一个通用的理解是:
- MFCC和CMVN用于表示音频的内容
- I-vector用于表示音频或说话人的“风格”(style)
模型
kaldi的模型架构由两部分组成,第一部分是声学模型,第二部分是语言模型。
声学模型
Kaldi的声学模型大概如图所示,将音频提取特征后经由模型训练,识别,得到相应的音素,这个模型在过去是GMM,如今已经改为了深度神经网络。