转自:点击打开链接
原文作者:英语流利说团队 李飞腾
- conf放置一些配置文件,如提取mfcc、filterbank等参数的配置,解码时的一些参数配置
- local一般用来放置处理语料库的数据准备部分脚本 > 中文识别,应该准备:发音词典、音频文件对应的文本内容和一个基本可用的语言模型(解码时使用)
注:一般情况下,在模型训练阶段LM对ASR的参数训练没有影响,即不影响GMM、HMM、DNN/CNN的参数值;使用区分度模型训练会有影响[生成Lattice候选]
1.声学建模单元的选择
- 全音节[是否带声调]、声韵母[是否带声调]、音素?
> 带声调的声韵母作为建模单元是比较常见的中文识别选择,也有一些文章指出,使用更细化的phones 集可以有更多的性能提升:
中文连续语音识别系统音素建模单元集的构建——包叶波等
基于发音特征的汉语普通话语音声学建模——颜永红等
基于发音特征的汉语声调建模方法及其在汉语语音识别中的应用——刘文举等
1.1对声学建模单元加入位置信息
2.输入特征
- 使用对角协方差矩阵的GMM由于忽略了不同特征维度的相关性,MFCC更适合用来做特征
-
DNN/CNN可以对更好的利用这些相关性,把MFCC的DCT省略,使用fbank特征可以更多地降低WER
tips: Deep Learning更多是实验性质,解释多半是迎合实验现象
甚至直接从语音波形图上直接提取特征
IBM-Tara N. Sainath-2014-IMPROVEMENTS TO FILTERBANK AND DELTA LEARNING
Tara N. Sainath发表了一系列的CNN on Speech的文章,我觉得质量是CNN on Speech的文章中最好的 -
中文是带声调的语言,声调不同,差别很多,因此可以在特征上加入声调信息
2014-A DNN-BASED ACOUSTIC MODELING OF TONAL LANGUAGE AND ITS APPLICATION TO MANDARIN PRONUNCIATION TRAINING
2014-AUTOMATIC PHONETIC SEGMENTATION IN MANDARIN CHINESE BOUNDARY MODELS, GLOTTAL FEATURES AND TONE -
Noise Robust feature?
LiDeng2013-An Overview of Noise-Robust Automatic Speech Recognition
3.区分性技术
4.多音字如何处理?
-
①唯一化处理:更改文本标注和发音词典,将多音字唯一化标注
如:
的1 d e0
的2 d e4
为1 w ei2
为2 w ei4
spk001 我们 的1 作品 为1 第一名
这样做的话,我们在解码阶段需要去除发音词典中的标识1、2,从而不会在解码结果中引入多余的1、2 -
②自动处理:Kaldi可以将多种选择(多音)编入spk001的fst,在Align阶段根据音频特征选择phone的标号
这种处理可能不够精确,ML本来就不能100%准确,这点让人悲伤;
不过可能语料库的发音人并不能对所有的多音字都发正确的音,
如果使用①需要校对每一个含有多音字的音频发音,人工大大的;
英语单词也存在多音字,不过相比中文少得多,可参考:冯志伟-汉语拼音音节的歧义指数
5.Noise Robust ASR
- 从特征提取、模型层面把噪声考虑进去 可参考:
综述文章:LiDeng2013-An Overview of Noise-Robust Automatic Speech Recognition
6.Deep Learning[DNN/CNN替换GMM]
- Dropout、ReLU
关于Dropout我在TIMIT做了不下20组实验,才看到WER的下降,更绝大多数文章的描述并不相同;
ReLU做了几组实验,没看到更低的WER,有待继续。 - CNN
根据实验CNN相比DNN会有5%-10%的WER下降,卷积层不同的实现[FFT vs 矩阵乘积]性能会有差异,这一层计算量略大
Tara N. Sainath发表了一系列的CNN on Speech的文章,我觉得质量是CNN on Speech的文章中最好的 - 直接HMM+DNN混合训练
参考:2014-google-GMM-FREE DNN TRAINING - 其他
SVD低秩逼近W矩阵
7.在手机等资源受限设备
- 1.2013-Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
- 2.FINE CONTEXT, LOW-RANK, SOFTPLUS DEEP NEURAL NETWORKS FOR MOBILE SPEECH RECOGNITION