论文笔记

最新推荐文章于 2023-03-17 10:41:44 发布

Marvin-nj

最新推荐文章于 2023-03-17 10:41:44 发布

阅读量667

点赞数 1

分类专栏： kaldi 语音识别

本文链接：https://blog.csdn.net/w_manhong/article/details/100731180

版权

2 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

提出使用TDNN做ASR，与DNN作对比，
提出sub-sample的方法，这里的sub-sample特指对TDNN网络中间层的subsample,减少5倍的计算量，也缩减了模型; 作者认为left-context大于right-congtext比较好，表现在解码时间和wer上。最优结果为[-16,9]
认为NN结构需要adaptation，fmllr虽然好，但需要两次decode,不适合online-decode.推荐了ivector.
认为NN网络不需要对MFCC做CMN，发挥ivector的mean offset 特性
认为有效的augmentation: speed-perturb，volume-perturb，word position dependent silence probabilities，sequence training，4-gram LM rescoring，pronunciation probabilities。
对sMBR的改进：加入 penalizing insertions.
其他特征表达：TRAPS，wavelet based multi-scale spectro-temporal representations , deep scattering spectra and other modulation feature representation

提出一种简单可行的spctral mask方法，具体为:时间弯折、频率掩蔽、时间掩蔽。
认为时间弯折time-warping不是改善的主要因素
后两者的组合，并允许overlap，既multi frequency and time mask，较为有效
本文是基于端到端的las为实验，据自动化的某博士论文，在kaldi上也有效，但是time warping后需要重新对齐。对于time warp和time mask,由于TDNN是帧级别的建模，这样会导致标签错误，效果不会好；相比，spectral mask效果明显。
对于频率掩蔽和时间掩蔽，是用特征的全局均值、局部均值、或者0来代替掩蔽部分？实验结果：在KALDI中，用0最为代替值时，频谱掩蔽对干净测试集有较大提升，对背景噪声较强的测试集有干扰，识别会下降。
经验参数为：时间弯折系数40，时间掩蔽最大宽度100ms，频率掩蔽最大宽度27.

3、Phoneme recognition using time-delay neural networks，1989

1.主要是将TDNN改进为Factorized TDNN(TDNNF)：

2.改进点1：将final layer MN因子分解为M*a*N,其中a不规则正交矩阵，通过类似SVD的方式在训练时完成模型压缩。

3.改进点2：增加dropout，对TDNN模型无效，对TDNNF有效。

4.改进点3：使用3层的skip connection，因为隐藏层会增加，残差链接会防止梯度消失。

关注