1. A time delay neural network architecture for efficient modeling of long temporal contexts 2015,interspeech
- 提出使用TDNN做ASR,与DNN作对比,
- 提出sub-sample的方法,这里的sub-sample特指对TDNN网络中间层的subsample,减少5倍的计算量,也缩减了模型; 作者认为left-context大于right-congtext比较好,表现在解码时间和wer上。最优结果为[-16,9]
- 认为NN结构需要adaptation,fmllr虽然好,但需要两次decode,不适合online-decode.推荐了ivector.
- 认为NN网络不需要对MFCC做CMN,发挥ivector的mean offset 特性
- 认为有效的augmentation: speed-perturb,volume-perturb,word position dependent silence probabilities,sequence training,4-gram LM rescoring,pronunciation probabilities。
- 对sMBR的改进:加入 penalizing insertions.
- 其他特征表达:TRAPS,wavelet based multi-scale spectro-temporal representations , deep scattering spectra and other modulation feature representation
2.SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition 2019,arxiv
- 提出一种简单可行的spctral mask方法,具体为:时间弯折、频率掩蔽、时间掩蔽。
- 认为时间弯折time-warping不是改善的主要因素
- 后两者的组合,并允许overlap,既multi frequency and time mask,较为有效
- 本文是基于端到端的las为实验,据自动化的某博士论文,在kaldi上也有效,但是time warping后 需要重新对齐。对于time warp和time mask,由于TDNN是帧级别的建模,这样会导致标签错误,效果不会好;相比,spectral mask效果明显。
- 对于频率掩蔽和时间掩蔽,是用特征的全局均值、局部均值、或者0来代替掩蔽部分?实验结果:在KALDI中,用0最为代替值时,频谱掩蔽对干净测试集有较大提升,对背景噪声较强的测试集有干扰,识别会下降。
- 经验参数为:时间弯折系数40,时间掩蔽最大宽度100ms,频率掩蔽最大宽度27.
3、Phoneme recognition using time-delay neural networks,1989
4. Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks
1.主要是将TDNN改进为Factorized TDNN(TDNNF):
2.改进点1:将final layer MN因子分解为M*a*N,其中a不规则正交矩阵, 通过类似SVD的方式在训练时完成模型压缩。
3.改进点2:增加dropout,对TDNN模型无效,对TDNNF有效。
4.改进点3:使用3层的skip connection,因为隐藏层会增加,残差链接会防止梯度消失。