《Rnn-Transducer with Stateless Prediction Network》
一、简介
当文本-语音平行语料规模较大时,RNN-Transducer(RNNT)显著优于传统语音识别模型。但是对于低资源语言,RNNT经常会过拟合,并且不像传统ASR系统,无法利用额外的大规模文本语料。RNNT中的预测网络(prediction network)一般被认为类似于传统ASR模型的语言模型(Language Model,LM),但通过实验发现,使用文本语料预训练预测网络并不能带来提升。并且当使用wordpieces作为建模单元时,移除预测网络中的循环网络层,也就是说让整个预测网络无状态(stateless),识别效果与原始RNNT模型基本一致。这也就是说,RNNT的预测网络并非类似于传统ASR中的语言模型,它仅仅帮助模型对齐语音和建模单元,而RNNT的编码器和联合网络(joint network)同时建模声学和语言学信息。