ASR-端对端模型04:RNNT-SLP/Stateless【Rnn-T的预测网络中不用RNN层】【预测网络的最大作用似乎是阻止输出重复的建模单元,即可以控制<blank>标签的预测概率】

本文探讨了RNN-Transducer(RNNT)的预测网络,指出其并非类似传统ASR中的语言模型,而是帮助模型对齐语音和建模单元。实验发现,无状态预测网络(RNNT-SLP)在识别效果上与原始RNNT相当,尤其是在以wordpiece为建模单元时。此外,预训练预测网络并未带来提升,表明其主要作用可能是防止重复建模单元的输出。
摘要由CSDN通过智能技术生成

《Rnn-Transducer with Stateless Prediction Network》

一、简介

当文本-语音平行语料规模较大时,RNN-Transducer(RNNT)显著优于传统语音识别模型。但是对于低资源语言,RNNT经常会过拟合,并且不像传统ASR系统,无法利用额外的大规模文本语料。RNNT中的预测网络(prediction network)一般被认为类似于传统ASR模型的语言模型(Language Model,LM),但通过实验发现,使用文本语料预训练预测网络并不能带来提升。并且当使用wordpieces作为建模单元时,移除预测网络中的循环网络层,也就是说让整个预测网络无状态(stateless),识别效果与原始RNNT模型基本一致。这也就是说,RNNT的预测网络并非类似于传统ASR中的语言模型,它仅仅帮助模型对齐语音和建模单元,而RNNT的编码器和联合网络(joint network)同时建模声学和语言学信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值