ASR-端对端模型04：RNNT-SLP/Stateless【Rnn-T的预测网络中不用RNN层】【预测网络的最大作用似乎是阻止输出重复的建模单元，即可以控制＜blank＞标签的预测概率】

u013250861

于 2024-05-29 01:07:15 发布

阅读量269

点赞数

分类专栏： # Audio/ASR&TTS 文章标签：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/139219909

版权

Audio/ASR&TTS 专栏收录该内容

57 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了RNN-Transducer（RNNT）的预测网络，指出其并非类似传统ASR中的语言模型，而是帮助模型对齐语音和建模单元。实验发现，无状态预测网络（RNNT-SLP）在识别效果上与原始RNNT相当，尤其是在以wordpiece为建模单元时。此外，预训练预测网络并未带来提升，表明其主要作用可能是防止重复建模单元的输出。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Rnn-Transducer with Stateless Prediction Network》

一、简介

当文本-语音平行语料规模较大时，RNN-Transducer（RNNT）显著优于传统语音识别模型。但是对于低资源语言，RNNT经常会过拟合，并且不像传统ASR系统，无法利用额外的大规模文本语料。RNNT中的预测网络（prediction network）一般被认为类似于传统ASR模型的语言模型（Language Model，LM），但通过实验发现，使用文本语料预训练预测网络并不能带来提升。并且当使用wordpieces作为建模单元时，移除预测网络中的循环网络层，也就是说让整个预测网络无状态（stateless），识别效果与原始RNNT模型基本一致。这也就是说，RNNT的预测网络并非类似于传统ASR中的语言模型，它仅仅帮助模型对齐语音和建模单元，而RNNT的编码器和联合网络（joint network）同时建模声学和语言学信息。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。