DLNLP学习笔记05(Speech Recognition: RNN-T模型)

1 RNA (Recurrent Neural Aligner),在CTC的输出端将线性分类器换成RNN,使得每一次token的输出都会参考前一刻输出的信息。
问题:RNA和CTC都是一个输入对应一个输出,不能进行一个输入对应多个输出。例如,th为两个token,但输入可能只有一个(th的发音很短,只有一个音,使得输入的语音为一个输入单位)。

2 RNN Transducer(输入端):输入与输出标记Φ个数一致。

问题:与CTC一样,存在aligment问题。

3 输出端:在CTC的基础上,增加一个RNN的language model。

作用:① 可以将输出端看做独立的language model进行单独训练。② 因为无视标记Φ,所以可以对输出结果进行穷举,解决aligment问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值