Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict

Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict

1. 论文摘要

非自回归模型的优势在于可以在一定次数的迭代后同时产生解码结果,提高了解码的效率更适用于真实场景的使用。
本文主要采用了一个基于Transformer的ED 模型与mask 预测以及ctc 训练结合的模型结构。在解码时,目标序列首先通过ctrc 的概率分布得到一个初步结果,对置信度较低的结果mask, 然后基于与高置信度token之间的依赖关系进一步预测出实际结果。模型效果相对于ctc 有较大提升,接近自回归的效果。

2. 训练方法

###(1)传统 end2end + CTC joint train
在这里插入图片描述

(2) Joint CTC-CMLM non-autogressive asr

在这里插入图片描述
CMLM基于unmasked token Y m a s k Y_mask Ymask 和 input x 来预测 masked tokens
在这里插入图片描述
训练时: 被mask 的token的数量从1-L 均匀分布中采样出来。
解码时:采用迭代固定次数K,重复的mask 和预测masked token的操作来最终得到目标序列。

原先cmlm 存在的问题为:(1)跳过或者重复output tokens.
解决方法:采用ctc 联合训练来显示的提供绝对的文职信息,改进后的目标函数为:
在这里插入图片描述
###(3) mask ctc decoding
传统cmlm解码需要额外预测目标序列的长度进而进行初始化和mask操作。
本文采取的做法是,先用encoder ctc的结果作为解码的初始序列,然后decoder 进一步通过atten 整个序列来进一步调整解码结果。
具体方法是,采用非自回归的方式得到ctc 的一个贪婪解码结果。
在这里插入图片描述
然后根据一个门限取值做mask
在这里插入图片描述
最后采用easy first 的方式进行解码, masked 数量与输出序列 L 和迭代轮数的关系为 C=L/K
在这里插入图片描述
结果
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值