Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict

最新推荐文章于 2024-10-23 21:52:14 发布

pitaojun

最新推荐文章于 2024-10-23 21:52:14 发布

阅读量1.1k

点赞数

分类专栏：语音识别asr

非自回归ASR CTC Mask预测 Transformer 解码效率

关键词由CSDN通过智能技术生成

语音识别asr 专栏收录该内容

26 篇文章

订阅专栏

Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict

1. 论文摘要

非自回归模型的优势在于可以在一定次数的迭代后同时产生解码结果，提高了解码的效率更适用于真实场景的使用。
本文主要采用了一个基于Transformer的ED 模型与mask 预测以及ctc 训练结合的模型结构。在解码时，目标序列首先通过ctrc 的概率分布得到一个初步结果，对置信度较低的结果mask, 然后基于与高置信度token之间的依赖关系进一步预测出实际结果。模型效果相对于ctc 有较大提升，接近自回归的效果。

2. 训练方法

###（1）传统 end2end + CTC joint train
在这里插入图片描述

(2) Joint CTC-CMLM non-autogressive asr

在这里插入图片描述
CMLM基于unmasked token $Y_mask$ 和 input x 来预测 masked tokens

训练时：被mask 的token的数量从1-L 均匀分布中采样出来。
解码时：采用迭代固定次数K，重复的mask 和预测masked token的操作来最终得到目标序列。

原先cmlm 存在的问题为：（1）跳过或者重复output tokens.
解决方法：采用ctc 联合训练来显示的提供绝对的文职信息，改进后的目标函数为：
在这里插入图片描述
###（3） mask ctc decoding
传统cmlm解码需要额外预测目标序列的长度进而进行初始化和mask操作。
本文采取的做法是，先用encoder ctc的结果作为解码的初始序列，然后decoder 进一步通过atten 整个序列来进一步调整解码结果。
具体方法是，采用非自回归的方式得到ctc 的一个贪婪解码结果。
在这里插入图片描述
然后根据一个门限取值做mask

最后采用easy first 的方式进行解码， masked 数量与输出序列 L 和迭代轮数的关系为 C=L/K

结果