"SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition"这篇文章巧妙的将DFSMN记忆单元、融合到Transformer ASR模型中,取得了显著的改进效果。
Paper地址:https://arxiv.org/abs/2006.01713
Introduction
- 传统ASR方案采用混合架构,包含了单独的AM、PM、LM;
- 端到端的ASR方案(将AM、PM、LM集成到一个模型),主要有两种方案:
- AM+CTC:通常需要额外的LM(如n-gram),用以增强序列生成效果;
- Attention-based Model:
- 通常是seq2seq模型,内含LM;
- Encoder+decoder架构,encoder输出声学特征,decoder按自回归或非自回归方式解码生成序列;
- 基于LSTM的方法(attention-based):
- 沿时间循环反馈,以捕获声学特征的长时依赖;
- Decoder中的attention模块,可实现encoder输出特征与decoder隐层状态之间的交互;
- LSTM的计算复杂度相对较高,且容易遭遇梯度消失等问题;