具备记忆单元的Transformer ASR (SAN-M)

最新推荐文章于 2024-05-03 19:58:12 发布

Law-Yao

最新推荐文章于 2024-05-03 19:58:12 发布

阅读量2.7k

点赞数 5

分类专栏： Transformer 深度学习自动语音识别文章标签：语音识别深度学习数字信号处理

本文链接：https://blog.csdn.net/nature553863/article/details/108120258

版权

"SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition"这篇文章巧妙的将DFSMN记忆单元、融合到Transformer ASR模型中，取得了显著的改进效果。

传统ASR方案采用混合架构，包含了单独的AM、PM、LM；
端到端的ASR方案（将AM、PM、LM集成到一个模型），主要有两种方案：
- AM+CTC：通常需要额外的LM（如n-gram），用以增强序列生成效果；
- Attention-based Model：
  - 通常是seq2seq模型，内含LM；
  - Encoder+decoder架构，encoder输出声学特征，decoder按自回归或非自回归方式解码生成序列；
基于LSTM的方法（attention-based）：
- 沿时间循环反馈，以捕获声学特征的长时依赖；
- Decoder中的attention模块，可实现encoder输出特征与decoder隐层状态之间的交互；
- LSTM的计算复杂度相对较高，且容易遭遇梯度消失等问题；
<

关注