具备记忆单元的Transformer ASR (SAN-M)

"SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition"这篇文章巧妙的将DFSMN记忆单元、融合到Transformer ASR模型中,取得了显著的改进效果。

Paper地址:https://arxiv.org/abs/2006.01713

Introduction

  • 传统ASR方案采用混合架构,包含了单独的AM、PM、LM;
  • 端到端的ASR方案(将AM、PM、LM集成到一个模型),主要有两种方案:
    • AM+CTC:通常需要额外的LM(如n-gram),用以增强序列生成效果;
    • Attention-based Model:
      • 通常是seq2seq模型,内含LM;
      • Encoder+decoder架构,encoder输出声学特征,decoder按自回归或非自回归方式解码生成序列;
  • 基于LSTM的方法(attention-based):
    • 沿时间循环反馈,以捕获声学特征的长时依赖;
    • Decoder中的attention模块,可实现encoder输出特征与decoder隐层状态之间的交互;
    • LSTM的计算复杂度相对较高,且容易遭遇梯度消失等问题;
    <
  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值