语音识别阅读笔记-SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition
(interspeech 2020)
下载链接:
https://arxiv.org/abs/2006.01713
主要思想:
文章分析了DFSMN和multihead-attention的优缺点,得出结论:
Multihead-attention:主要学习单一特征的上下文依赖。
DFSMN:主要是依赖于整个数据集的平均概率分布的学习数据的长时依赖。
(DFSMN的相关解释可以参考这篇博客:FSMN及其变体模型)
因此将二者结合可以使模型学习的更好。
网络结构:
网络结构仍然采用transform,只是将multihead-attention的部分换成了b)图介绍了san-M的具体结构。具体结构如下图所示。