几点重要信息
- 注意力机制可以看作是一种通用的思想,不依赖于特定的模型框架。
- 一般在自然语言处理应用里会把Attention模型看作是输出Target句子中某个单词和输入Source句子每个单词的对齐模型,这是非常有道理的。目标句子生成的每个单词对应输入句子单词的概率分布可以理解为输入句子单词和这个目标生成单词的对齐概率,这在机器翻译语境下是非常直观的:传统的统计机器翻译一般在做的过程中会专门有一个短语对齐的步骤,而注意力模型其实起的是相同的作用。
参考文献
1、一文看懂 Attention 机制,你想知道的都在这里了。Enjoy!
这实际上是一篇翻译版的博文,原文在这里.这篇博文实际上只是简单的系统地介绍了attention机制的基本思想,以及它的一些应用。文章并不是特别长,读完之后,可以对attention机制有一个整体的认知。值得推荐的地方时,这篇文章在最后给出了一些学习attention的参考资料,可以进一步的学习,比较赞。
2、Attention and Memory in Deep Learning and NLP
这是Denny Britz大神的博客,之前在介绍RNN的时候也参考了一系列他的博文。本篇博文也是系统地介绍了Attention机制的基本原理及其简单应用,可以协助加深对Attention的理解。
3、ATTENTION MECHANISM
推荐阅读。这篇文章相对比较详细的介绍了attention mechanism是如何工作的(主要以是在RNN框架上为例),文中以image caption 为例,介绍了加入attention机制后的工作流程,可以加深理解。
4、Survey on Attention-based Models Applied in NL
这篇论文主要是对一些利用了Attention mechanism的论文进行了简单的解析,应用方向主要是NLP,我只阅读了一半,若喜欢可以阅读。
5、Attention and Augmented Recurrent Neural Networks
强力推荐阅读。这篇文章主要是介绍了几种Augmented RNN模型框架,这些模型的共同特征是使用了类似于Attention的机制,介绍的比较形象,可以有助于加深理解。并且在文章的最后,还简单的比较了强化学习与注意力机制的区别。
6、What is exactly the attention mechanism introduced to RNN (recurrent neural network)?
Quora中的问答,里面有很多学者的回答,可以很好地帮助理解,并且也有很多分享的资料以及资源。