浅谈Attention机制的理解 通俗易懂,很适合入门。
Attention机制最早是应用于图像领域的,九几年就被提出来的思想。
相关论文:
《Recurrent Models of Visual Attention》,2014年,google提出。
算是最早将attention融合到深度学习中。在RNN模型上使用了attention机制来进行图像分类,然后取得了很好的性能。然后就开始一发不可收拾了。
《Neural Machine Translation by Jointly Learning to Align and Translate》,2015年,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是第一个将attention机制应用到NLP领域中。接着attention机制就被广泛应用在基于RNN/CNN等神经网络模型的各种NLP任务中去了,效果看样子是真的好。
《Attention is all you need》,2017年,google。
大量使用了自注意力(self-attention)机制来学习文本表示。这篇论文引起了超大的反应,本身这篇paper写的也很赞,很是让人大开眼界。
见:李沫的b站视频,讲的很详细:Transformer论文逐段精读【论文精读】