![81baaeeccc4e92b89b21202edbdd1cf2.png](https://i-blog.csdnimg.cn/blog_migrate/832445700cfb9f9c429d5b4de2112f23.jpeg)
一、前言&简介
对于attention机制的理解,在看了attention is all you need这篇文章和参考网上一些文章之后,做一个简单的理解和总结。
在 attention is all you need 的这篇文章中给出了在nlp中使用注意力机制的一个解决思路。文章提出,以往nlp里大量使用RNN结构和encoder-decoder结构,RNN及其衍生网络的缺点就是慢,问题在于前后隐藏状态的依赖性,无法实现并行,而文章提出的”Transformer”完全摒弃了RNN和CNN,完全依赖注意力机制,挖掘输入和输出之间的关系,这样做最大的好处是能够并行计算了,并且效果也不错。在文章的最后,作者给出了这么一段话:
![f55114b2a5602ffe042547dcd058a346.png](https://i-blog.csdnimg.cn/blog_migrate/feec16c769fb8201819aba47768d5feb.png)
作者说后面的工作会将注意力机制应用到图像,音视频方面,所以对于视觉上注意力机制的应用,我们只能参考一些论文来理解,这篇文章提出的结构我们也可以参考一下: