基本的Attention原理

最新推荐文章于 2024-04-28 21:15:21 发布

身体健康,万事如意

最新推荐文章于 2024-04-28 21:15:21 发布

阅读量546

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/qq_30366667/article/details/88648726

版权

基本的Attention原理创建日期星期一 18 三月 2019注意力机制就是加权求和，将需要重点注意的地方设置大的权重，可以来解决rnn的局限问题；Attention机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN...

摘要由CSDN通过智能技术生成

基本的Attention原理

创建日期星期一 18 三月 2019

注意力机制就是加权求和，将需要重点注意的地方设置大的权重，可以来解决rnn的局限问题；
Attention机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点

最基本的seq2seq模型包含一个encoder和一个decoder，通常的做法是将一个输入的句子编码成一个固定大小的state，然后作为decoder的初始状态（当然也可以作为每一时刻的输入），但这样的一个状态对于decoder中的所有时刻都是一样的。

传统seq2seq
attention即为注意力，人脑在对于的不同部分的注意力是不同的。需要attention的原因是非常直观的，比如，我们期末考试的时候，我们需要老师划重点，划重点的目的就是为了尽量将我们的attention放在这部分的内容上，以期用最少的付出获取尽可能高的分数；再比如我们到一个新的班级，吸引我们attention的是不是颜值比较高的人？普通的模型可以看成所有部分的attention都是一样的，而这里的attention-based model对于不同的部分，重要的程度则不同。

Attention-based Model其实就是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。严格来说，Attention并算不上是一种新的model，而仅仅是在以往的模型中加入attention的思想，所以Attention-based Model或者Attention Mechanism是比较合理的叫法，而非Attention Model。

没有attention机制的encoder-decoder结构通常把encoder的最后一个状态作为decoder的输入（可能作为初始化，也可能作为每一时刻的输入），但是encoder的state毕竟是有限的，存储不了太多的信息，对于decoder过程，每一个步骤都和之前的输入都没有关系了，只与这个传入的state有关。attention机制的引入之后，decoder根据时刻的不同，让每一时刻的输入都有所不同。
再引用tensorflow源码attention_decoder()函数关于attention的注释：
“In this context ‘attention’ means that, during decoding, the RNN can look up information in the additional tensor attention_states, and it does this by focusing on a few entries from the tensor.”

模型介绍

对于机器翻译来说，比如我们翻译“机器学习”,在翻译“machine”的时候，我们希望模型更加关注的是“机器”而不是“学习”
刚才说了，attention其实就是一个当前的输入与输出的匹配度。在上图中，即为h1和z0的匹配度（ h1为当前时刻RNN的隐层输出向量，而不是原始输入的词向量，z0初始化向量，如rnn中的initial memory，图片中的这一部分是encode的部分），其中的match为计算这两个向量的匹配度的模块，出来的α10即为由match算出来的相似度。好了，基本上这个就是attention-based model 的attention部分了。那么，match什么呢？对于“match”, 理论上任何可以计算两个向量的相似度

的值，进而就会调整所有的α \alphaα值，之前说过α \alphaα是match的输出，如果match是后两种的话，就会进而调整match

最低0.47元/天解锁文章

身体健康,万事如意

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基本的Attention原理

基本的Attention原理创建日期星期一 18 三月 2019注意力机制就是加权求和，将需要重点注意的地方设置大的权重，可以来解决rnn的局限问题；Attention机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN...
复制链接

扫一扫

专栏目录