【深度学习】Attention

最新推荐文章于 2022-06-09 14:25:25 发布

sdbhewfoqi

最新推荐文章于 2022-06-09 14:25:25 发布

阅读量561

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_31866177/article/details/88601795

版权

深度学习专栏收录该内容

65 篇文章 13 订阅

订阅专栏

seq2seq中的attention机制

我们在encoder的过程中保留每个RNN单元的隐藏状态（hidden state）得到（h1……hN）
然后对于decoder的每一个timestep，因为有此时decoder的输入和上一步的隐藏状态输出，所以我们可以得到当前步的隐藏状态。假设第t步的（根据上一步隐藏状态输出与当前输入得到的）隐藏状态为St，
在每个第t步利用St和hi进行dot点积得到attention score，也称为“相似度“或者“影响度”，或者“匹配得分”

利用softmax函数将attention scores转化为概率分布

按照刚才的概率分布，计算encoder的hidden states的加权求和。到这里其实attention的计算就结束了，得到的这个at就已经是decoder的第t时刻的注意力向量了（在后面的文章中，这个at也称作是上下文向量，context vector，符号表示也可能是用ct）。

最后将注意力向量at，以及decoder的t时刻的hidden state st，并联起来，然后做后续的步骤（比如加个dense全连接层做标签预测之类的。

attention的一个通用定义

按照Stanford大学课件上的描述，attention的通用定义如下：

给定一组向量集合values，以及一个向量query，attention机制是一种根据该query计算values的加权求和的机制。

attention的重点就是这个集合values中的每个value的“权值”的计算方法。
有时候也把这种attention的机制叫做query的输出关注了（或者说叫考虑到了）原文的不同部分。（Query attends to the values）
举例：刚才seq2seq中，哪个是query，哪个是values？
each decoder hidden state attends to the encoder hidden states （decoder的第t步的hidden state----st是query，encoder的hidden states是values）

从定义来看Attention的感性认识：

The weighted sum is a selective summary of the information contained in the values, where the query determines which values to focus on.
换句话说，attention机制就是一种根据某些规则或者某些额外信息（query）从向量表达集合（values）中抽取特定的向量进行加权组合（attention）的方法。简单来讲，只要我们从部分向量里面搞了加权求和，那就算用了attention。

Attention其实就是计算一种相关程度

Attention通常可以进行如下描述，表示为将query(Q)和key-value pairs映射到输出上，其中query、每个key、每个value都是向量，输出是V中所有values的加权，其中权重是由Query和每个key计算出来的，计算方法分为三步：

1）计算比较Q和K的相似度，用f来表示：

2）将得到的相似度进行softmax归一化：

3）针对计算出来的权重，对所有的values进行加权求和，得到Attention向量：

计算相似度的方法有以下4种：

soft attention

一点小的疑惑补充，a的求解好像softmax的那个公式，难道是c1/(c1+c2+c3)=a11??(错的，待考证)

参考：

完全解析RNN, Seq2Seq, Attention注意力机制 - 白裳的文章（介绍的已经很详细了，基于seq2seq）

自然语言处理中的Attention机制总结

sdbhewfoqi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】Attention

seq2seq中的attention机制我们在encoder的过程中保留每个RNN单元的隐藏状态（hidden state）得到（h1……hN）然后对于decoder的每一个timestep，因为有此时decoder的输入和上一步的隐藏状态输出，所以我们可以得到当前步的隐藏状态。假设第t步的（根据上一步隐藏状态输出与当前输入得到的）隐藏状态为St，在每个第t步利用St和hi进行dot点积...
复制链接

扫一扫

专栏目录