快速理解NLP中的Attention机制

最新推荐文章于 2024-02-02 15:33:04 发布

我最怜君中宵舞

最新推荐文章于 2024-02-02 15:33:04 发布

阅读量448

点赞数

分类专栏：机器学习深度学习自然语言处理文章标签： nlp 自然语言处理深度学习 attention 机器学习

本文链接：https://blog.csdn.net/qq_35169059/article/details/101369136

版权

机器学习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

深度学习

9 篇文章 0 订阅

订阅专栏

自然语言处理

6 篇文章 4 订阅

订阅专栏

为什么需要attention机制

常规的机器翻译采用encoder-decoder结构，其中两个模块的目的是：

encoder：将输入序列 $x_1x_2x_3x_4....x_t$ 转换为矩阵或者向量表示 $C=f(x_1,x_2,x_3....,x_t)$
decoder：将 $C$ 转换为输出序列 $y_1y_2y_3..y_m$ ,其中 $y_i=g(C, y_1, y_2, y_{i-1})$ 注意只有 $i$ 位置之前的内容

Alt

这样的问题在于，每一次的输出 $y_i$ 所关注的语义内容可能并不是一样的，比如句子：

我走在马路上，吃着苹果
I was walking in the street, eating an apple

在生成词street时，eating和walking这两词的重要性和在生成apple时的重要性一定是不一样的，所以我们要在生成不同的词时为其他词赋予不同的权重，这就是attention机制的思想

attention机制是什么样的

attention机制的图像表示

在这里插入图片描述
如图是将"我爱吃苹果"翻译为“I love eating apple”的图解，为了方便观看和简洁，这个图省略了原本应该出现在文本头的<BOS>标记和出现在文本尾部<EOS>标记

下面的四个RNN Cell(可以是普通的RNN单元，GRU，LSTM)是encoder部分，上面的四个是deocder部分
$v_i$ 是encoder第 $i$ 个时间步的隐藏输出， $q_i$ 是decoder第 $i$ 个时间步的隐藏输出
图中虚线框的部分就是attention的结构
$d o t$ 是将 $q$ 分别与各个 $v$ 点乘的操作

attention机制的公式表达

请结合上图来理解这些公式

首先将encoder每一步的隐藏输出和decoder上一步的隐藏输出分别进行点乘： $m_{ti} = v_iq_{t-1}$ 表示encoder第 $i$ 个神经元的隐藏状态在decoder的时间 $t$ 步上的点乘计算（这里不一定非得是点乘，还有加一层dense layer或者加法等），点积代表的是两个向量的相似性
然后将各个 $m_{ti}$ 组合为 $m_{t}$ 进行softmax计算得到权重 $a_t$ 向量，softmax可以使权重之和为1
最后，将 $a_t$ 向量和 $v_i$ 进行加权求和得到decoder中cell的输入 $c_t=\sum_ia_{ti}v_i$ （ $a_{ti}$ 表示t个输出中第i个隐层的权重）

总而言之，整个attention的计算过程如下所示

$m_{ti} = v_iq_{t-1}$
$a_t=softmax(m_t)$
$c_t=\sum_ia_{ti}v_i$

对于整个的encoder-decoder结构的attention来说

Q[ $q_1$ , $q_2$ , $q_3$ , $q_4$ , …] $\in R^{(n, d_q)}$ $n$ 是decoder长度
V[ $v_1$ , $v_2$ , $v_3$ , $v_4$ , …] $\in R^{(m, d_q)}$ $m$ 是encoder长度

整体的attention机制可以写成：
$softmax(\frac{QV^T}{\sqrt d_v})$

其中 $\sqrt d_v$ 是为了防止分子太大

各位先记住这个公式：

$softmax(\frac{QV^T}{\sqrt d_v})V$

附加知识

soft attention和hard attention

soft attention指的是 $a_t$ 中的元素是softmax层直接输出的attention机制，即 $a_t$ 的元素值介于0和1之间
hard attention指的是 $a_t$ 中的元素非1即0的attention机制

注意力机制的其他表达

请大家将注意力转移到上面那个推荐大家注意的公式。这个公式里面有两个 $V$ ，这个 $V$ 有两个属性分别是：

和 $Q$ 进行点乘，计算 $Q$ 和 $V$ 之间的相似程度（键属性）
最后和权重 $a_t$ 相乘得到decoder的输入（值属性）

我们把这两个属性分别称为键属性和值属性，并且把V拆解为K(键属性)和V(值属性）,然后上面的式子就变成了：

$softmax(\frac{QK^T}{\sqrt d_k})V$

在我们大多时候遇到的情况下 $K = V$ ，基本没有遇到 $K\not=V$ 的情况。但是当 $K = Q = V$ 时，就被称为自注意力模型。自注意力模型是Transformer结构的重要组成，我们以后在另写说明。

这其实是谷歌对attention的定义，但是接触了传统attention模式的可能很难理解 $K$ , $V$ 分别是什么，所以以这种特殊的方式写出来

我最怜君中宵舞

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
快速理解NLP中的Attention机制

为什么需要attention机制常规的机器翻译遵循encoder-decoder机制，其中两个模块的目的是：encoder：将输入序列x1x2x3x4....xtx_1x_2x_3x_4....x_tx1x2x3x4....xt转换为矩阵或者向量表示C=f(x1,x2,x3....,xt)C=f(x_1,x_2,x_3....,x_t)C=f(x1,x2,x3....,xt...
复制链接

扫一扫

专栏目录