NLP中的Attention机制

最新推荐文章于 2024-02-02 15:33:04 发布

二叉树不是树_ZJY

最新推荐文章于 2024-02-02 15:33:04 发布

阅读量328

点赞数 1

分类专栏：自然语言处理文章标签： attention nlp 深度学习神经网络

本文链接：https://blog.csdn.net/qq_42341984/article/details/109580257

版权

自然语言处理专栏收录该内容

21 篇文章 3 订阅

订阅专栏

NLP中的Attention机制

一 Attention机制
- 1 Why Attention
- 2 Attention理解
二 Attention分类
Reference

一 Attention机制

1 Why Attention

计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，计算能力是瓶颈。
优化算法的限制：RNN中的长距离依赖问题，信息“记忆”能力并不高。

2 Attention理解

Attention机制的实质其实就是一个寻址（addressing）的过程，如上图所示：给定一个和任务相关的查询Query向量 q，通过计算与Key的注意力分布并附加在Value上，从而得到Attention Value，这个过程实际上是Attention机制缓解神经网络模型复杂度的体现：不需要将所有的N个输入信息都输入到神经网络进行计算，只需要从X中选择一些和任务相关的信息输入给神经网络。

更好的理解1：在Youtube上搜索某些视频

Query：要查询的视频
Key：数据库中与候选视频相关的一组键（视频标题，说明等）
Value：数据库中的候选视频

更好的理解2：

Query：搜索词
Key：句子中的所有词（包括query，去和query匹配搜寻相关度，故q*k可以决定在句子每个单词上投入多少注意力）
Value：句子中每个词自身的价值value，将求得的注意力得分与v相乘得到最终每个单词的得分。、

更好的理解3：

图书管（source）里有很多书（value），为了方便查找，我们给书做了编号（key）。当我们想要了解漫威（query）的时候，我们就可以看看那些动漫、电影、甚至二战相关的书籍。

为了提高效率，并不是所有的书都会仔细看，针对漫威来说，动漫，电影相关的会看的仔细一些（权重高），但是二战的就只需要简单扫一下即可（权重低）。当我们全部看完后就对漫威有一个全面的了解了。

二 Attention分类

1 soft Attention

在这里插入图片描述

（1）普通模式（Key=Value=X）

计算步骤：

信息输入：用 $X=[x_1, · · · ,x_N ]$ 表示N个输入信息；
注意力分布计算：

由于
$\alpha_{i}=\operatorname{softmax}\left(s\left(k e y_{i}, q\right)\right)=\operatorname{softmax}\left(s\left(X_{i}, q\right)\right)$
将 $\alpha_i$ 称之为注意力分布（概率分布）， $s(X_i,q)$ 为注意力打分机制，有几种打分机制：
信息加权平均：注意力分布 $\alpha_i$ 表示在给定查询 $q$ 时，输入信息向量 $X$ 中第 $i$ 个信息与查询 $q$ 的相关程度。采用“软性”信息选择机制给出查询所得的结果，就是用加权平均的方式对输入信息进行汇总，得到Attention值：

$\operatorname{att}(X,q)=\sum_{i=1}^{N} \alpha_{i} x_{i}$

（2）键值对模式（Key!=Value）

计算步骤：

信息输入：用键值对（key-value pair）来表示输入信息，那么N个输入信息就可以表示为 $K,V)= [(k_1,v_1),(k_2,v_2),...,(k_N,v_N)]$ ，其中"Key"用来计算注意分布 $\alpha_i$ ，"Value"用来计算聚合信息。
注意力分布计算：

$\alpha_{i}=\operatorname{softmax}\left(s\left(k e y_{i}, q\right)\right)$

信息加权平均：

相比普通模式，注意力函数变为：

$\operatorname{att}((K,V), q)=\sum_{i=1}^{N} \alpha_{i} v_{i}$

注意：在NLP中，Key和Value常常都是同一个，即Key = Value。

2 hard Attention

区别：

软性注意力，其选择的信息是所有输入信息在注意力分布下的期望。
硬性注意力，只关注到某一个位置上的信息

硬性注意力有两种实现方式：

选取最高概率的输入信息
通过在注意力分布式上随机采样的方式实现。

hard Attention缺点：

基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。为了使用反向传播算法，一般使用soft Attention来代替hard Attention。

3 self-Attention

问题：CNN或RNN不能处理序列之间的长距离依赖关系

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用CNN或RNN进行编码来得到一个相同长度的输出向量序列，如图所示：
在这里插入图片描述

从上图可以看出，无论CNN或RNN其实都是对变长序列的一种“局部编码”：CNN显然是基于N-gram的局部编码；而对于RNN，由于梯度消失等问题也只能建立短距离依赖。

解决方法：

增加网络的层数，通过一个深层网络来获取远距离的信息交互。
使用全连接网络。

由上图可以看出，全连接网络虽然是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列。不同的输入长度，其连接权重的大小也是不同的。这时我们就可以利用注意力机制来“动态”地生成不同连接的权重，这就是自注意力模型（self-attention model）。由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列。

计算步骤：

输入序列： $X=[x_1, · · · ,x_N ]$
输出序列： $H=[h_1, · · · ,h_N ]$

信息输入：用 $X=[x_1, · · · ,x_N ]$ 表示N 个输入信息；通过线性变换得到

（1）查询向量序列： $Q=W_QX$
（2）键向量序列： $K=W_KX$
（3）值向量序列： $V=W_VX$
其中 $W_Q,W_K,W_V$ ，分别为可学习的参数矩阵。

上面的公式可以看出，self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。
计算输出向量 $h_i$ ：
$\begin{aligned} \mathbf{h}_{i} &=\operatorname{att}\left((K, V), \mathbf{q}_{i}\right) \\ &=\sum_{j=1}^{N} \alpha_{i j} \mathbf{v}_{j} \\ &=\sum_{j=1}^{N} \operatorname{softmax}\left(s\left(\mathbf{k}_{j}, \mathbf{q}_{i}\right)\right) \mathbf{v}_{j} \end{aligned}$
其中 $i, j \in [1, N]$ 为输出和输入向量序列的位置，连接权重 $\alpha_{ij}$ 由注意力机制动态生成。

自注意力模型中，通常使用缩放点积来作为注意力打分函数，输出向量序列可以写为：
$\operatorname{softmax}\left(\frac{K^TQ}{\sqrt{d_k}}\right)$

拆解：

为每个向量计算自注意力得分，分数决定当我们在某个位置对单词进行编码时，要在输入句子的其他部分上投入多少注意力： $score=q\cdot k$

为了梯度的稳定，对计算的分数进行 Scale，即除以 $\sqrt{d_k}$ ，原因是如果点乘结果过大，使得经过softmax之后的梯度很小，不利于反向传播

对score施以softmax激活函数，归一化，即 $softmax(\frac{q\cdot k}{\sqrt{d_k}})$ ；

softmax乘Value值 $v$ ，得到加权的每个输入向量的评分 $\cdot softmax(\frac{q\cdot k}{\sqrt{d_k}})$ ；

相加之后得到最终的输出结果： $\sum v \cdot softmax(\frac{q\cdot k}{\sqrt{d_k}})$ 。

使用矩阵形式表示：

4 multi-head attention

结构如下：

利用多个查询 $Q = [q_1, · · · , q_M]$ ，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分，然后再进行拼接：
$\operatorname{att}((K, V), Q)=\operatorname{att}\left((K, V), \mathbf{q}_{1}\right) \oplus \cdots \oplus \operatorname{att}\left((K, V), \mathbf{q}_{M}\right)$