Attention

最新推荐文章于 2023-03-20 21:34:05 发布

s1434088958

最新推荐文章于 2023-03-20 21:34:05 发布

阅读量620

点赞数

本文链接：https://blog.csdn.net/s1434088958/article/details/90637488

版权

Attention

1.1认知神经学中的注意力

注意力一般分为两种：一种是自上而下的有意识的注意力，称为聚焦式
（Focus）注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地
聚焦于某一对象的注意力。
另一种是自下而上的无意识的注意力，称为基于显著性（Saliency-Based）的注意力。
基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关。

一个和注意力有关的例子是鸡尾酒会效应。当一个人在吵闹的鸡尾酒会上
和朋友聊天时，尽管周围噪音干扰很多，他还是可以听到朋友的谈话内容，而
忽略其他人的声音（聚焦式注意力）。同时，如果未注意到的背景声中有重要的
词（比如他的名字），他会马上注意到（显著性注意力）。

1.2 神经网络中的Attention

当用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只
选择一些关键的信息输入进行处理，来提高神经网络的效率。

在目前的神经网注意力机制也可称为注意力络模型中，我们可以将最大汇聚
、门控（Gating）机制来近似模型。看作是自下而上的基于显著性的注意力机制。

除此之外，自上而下的会聚式注意力也是一种有效的信息选择方式。
以阅读理解任务为例，给定一篇很长的文章，然后就此文章的内容进行提问。
提出的问题只和段落中的一两个句子相关，其余部分都是无关的。

为了减小神经网络的计算负担，只需要把相关的片段挑选出来让后续的神经网络来处理，
而不需要把所有文章内容都输入给神经网络。

用 $X = [x_1, · · · , x_N ]$ 表示N 个输入信息，为了节省计算资源，不需要将所
有的N 个输入信息都输入到神经网络进行计算，只需要从X 中选择一些和任务
相关的信息输入给神经网络。

注意力机制的计算可以分为两步：
一是在所有输入信息上计算注意力分布，
二是根据注意力分布来计算输入信息的加权平均。

注意力分布

给定一个和任务相关的查询向量 q，我们用注意力变量 $\in [1, N]$

查询向量 q 可以是动态生成来表示被选择信息的索引位置
，即z = i表示选择了第i个输入信息。为了方便计算，

采用一种“软性”的信息选择机制，首先计算在给定q 和X 下，选
择第i个输入信息的概率 $α_i$ ，
$α_i = p(z = i|X,q)\\ =softmax(s(x_i,q))$

其中 $α_i$ 称为注意力分布（Attention Distribution）， $s(x_i , q)$ 为注意力打分函数，
可以使用以下几种方式来计算：
在这里插入图片描述
其中W, U, v为可学习的网络参数，d为输入信息的维度。

理论上，加性模型和点积模型的复杂度差不多，
但是点积模型在实现上可以更好地利用矩阵乘积，
从而计算效率更高。

但当输入信息的维度d比较高，点积模型的值通常有比较大方差，
从而导致softmax函数的梯度会比较小。
因此，缩放点积模型可以较好地解决这个问题。
双线性模型可以看做是一种泛化的点积模型。

加权平均

注意力分布 $α_i$ 可以解释为在给定任务相关的查询q时，第i个信息受
关注的程度。采用一种“软性”的信息选择机制对输入信息进行汇总，
$\sum_{i= 1}^Nα_iX_i$

此称为软性注意力机制（Soft Attention Mechanism）。
下图给出软性注意力机制的示例。
在这里插入图片描述

1.3Attention变体

硬性注意力

上文提到的注意力是软性注意力，其选择的信息是所有输入信息在注
意力分布下的期望。

此外，还有一种注意力是只关注到某一个位置上的信息，叫
做硬性注意力（Hard Attention）。

硬性注意力有两种实现方式：

（1）一种是选取最高概率的输入信息，即
$x_j,\quad j = argmax_{i=1}^N \alpha_i$

（2）另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。

键值对注意力

更一般地，我们可以用键值对（key-value pair）格式来表示输入信息，其
中“键”用来计算注意力分布 $α_i$ ，“值”用来计算聚合信息。

用 $K, V ) = [(k_1, v_1), · · · ,(k_N , v_N )]$ 表示N 个输入信息，给定任务相关的
查询向量q 时，注意力函数为
$\sum_{i=1}^N \alpha_iv_i$

当K = V 时，键值对模式就等价于普通的注意力机制。

Attention的应用

注意力机制主要是用来做信息筛选，从输入信息中选取相关的信息。

注意力机制可以分为两步：

一是计算注意力分布 α，

二是根据 α 来计算输入信息的加权平均。

2.1指针网络

指针网络（Pointer Network）[Vinyals et al., 2015]是一种序列到序列模型，

输入是长度为n的向量序列 $X = x_1, · · · , x_n$ ，

输出是下标序列 $c_{1:m} = c_1, c_2, · · · , c_m，c_i ∈ [1, n], ∀i$ 。

在这里插入图片描述

2.2自注意力模型

如果要建立输入序列之间的长距离依赖关系，可以使用以下两种方法：

一种方法是增加网络的层数，通过一个深层网络来获取远距离的信息交互

另一种方法是使用全连接网络。

全连接网络是一种非常直接的建模远距离依赖的模型，
但是无法处理变长的输入序列。

不同的输入长度，其连接权重的大小也是不同的。

这时我们就可以利用注意力机制来“动态”地生成不同连接的权重，
这就是自注意力模型（Self-Attention Model）

假设输入序列为 $[x_1, · · · , x_n] \in R^{d_1 \times n}$

输出序列为 $[h_1, · · · , h_N ] \in R^{d_2 \times N}$

首先我们可以通过线性变换得到三组向量序列:

$W_QX \in R^{d_3 \times N}\\ K = W_KX \in R^{d_3 \times N}\\ V = W_VX \in R^{d_2 \times N}$

其中Q, K, V 分别为查询向量序列，键向量序列和值向量序列， $W_Q, W_K, W_V$ 分
别为可学习的参数矩阵。

$h_i = att((K,V),q_i) \\ = \sum_{j =1} ^ N \alpha_{ij}v_j\\ = \sum_{j =1 }^Nsoftmax(s(k_j,q_i))v_j$

其中 $\in [1, N]$ 为输出和输入向量序列的位置，连接权重 $α_{ij }$ 由注意力机制动
态生成。

下图给出全连接模型和自注意力模型的对比，其中实线表示为可学习的权
重，虚线表示动态生成的权重。

由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列
在这里插入图片描述参考：https://nndl.github.io/

s1434088958

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Attention

Attention1.1认知神经学中的注意力注意力一般分为两种：一种是自上而下的有意识的注意力，称为聚焦式（Focus）注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力。另一种是自下而上的无意识的注意力，称为基于显著性（Saliency-Based）的注意力。基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关。一个和注意力有关的例...
复制链接

扫一扫