人工智能/机器学习基础知识——注意力机制简介（Attention）

最新推荐文章于 2025-03-06 08:45:00 发布

ZreviaX

最新推荐文章于 2025-03-06 08:45:00 发布

阅读量1k

点赞数 18

分类专栏：人工智能/机器学习基础知识文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/WindGrin_/article/details/137617665

版权

人工智能/机器学习基础知识专栏收录该内容

31 篇文章

订阅专栏

本文详细介绍了Attention机制，包括其得分函数，还阐述了多种基于Attention的模型，如RAM、Encoder - Decoder等。在NLP和CV领域，Attention机制能有效解决信息丢失和并行计算问题，像Transformer就利用Self - Attention提升性能，SE模块则在CV中增强特征提取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

几年前写的笔记了，部分内容对于现在来说肯定比较基础

Attention

Attention机制

Attention Score Function

$q$ 为Query Vector

加性模型

$s(\boldsymbol{x}, \boldsymbol{q})=\boldsymbol{v}^{\top} \tanh (\boldsymbol{W} \boldsymbol{x}+\boldsymbol{U} \boldsymbol{q})$
点积模型

$s(\boldsymbol{x}, \boldsymbol{q})=\boldsymbol{x}^{\top} \boldsymbol{q}$
缩放点积模型

$s(\boldsymbol{x}, \boldsymbol{q})=\frac{\boldsymbol{x}^{\top} \boldsymbol{q}}{\sqrt{D}}$
双线性模型

$s(\boldsymbol{x}, \boldsymbol{q})=\boldsymbol{x}^{\top} \boldsymbol{W} \boldsymbol{q}$

RAM（Recurrent Attention Model）

Paper : Recurrent Models of Visual Attention

CSDN

Attention最早提出在CV领域

Glimpse Sensor：根据输入图像 $x_t$ 和上一时刻 $h_{t-1}$ 产生的位置坐标 $l_{t-1}$ 生成注意力区域 $ρ(x_t, l_{t-1})$ 。实际上，Sensor会对位置坐标周围的图像采用高分辨率编码，离位置坐标中心越远，分辨率逐渐变低
Glimpse Network：根据产生的注意力区域 $ρ(x_t, l_{t-1})$ 和位置坐标 $l_{t-1}$ 分别经过两个独立的全连接层 $θ_g^0$ 和 $θ_g^1$ 产生两个张量，再将这两个张量经过第三个全连接层 $θ_g^2$ 输出最终的表示 $g_t$
RNN Architecture：利用前述生成的 $g_t$ 张量作为RNN的输入，与前一时刻的 $h_{t-1}$ 相加生成当前时刻的 $h_t$ ，接着使用当前时刻的 $h_t$ 产生动作 $a_t$ ， $a_t$ 决定了下一个时刻输入的 $g_t$ 所用到的位置坐标 $l_t$

在这里插入图片描述

Internal state：agent当前所处的环境的状态编码，以 $h_t$ 表示
Actions： $h_t$ 产生的action，表示如何选取位置坐标 $l_{t+1}$
Reward：RNN的长度是预设好的超参数，在经过T个时间步后，分类结果若正确则reward为1，否则为0
上述过程在强化学习领域称为Partially Observable Markov Decision Process（POMDP）
Loss Function：RL看完再来补

Encoder-Decoder（Seq2Seq）

Paper : NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

NLP中的Attention机制（NLP最早的Attention机制）

早期的Seq2Seq模型先由Encoder编码出一个记忆向量 $c$ ，然后根据这个记忆向量去Decoder另一个序列。这种方式有一个问题，语义向量 $c$ 很难包含所有的语义信息，在decoder过程中，会随着序列的加长，效果越来越差
Encoder-Decoder Attention：在Decoder语义信息时，不再使用单一不变的语义向量 $c$ 。Decoder中每一个RNN Cell的输入都是Encoder中所有 $h_i$ 的加权平均。具体做法为：将 $H_{i-1}$ （也有些论文用 $H_i$ ）分别与 $h_i$ 作一定的函数F操作（比如点积），将输出值经过Softmax进行权重归一化，然后利用得到的权重与对应的 $h_i$ 相乘并求和，将结果作为下一时刻的输入。

在这里插入图片描述

目前计算 $H_{i-1}$ 与 $h_i$ 之间的Attention Score的函数F有以下几种：

在这里插入图片描述

Attention实际上计算了Decoder的 $H_{i-1}$ 与每个 $h_i$ 的相似度（相关度），相关度越高的值肯定越大，所获得的权重也就越大，然后把这个权重与 $h_i$ 对应相乘，这样就可以在每次Decoder时，将注意力集中在某个相关度高的 $h_i$ 上，这就是Attention的精髓所在

Soft Attention & Hard Attention

Paper : Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

Soft Attention：考虑Encoder所有的 $h_i$ ，每个 $h_i$ 都与 $H_{i-1}$ 计算概率
Hard Attention：只考虑Encoder中的一个对应的 $h_i$ ，只用特定的 $h_i$ 与 $H_{i-1}$ 计算概率

Global Attention & Local Attention

Paper : Effective Approaches to Attention-based Neural Machine Translation

知乎

CSDN

Global Attention：考虑Encoder所有的 $h_i$ ，每个 $h_i$ 都与 $H_{i-1}$ 计算概率。等价于Soft Attention
Local Attention：考虑Encoder一个窗口期的 $h_i$ 。使用一个人为设定的参数D选择一个以 $p_t$ 为中心，[ $p_t - D$ , $p_t + D$ ]为窗口的区域。是一种介于Soft Attention和Hard Attention之间的方式。
- $p_t$ 的选取在论文中有以下两种方式：
  - Monotonic alignment (local-m)：直接令 $p_t = t$
  - Predictive alignment (local-p)：公式为：
    $p_t = S · sigmoid(v_p^Ttanh(W_ph_t))$
    其中， $W_p$ 和 $v_p$ 为可训练参数， $S$ 为原输入序列的长度， $h_t$ 为当前Decoder的hidden state。实际上，这种方法在最后计算出的权重分配矩阵（Alignment Weights Matrix） $a_t$ 上又添加了一项均值为 $p_t$ ，标准差为 $D /2$ 的标准正态分布乘积项：
    $a_t(s) = align(h_t, \overline{h}_s)exp(-\frac{(s - pt)^2}{2σ^2})$
    $align(h_t, \overline{h}_s) = \frac{exp(score(h_t, \overline{h}_s))}{\sum\limits_{s'}{exp(score(h_t, \overline{h}_{s'}))}}$
    其中，score为Attention Score函数， $h_t$ 为Decoder当前时刻状态， $\overline{h}_s$ 为Encoder某Cell状态。在添加高斯分布项后，alignment权重随着 $\overline{h}_i$ 在窗口中远离中心 $p_t$ 而逐渐降低，等于说给 $p_t$ 这个中心点一个更大的影响力

Key-Value Pair Attention

键值对注意力模式

“Key”用来与Query Vector计算Attention Score，“Value”用于计算Attention加权结果

$\begin{aligned} \operatorname{att}((\boldsymbol{K}, \boldsymbol{V}), \boldsymbol{q}) &=\sum_{n=1}^{N} \alpha_{n} \boldsymbol{v}_{n} \\ &=\sum_{n=1}^{N} \frac{\exp \left(s\left(\boldsymbol{k}_{n}, \boldsymbol{q}\right)\right)}{\sum_{j} \exp \left(s\left(\boldsymbol{k}_{j}, \boldsymbol{q}\right)\right)} \boldsymbol{v}_{n} \end{aligned}$

Hierarchical Attention & Structured Attention

Paper : Hierarchical Attention Networks for Document Classification

Paper : STRUCTURED ATTENTION NETWORKS

层次、结构化注意力机制

Pointer Network

Paper : Pointer Networks

指针网络

Memory Augmented Neural Network（MANN）

记忆增强神经网络

在这里插入图片描述

End-To-End Memory Network（MemN2N）

Paper : End-To-End Memory Networks

端到端记忆网络

Neural Turing Machine（NTM）

Paper : Neural Turing Machine

神经图灵机

Hopfield Network

Hopfield网络

Self-Attention（Transformer）

Paper : Attention Is All You Need

Github.io

知乎

BLOG

提出原因：RNN的计算顺序是有限制的，只能从左向右或从右向左依次计算。这种机制会带来两个问题：
- 时间点 $t$ 的计算依赖于 $t - 1$ 时刻的计算结果，限制了模型的并行能力
- 顺序计算的过程中信息会丢失。尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象，LSTM依然无能为力

Transformer

Transformer完全不依赖于RNN结构，本质上是一种Encoder-Decoder结构。在论文中，Transformer由6个Encoder Block和6个Decoder Block组成：

在这里插入图片描述

Encoder

下图为Encoder整体结构

在这里插入图片描述

在Transformer的每个Encoder中，数据会首先经过Self-Attention模块得到一个加权之后的特征向量 $Z$ ，在原论文中定义如下：
$softmax(\frac{QK^T}{\sqrt{d_k}})V$
得到 $Z$ 之后（实际上每个词都会生成一个 $Z$ ），它会被送到Encoder的下一个模块，即Feed Forward Neural Network（FFN）。FFN模块有两层，第一层是ReLU激活函数，第二层是一个线性激活函数。FFN在原论文中表示为：
$FFN(Z) = max(0,ZW_1 + b_1)W_2 + b_2$
在Encoder中，我们将单词的Embedding Vector作为输入向量，经过Self-Attention后输出的向量通过FNN后继续喂给下一个Encoder，如下所示：

在这里插入图片描述

Decoder

Decoder

在这里插入图片描述

Masked Multi-Head Attention（Self-Attention）：输入为当前已解码出的词的Embedding，但实际上输入必须是所有预测词的Matrix，这样大小才固定，所以这里需要用Masked矩阵去和输入做一个掩码操作，将未来待预测的词掩码成0，其余操作与Self-Attention一致。最后输出的值线性映射到某个维度，作为Query。
Multi-Head Attention（Encoder-Decoder Attention）：该层接受从Encoder输出线性变换的Key，Value矩阵以及从Masked层输出的Query矩阵。其余操作与Multi-Head Attention一致。最后的输出也是过全连接层线性映射到某个维度，作为输出。

Self-Attention

自注意力机制

在Self-Attention中，每个单词有3个不同的向量：Query（Q），Key（K）和Value（V）。它们是由3个不同的权重矩阵 $W^Q$ ， $W^K$ ， $W^V$ 分别乘以单词的Embedding Matrix得到的：

在这里插入图片描述

Self-Attention核心操作：
- 将输入单词转化为词向量
- 根据词向量得到Q，K，V三个向量
- 为每个输入词向量计算一个Attention Score：
  $A tt e n t i o n S core = Q \cdot K$
- 为了保持梯度的稳定，Transformer使用了Attention Score归一化，将其除以 $\sqrt{d_k}$ 防止值过大（ $d_k$ 表示 $K$ 的维度）
- 对各个Attention Score进行Softmax权重归一化
- 将得到的权重点乘各个输入向量Value值得到该向量的加权输出

在这里插入图片描述

Multi-Head Attention

多头注意力，实际上自注意力的并行，绝非Stacking

根据原论文的意思，先由输入的Embedding Matrix点积权重矩阵产生一组Q，K，V矩阵。然后将这组矩阵分别经过h个（假设h个并行多头注意力）全连接层，产生h组不同的Q，K，V。这h组各自作Self-Attention的操作，分别输出各自的加权输出向量。最后对这些向量作Concat，并点积一个权重矩阵将输出降维到单个输出的维度。如下为原文图解：

在这里插入图片描述

公式为：
$MultiHead(Q,K,V) = Concat(head_1,...,head_h)W^0$
$head_i = Attention(QW_i^Q,KW_i^K,VW_i^V)$
Concat操作如下图所示：

在这里插入图片描述

Positional Encoding

CSDN

位置编码

由于Transformer抛弃了RNN，改而使用了Self-Attention这种完全由Attention机制对序列数据进行特征提取的形式，所以Transformer本身并不能学习到语句中各个词的前后顺序（依赖）关系。为此，为使Transformer在输入数据的编码过程中能够捕捉到句子单词的位置信息，额外加入了对单词位置进行编码的方式，即Positional Embedding。
为了使Transformer能够捕捉到句子单词的位置信息，引入了Positional Encoding位置编码，在进行Self-Attention之前，会与Input Embedding进行相加。如下图所示：

在这里插入图片描述

原论文中给出的编码公式如下：
$sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$
$cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$
其中， $p os$ 表示单词在原句子中的位置， $i$ 表示在pos位置上单词的Embedding Vector中的元素位置。
为什么使用这种公式？
- 由前述介绍的Word Embedding可知，单句话经过编码后得到的向量维度为[max_sequence, embedding_size]，其中max_sequence为一个句子所能包含的最大单词数，embedding_size为每个单词的编码维度，二者均为超参数。为了能让向量进行加和运算，Positional Embedding的向量维度与Word Embedding保持一致。
- 那么为什么Positional Embedding能够捕捉到单词的位置信息呢？假设表示Embedding Vector中元素位置的参数i固定，则每个单词各自的Embedding Vector在i处的元素值只取决于pos参数，即单词在原句中的位置索引，则此时若将pos当作自变量，则上述编码公式的周期为：
$\pi * 10000^{\frac{2 i}{d_{\text {model }}}} \in[2 \pi, 2 \pi * 10000]$
- 可以看出，随着i值的增大，周期从2π逐渐增大到2π*10000，所以对于每一个pos上的Embedding Vector来说，都包含了不同周期的sin、cos函数的元素值组合，从而产生了独一无二的周期变化信息，而模型最终能学习到这些位置信息
例子：可以将Embedding Matrix看作是[5000, 512]的矩阵，5000为词数，512为Embedding Size。也就是说，行为 $p os$ ，列为 $i$ 。例如当前需要计算第一个单词的位置编码，那么 $p os = 0$ ，改变 $i \in [0, 511/2]$ 就能计算出位置编码。

Residuals

Transformer用到了残差结构

在这里插入图片描述

Squeeze-and-Excitation（SE）

Paper : Squeeze-and-Excitation Networks

简书

CV中的Attention模块

在这里插入图片描述

上图为SE的Block单元。 $F_{tr}$ 表示传统的卷积结构， $X$ 和 $U$ 是 $F_{tr}$ 的输入（ $C^{'} \times H^{'} \times W^{'}$ ）和输出（ $C \times H \times W$ ）

Squeeze：Squeeze过程先对U做一个GAP（Global Average Pooling），即图中的 $F_{sq}(·)$ 。GAP直接将每个通道的所有值平均成一个值。
Excitation：Excitation过程将Sequeeze输出的 $1 \times 1 \times C$ 数据经过两层全连接（图中的 $F_{ex}(·)$ ），最后再用Sigmoid将每个scale值限制到[0, 1]范围。最后将这个值作为scale乘到 $U$ 的 $C$ 个通道上，作为下一级的输入。两个全连接层中，第一个全连接把 $C$ 个通道压缩成了 $C / r$ 个通道来降低计算量，接着通过Relu激活，再通过第二个全连接层将其恢复回 $C$ 个通道，最后再通过Sigmoid。
r是指压缩的比例。作者尝试了r在各种取值下的性能，最后得出结论r=16时整体性能和计算量最平衡
这里加全连接层的意义就在于GAP操作是不可训练的，没有训练参数。如果只有GAP，那么这种Attention只能在单个样本内部起作用，无法基于整个数据集得出一个整体的scale。