Self-Attention机制的计算详解

陈壮实的搬砖日记

已于 2025-02-05 17:47:45 修改

阅读量2.8w

点赞数 81

分类专栏：深度学习文章标签：深度学习机器学习计算机视觉 transtormer Attention

于 2022-06-07 10:51:43 首次发布

本文链接：https://blog.csdn.net/qq_41915623/article/details/125161008

版权

深度学习专栏收录该内容

39 篇文章

订阅专栏

本文深入探讨了Attention机制的核心思想，即从大量信息中筛选并聚焦关键信息。Self-Attention作为Transformer的重要组成部分，其计算过程通过Q、K、V矩阵变换实现。通过实例详细解析了Self-Attention的计算步骤，包括线性变换、点积和softmax等操作。此外，还介绍了Multi-Head Attention，用于模型从不同子空间中捕获更多信息。最后提到了Add&Norm操作，它结合残差连接和层归一化以防止退化和加速收敛。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1. Attention的思想

Attention注意力的核心目标就是从众多信息中选择出对当前任务目标更关键的信息，将注意力放在上面。

本质思想就是【从大量信息中】【有选择的筛选出】【少量重要信息】并【聚焦到这些重要信息上】，【忽略大多不重要的信息】。聚焦的过程体现在【权重系数】的计算上，权重越大越聚焦于其对应的value值上。即权重代表了信息的重要性，而value是其对应的信息。

个人理解，就是对参数进行“加权求和”。

2. Self-Attention计算公式

在这里插入图片描述

其中， $X$ 表示输入的数据， $Q, K, V$ 对应内容如图，其值都是通过 $X$ 和超参（先初始化，后通过训练优化）进行矩阵运算得来的。

可以理解为：Self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。

3. Self-Attention的计算实例

结合代码进行理解：

Step1：初始化 $W^Q , W^K,W^V$ 矩阵

class BertSelfAttention(nn.Module):
    self.w_q = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.w_k = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.w_v = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768

假设三种操作的输入都是同等维度的矩阵，这里每个特征维度都是768.即三者的维度：
$W^Q.shape = [768, 768] \\ W^K.shape = [768, 768] \\ W^V.shape = [768, 768]$

Step2: 定义输入

输入的特征维度也为768，即：每个字用768维来进行表示，如图所示：
在这里插入图片描述

即输入的X的维度为： [6, 768].

Step3: 计算 $Q, K, V$

由于维度的问题，需要调换以下顺序，以及可能会涉及到转置：
$Q = X·W^Q \\ K = X·W^K \\ V = X·W^V$
根据以上公式，得到 $Q, K, V$ 的维度：
$Q . s ha p e = [6, 768] * [768, 768] = [6, 768]$
$K, V$ 同理。其维度图如下：

Step4: 根据公式计算注意力Attention
$K^T \over \sqrt{d_k}}) V$
First: 是 $Q ， K$ 矩阵相乘，维度变化： $[6, 768] * [768, 6] = [6, 6]$ ，如图：
在这里插入图片描述
（1）首先用Q的第一行，即“我”字的768特征和K中“我”字的768为特征点乘求和，得到输出（0，0）位置的数值，这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重；
（2）然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重；整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字（包括自己）的注意力权重（就是一个数值）了.
Second: 除以 $\sqrt{d_k} ,d_k$ 表示特征维度，在本例中 $d_k = 768$ 。之所以要除以这个数，是为了矩阵点乘后的范围，确保softmax的梯度稳定性。
Three: 最后就是注意力权重和 $V$ 矩阵相乘，如图所示：
在这里插入图片描述
（1）首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重，和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和，这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和，