缩放点积注意力（Scaled Dot-Product Attention）

最新推荐文章于 2025-04-17 20:13:11 发布

彬彬侠

最新推荐文章于 2025-04-17 20:13:11 发布

阅读量2.1k

点赞数 27

分类专栏：自然语言处理基础文章标签：缩放点积注意力自注意力 Self-Attention Transformer pytorch python 自然语言处理

本文链接：https://blog.csdn.net/u013172930/article/details/145559067

版权

自然语言处理基础专栏收录该内容

69 篇文章

订阅专栏

缩放点积注意力（Scaled Dot-Product Attention）

缩放点积注意力（Scaled Dot-Product Attention）是自注意力（Self-Attention）机制的一种变体，它被广泛应用于现代的神经网络架构中，尤其是在 Transformer 中。它的核心思想是利用输入序列中各个位置的 查询（Query）、键（Key） 和 值（Value） 来计算注意力权重，并通过加权求和的方式生成上下文向量。

数学原理

对于给定的查询 $Q$ 、键 $K$ 和值 $V$ ，缩放点积注意力通过以下步骤计算上下文向量：

计算点积：首先，计算查询和键之间的点积，得到一个注意力得分矩阵。该矩阵表示了每个查询向量与所有键向量之间的相似度。

$\text{scores} = QK^T$

其中：
- $Q$ 是查询矩阵，维度为 $(n_{\text{queries}}, d_k)$ 。
- $K$ 是键矩阵，维度为 $(n_{\text{keys}}, d_k)$ 。
- $d_k$ 是每个查询和键向量的维度。
缩放（Scaling）：由于点积的结果会随着向量维度的增大而增大，这会导致梯度消失或者梯度爆炸等问题，因此通过除以一个常数 $\sqrt{d_k}$ 来进行缩放。这个缩放操作可以帮助避免点积值过大。

$scaled_scores = Q K T d k \text{scaled\_scores} = \frac{QK^T}{\sqrt{d_k}}$
应用 softmax：接下来，通过 softmax 函数对每个查询的得分进行归一化，得到注意力权重矩阵。这些权重矩阵会表明每个查询向量对所有键向量的关注程度。

$attention_weights = softmax ( Q K T d k ) \text{attention\_weights} = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right)$
加权求和值：最后，将这些注意力权重与值矩阵 $V$ 相乘，得到加权后的值，生成上下文向量。

$attention_weights ⋅ V \text{output} = \text{attention\_weights} \cdot V$

最终公式总结

将以上步骤综合起来，缩放点积注意力的计算过程如下：

$\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V$

步骤详细解释

查询（Query）、键（Key）和值（Value）：在计算注意力时，查询、键和值通常来自同一个输入数据。查询用于表示当前的兴趣点，而键和值则用于提供信息。注意力权重将决定如何从值中提取信息。
缩放操作：缩放操作的目的是通过 $\sqrt{d_k}$ 来避免随着向量维度增大，点积值过大导致的数值不稳定性。
softmax：softmax 操作确保了每个查询的注意力权重和为 1，这样可以通过加权平均的方式得到每个值的贡献。
加权求和：通过将注意力权重与值矩阵相乘，最终得到一个上下文向量，表示该查询所关注的信息。

应用场景

缩放点积注意力是 Transformer 架构的基础，它广泛应用于：

机器翻译：Transformer 是当前自然语言处理（NLP）领域的主流模型，它依赖于自注意力机制来并行处理输入序列中的信息。
图像处理：在 Vision Transformer（ViT）中，缩放点积注意力用于处理图像数据。
语言模型：像 GPT（Generative Pretrained Transformer）和 BERT（Bidirectional Encoder Representations from Transformers）等模型都使用了缩放点积注意力来捕获句子中的长期依赖关系。

PyTorch 实现

下面是一个简单的缩放点积注意力的 PyTorch 实现：

import torch
import torch.nn.functional as F

def scaled_dot_product_attention(Q, K, V):
    """
    实现缩放点积注意力
    
    参数:
    Q (Tensor): 查询矩阵，形状为 (batch_size, num_queries, d_k)
    K (Tensor): 键矩阵，形状为 (batch_size, num_keys, d_k)
    V (Tensor): 值矩阵，形状为 (batch_size, num_keys, d_v)
    
    返回:
    Tensor: 输出上下文向量，形状为 (batch_size, num_queries, d_v)
    """
    # 计算 Q 和 K 的点积
    matmul_qk = torch.matmul(Q, K.transpose(-2, -1))  # (batch_size, num_queries, num_keys)
    
    # 缩放点积
    d_k = Q.size(-1)  # 获取 d_k
    scaled_attention_logits = matmul_qk / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    
    # 使用 softmax 归一化
    attention_weights = F.softmax(scaled_attention_logits, dim=-1)
    
    # 使用注意力权重加权求和值矩阵 V
    output = torch.matmul(attention_weights, V)  # (batch_size, num_queries, d_v)
    
    return output, attention_weights

# 假设我们有以下输入
batch_size = 2
num_queries = 3
num_keys = 4
d_k = 5
d_v = 6

Q = torch.randn(batch_size, num_queries, d_k)  # 查询矩阵
K = torch.randn(batch_size, num_keys, d_k)  # 键矩阵
V = torch.randn(batch_size, num_keys, d_v)  # 值矩阵

output, attention_weights = scaled_dot_product_attention(Q, K, V)

print("Output shape:", output.shape)  # 输出形状 (batch_size, num_queries, d_v)
print("Attention weights shape:", attention_weights.shape)  # 注意力权重形状 (batch_size, num_queries, num_keys)