transformer注意力机制的理解（Q,K,V,dk）

最新推荐文章于 2025-08-28 14:25:06 发布

原创最新推荐文章于 2025-08-28 14:25:06 发布 · 6.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节

普通人的搬砖日子专栏收录该内容

24 篇文章

订阅专栏

本文深入探讨了注意力机制在深度学习中的应用，重点解析了注意力公式，其中Q、K、V分别代表查询、键和值，通过它们的点积计算注意力的原始分数。缩放系数是为了避免softmax操作后结果过于集中。通过对比softmax前后的分数分布，可以看到缩放能保持更丰富的信息，有利于梯度传播。

Attention公式：

上面这个注意力公式可以理解为是算 V 的加权后的表示

权重就是V前面的所有部分，

其中 softmax 可以使得权重概率分布和为1。

其中 $\frac{QK^{T}}{\sqrt{d_{k}}}$ 算的就是注意力的原始分数（其实也就是相似度分数，通过Q和K的点积求出）

其中 ${\sqrt{d_{k}}}$ 是缩放系数，可以使结果不至于过大或过小，导致 softmax 之后就非0即1。

可以看下图帮助理解（图中最上边一行是softmax之前的结果，中间一行是没有除 ${\sqrt{d_{k}}}$ 的softmax结果，最后一行是除了 ${\sqrt{d_{k}}}$ 的softmax结果。可以看出在不除 ${\sqrt{d_{k}}}$ 的时候softmax的结果只会在输入的最大值或者几个大值附近出现，看起来非常陡峭。当输入除了 ${\sqrt{d_{k}}}$ 以后我们发现输入数据的分布大部分都保留了下来，这样的好处就是可以在梯度回传的时候让梯度比较平稳）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Quentin_nb

关注关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Vision Transformer （ViT）：图像分块、图像块嵌入、类别标记、QKV矩阵与自注意力机制的解析

养乐多的博客

07-29

2万+

本文将介绍Vision Transformers （ViT）中的关键点。包括图像分块（Image Patching）、图像块嵌入（Patch Embedding）、类别标记（class_token）、QKV矩阵计算过程、余弦相似度（cosine similarity）、Softmax、自注意力机制等概念。主要介绍QKV矩阵计算过程。

Transformer注意力机制的正则化技术解读

AI天才研究院

04-24

1567

Transformer是第一个完全基于注意力机制的序列模型,不再依赖RNN或CNN的结构。它通过自注意力(Self-Attention)机制捕捉输入序列中任意两个位置的关系,从而有效地建模长期依赖关系。与RNN相比,Transformer具有并行计算的优势,大大提高了训练效率。模型压缩和加速: 大型Transformer模型计算成本高昂,因此模型压缩和推理加速是未来的重点研究方向。多模态Transformer: 将Transformer扩展到处理多种模态数据(如文本、图像、视频等),实现多模态融合和理解。

5 条评论您还未登录，请先登录后发表或查看评论

注意力机制（Attention mechanism）

PL_hfc的博客

07-08

1973

自注意力机制（self-attention）首先，其核心思想为：其中，Q为query，，即查询、要查询的信息K为key，，即索引、被查询的向量V为value，，即值、查询到的内容dk代表k的维度，除以k的维度的平方根，使训练时的梯度保持稳定 Q，K，V都是输入x经过经过线性变换得到的，和它们分别相乘的三个矩阵W是通过学习得到的矩阵，使用这样的线性变换可以提高的模型的拟合能力举一个例子有一个渣男，他有 n 个备胎，他想要从自己的备胎里寻找最符合自己期望的，好分配注意力和管理时间用 Q 表示择偶标准，K

《Attention Is All You Need》注意力机制公式中Q,K,V的理解

最新发布

Small__明的博客

08-28

1000

矩阵对必须一致的维度可以不同的维度Q和K最后一维（特征维度）d_k序列长度seq_lenK和V序列长度seq_len最后一维（特征维度）Q和V无强制要求所有维度都可以不同Q和K的**最后一维（特征维度）**必须相同，否则无法计算QKTQK^TQKT。K和V的序列长度必须相同，否则无法计算注意力权重与V的乘积。V的最后一维可以任意，它决定了注意力输出的特征维度。理解这些形状关系对于正确实现和调试Transformer模型至关重要。

CV领域交叉注意力(Cross Attention)中QKV的含义理解

清晨的光明

03-27

7740

再用Key向量的维度进行scaling，即将计算得到的相似度矩阵维度，：将重要特征的强弱程度权重系数矩阵施加到图像特征上，得到最终的。：Q和K相乘，对应Query和Key进行点积运算，得到的是。（2）Q：告诉attention需要关注哪些重要特征。，即Q中任一元素与K的每个元素相似度权重之和都为1；，这个系数矩阵代表在图像特征上。（1）K=V：图像的全局特征。（重要特征是Q所提供的）。：对相似度权重矩阵进行。

selfAttention 中的dk到底是什么

一休

08-06

2092

selfAttention dk表示什么

注意力机制的qkv_从维度角度理解

wangmarkqi的博客

09-11

2228

关于qkv

注意力模型QKV矩阵与位置向量计算

活到老、学到老

08-16

2073

位置向量（Positional Encoding）在 Transformer 等模型中用于为输入序列中的每个位置编码位置信息，以便模型能够捕捉序列中的顺序关系。在注意力机制中，Query (Q)、Key (K) 和 Value (V) 矩阵是通过对输入向量进行线性变换得到的，而这些矩阵的初始化与更新与神经网络的权重类似。最常用的计算位置向量的方法是基于正弦和余弦函数。通过理解和应用位置向量，Transformer 等模型能够捕捉到序列中的位置信息，从而更好地处理和生成与顺序相关的输出。

基于考研概率论知识解读 Transformer：为何自注意力机制要除以根号 dk

进一步有进一步的欢喜~

01-11

1540

在Transformer自注意力机制中，除以dk是经过精心设计的关键操作。它源于对随机向量点积方差的理论分析，旨在稳定方差、平衡维度影响。不恰当的缩放，都会因Softmax函数特性引发梯度问题或信息捕捉能力下降，严重影响模型性能。理解这一操作的原理和影响，对于深入理解Transformer架构及优化相关模型具有重要意义。

transformer - 注意力机制

weixin_47552266的博客

06-09

1800

Transformer 中的注意力机制通过查询（Q）、键（K）和值（V）捕捉输入序列中元素之间的相关性，利用多头注意力机制增强模型的表达能力。通过缩放点积、应用 softmax、加权求和值向量，模型能够有效地调整输入序列中的信息权重。位置编码确保了位置信息的保留，残差连接和层归一化加速了训练，前馈神经网络进一步处理了注意力输出。编码器和解码器的结合使得 Transformer 能够高效地进行序列到序列的任务，如机器翻译和文本生成。

注意力机制详解（Attention详解）

博客

11-15

8533

注意力机制；Attention

[LLM] 自然语言处理 ----- Attention机制中的Q,K,V介绍

摩登都市天空---专栏

09-14

2万+

注意力机制就是要通过训练得到一个加权，自注意力机制就是要通过权重矩阵来自发地找到词与词之间的关系。 Q就是词的查询向量，K是“被查”向量，V是内容向量。简单来说一句话：Q是最适合查找目标的，K是最适合接收查找的，V就是内容，这三者不一定要一致，所以网络这么设置了三个向量，然后学习出最适合的Q, K, V，以此增强网络的能力。因此肯定需要给每个input定义tensor，然后通过tensor间的乘法来得到input之间的关系。那这么说是不是给每个input定义...

注意力机制的理解（借鉴）

qq_43557445的博客

11-03

494

一、Encoder-Decoder框架如图是在文本处理领域的Encoder-Decoder框架。 Encoder：对输入句子进行编码，通过非线性比变换转化为中间语义表示C Decoder：根据中间语义C和之前的历史信息，生成输出语句每个yi都是依次产生的。二、Soft Attention模型上图中展示的Encoder-Decoder框架是没有体现出"注意力模型"的，可以看作是注意力不集中的分心模型。从单词生成的过程中，可以发现无论生成哪个单词，都用到C，没有区别。而语义编码C是原句子经过

Transformer——Q、K、V详解

Williamcsj的博客

12-27

3645

图书馆里有很多书（value），为了方便查找，我们给书做了编号（key）。当我们想要了解漫威这本书（query）的时候，我们就可以看看那些动漫、电影、甚至二战（美国队长）相关的书籍。

在Transformer模型中d_k是如何确定的

m0_51200050的博客

06-23

1840

在多头注意力机制中，确定了每个头的维度dkd_kdk和dvd_vdv后，权重矩阵WQW_QWQWKW_KWK和WVW_VWVWQ∈R512×64WK∈R512×64WV∈R512×64WQ∈R512×64WK∈R512×64WV∈R512×64。

超通俗理解注意力机制的原理与本质——结合日常生活来理解

u014439531的博客

07-29

1620

通俗理解注意力机制（attention）的原理与本质——结合日常生活

多头注意力Attention中qkv分别是什么

zengxiaojian2的博客

11-30

3135

Query (Q): 查询向量，用于表示当前要关注的信息。每个注意力头会根据输入序列生成自己的查询向量。Q 向量用于与K 向量进行相似度计算，以确定哪些值（V）应该被关注。Key (K): 键向量，代表输入序列中每个元素的特征。每个输入元素都有一个对应的 K 向量，Q 与 K 的相似度决定了该元素对当前查询的重要性。Value (V): 值向量，实际包含的信息。每个 K 向量都有一个对应的 V 向量，最终的输出是通过加权求和 V 向量得到的，其中权重由 Q 和 K 的相似度决定。

attention注意力机制中为什么要在分母上除以根号dk？

qq_57565004的博客

08-07

300

摘要：注意力机制中缩放点积的核心目的是防止梯度消失，稳定训练过程。随着键向量维度增大，点积结果的方差变大，会导致softmax梯度趋近于零。通过除以√dk将方差稳定在1附近，避免梯度消失问题，同时使注意力分布更平滑，有利于模型学习不同位置间的关联。这一方法确保在不同维度下都能保持稳定的训练动态。

自注意力机制QKV代表什么意思

03-18

### 自注意力机制中的 Q、K 和 V 的含义在深度学习领域，尤其是Transformer架构中，自注意力机制（self-attention mechanism）的核心概念围绕着三个矩阵：查询（Query, Q）、键（Key, K）以及值（Value, V）。这些矩阵的作用可以被理解为一种计算输入序列中不同位置之间关系的方式。 #### 查询（Query, Q）查询表示当前正在关注的信息片段。它用于衡量其他部分对于当前位置的重要性。通过线性变换得到的 Query 向量会与其他 Key 进行交互来评估相关程度[^1]。 #### 键（Key, K）键代表的是每个词或者元素自身的特征属性。当模型试图找到某个特定 Query 所对应的上下文时，Keys 就起到了索引作用。具体来说，在计算过程中 Keys 被用来同 Queries 对比以判断相似度或关联强度[^3]。 #### 值（Value, V）一旦确定了哪些部分与给定 Query 更加密切相关之后，则 Values 提供实际要提取出来的信息内容。也就是说 Value 是最终会被聚合起来形成新表征的数据源[^4]。整个过程可以通过如下公式描述： \[ \text{Attention}(Q,K,V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V \] 其中 $ d_k $ 表示 key 的维度大小；$ softmax() $ 函数确保输出概率分布特性。以下是实现上述逻辑的一个简单 Python 示例代码： ```python import torch import math def scaled_dot_product_attention(query, key, value): dk = query.size(-1) scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(dk) # 计算得分并缩放 attn_weights = torch.softmax(scores, dim=-1) # 应用 Softmax 得到权重 output = torch.matmul(attn_weights, value) # 加权求和获得结果 return output, attn_weights ``` 此函数接收三组张量作为参数——`query`, `key`, 和 `value`—并通过点积操作计算它们之间的匹配分数，随后应用SoftMax转换成概率形式，并据此重新组合原始 values 来构建更丰富的语义表达[^2]。