一步一步理解大模型：多头注意力机制的作用

最新推荐文章于 2025-05-10 20:15:00 发布

chattyfish

最新推荐文章于 2025-05-10 20:15:00 发布

阅读量6.9k

点赞数 4

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/chattyfish/article/details/130234363

版权

多头注意力机制通过不同的初始化权重和优化过程学习不同特征，每个头从不同的初始状态开始，通过梯度下降优化学习任务相关的不同方面信息。Dropout和超参数调整进一步增加特征多样性，结合解耦的网络设计，提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多头注意力机制（Multi-Head Attention）是Transformer架构中的核心组件，它在自然语言处理、图像识别等领域取得了显著的成果。多头注意力机制通过将输入数据划分为多个“头”，使模型能够并行捕捉输入数据中的不同特征和模式。

这是一段MHA的代码：

# Define a multi-head attention class
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, d_k, d_v, n_head, dropout=0.1):
        super(MultiHeadAttention, self).__init__()
        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v
        self.w_qs = nn.Linear(d_model, n_head * d_k)
        self.w_ks = nn.Linear(d_model, n_head * d_k)
        self.w_vs = nn.Linear(d_model, n_head * d_v)
        self.fc = nn.Linear(n_head * d_v, d_model)
        self.attention = ScaledDotProductAttention()
        self.dropout = nn.Dropout(dropout)

    def forward(self, q, k, v, attn_mask=None):
        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, _ = q.size()
        sz_b, l

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chattyfish

关注关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【深度学习|Transformer学习】 多头自注意力机制（Multi-Head Self-Attention）解析，多头自注意力机制中的QKV分别指的是什么？各有什么作用？你知道吗？

985小水博的摸鱼日常

12-22

1901

【深度学习|Transformer学习】 多头自注意力机制（Multi-Head Self-Attention）解析，多头自注意力机制中的QKV分别指的是什么？各有什么作用？你知道吗？

自然语言处理之机器翻译：Attention Mechanism：多头注意力机制

zhubeibei168的博客

04-08

1004

多头注意力机制（Multi-Head Attention）是自然语言处理（NLP）领域中Transformer模型的关键组成部分，它通过并行使用多个注意力头，显著增强了模型捕捉不同位置间复杂依赖关系的能力。增强模型的表达能力：多头注意力允许模型从不同的表示子空间中学习注意力分布，这意味着每个头可以专注于输入的不同方面，如语法、语义或特定实体之间的关系，从而提高了模型的表达能力。并行计算效率。

参与评论您还未登录，请先登录后发表或查看评论

Transformer 02：多头注意力机制的工作原理

qq_35284513的博客

03-19

5454

本文介绍多头注意力机制的工作原理，最后附上代码示例，通过代码应用自注意力机制模块的步骤。多头注意力机制是Transformer架构中的一个关键创新，它允许模型在不同的表示子空间中并行地学习输入数据的不同方面。这种机制增加了模型的灵活性和能力，使其能够捕捉到更复杂的特征关系。多头注意力机制的核心思想是将注意力操作分拆成多个“头”，每个头独立地进行注意力计算，然后将这些计算的结果合并起来。

Transformer为什么使用多头注意力机制?

最新发布

weixin_51702416的博客

05-10

742

线性变换”是机器学习中针对数据常用的变换方式，通过线性变换可以将数据进行降维、解耦、筛选精炼等操作。而 Transformer 中的“线性变换”有着十分独特且重要的意义，它是导致 Multi-Head Attention 机制得以成功运行的根基。由浅入深，首先简要回顾一下 Q、K、V 三者之间的关系。01先举个不是 100% 贴切，但容易让我们理解的例子。

多头注意力机制

qq_51691366的博客

10-08

1万+

从多头注意力的结构图中，貌似这个所谓的多个头就是指多组线性变换，但是并不是，只使用了一组线性变换层，即三个变换张量对 Q、K、V 分别进行线性变换，这些变化不会改变原有张量的尺寸，因此每个变换矩阵都是方阵，得到输出结果后，多头的作用才开始显现，每一个头开始从词义层面分割输出的张量，也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算，但是句子中的每个词的表示只获得一部分，也就是只分割了最后一维的词嵌入向量，这就是所谓的多头，将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

多头注意力机制（Multi-Head Attention）

帆的博客

06-23

2181

多头注意力机制的引入是为了增强模型的能力，使其能够从不同的角度关注输入序列的不同部分，从而捕捉更多层次的信息。其中 (i) 表示第 (i) 个头，(\mathbf{W}_i^Q, \mathbf{W}_i^K, \mathbf{W}_i^V) 是线性变换矩阵。如果有 (h) 个头，每个头的输出维度是 (d_k)，则连接后的维度为 (h \times d_k = d_{model})。假设输入的维度是 (d_{model})，头的数量是 (h)，每个头的维度是 (d_k = d_{model} / h)。

注意力机制（四）：多头注意力

qq_51957239的博客

03-23

1万+

多头注意力（Multi-Head Attention）是注意力机制的一种扩展形式，可以在处理序列数据时更有效地提取信息。在标准的注意力机制中，我们计算一个加权的上下文向量来表示输入序列的信息。而在多头注意力中，我们使用多组注意力权重，每组权重可以学习到不同的语义信息，并且每组权重都会产生一个上下文向量。最后，这些上下文向量会被拼接起来，再通过一个线性变换得到最终的输出。

多头自注意力机制（MHSA）的工作原理与应用

m0_72410588的博客

07-11

1万+

MHSA是一种基于自注意力机制的深度学习模型，最早是由Vaswani等人在2017年提出的。它在处理输入序列时能够自动捕捉序列之间的依赖关系，从而更好地理解上下文信息并提高模型性能。

学习Transformer：自注意力与多头自注意力的原理及实现

newxuyangcao

05-15

2万+

自从Transformer[3]模型在NLP领域问世后，基于Transformer的深度学习模型性能逐渐在NLP和CV领域(Vision Transformer)取得了令人惊叹的提升。本文的主要目的是介绍经典Transformer模型和Vision Transformer的技术细节及基本原理，以方便读者在CV领域了解和使用Vision Transformer。......

注意力机制详解系列（三）：空间注意力机制

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

02-28

2万+

本篇为注意力机制系列第三篇，主要介绍注意力机制中的空间注意力机制，着重详解DCN、Non-local、ViT、DETR等模型，下一篇将对混合注意力机制和时域注意力机制进行讲解。

深入理解与编码大语言模型中的自注意力、多头注意力、交叉注意力与因果注意力

强化学习曾小健

03-26

604

现在，让我们讨论一种被广泛使用的自注意力机制——缩放点积注意力 (scaled dot-product attention)，它是 Transformer 体系结构的核心组成部分。在自注意力机制中，模型使用三个权重矩阵，分别称为Wq、Wk 和 Wv，这些矩阵在训练过程中作为模型参数进行调整。它们的作用是将输入投影到序列的查询 (query)、键 (key) 和值 (value)组件中。

多头自注意力机制

ruibowu的博客

03-17

7188

本文为《Attention Is All You Need》精读中的一个拓展论文- 《Attention Is All You Need》为了学到多重语意含义的表达，进行多头注意力机制的运算。不要被这个多头注意力给吓住，其实这里面就是用到了几个矩阵运算，先不用管怎么运算的，我...

多头注意力机制的理解

热门推荐

ningyanggege的博客

05-04

9万+

先来看图：从图片中可以看出VK Q是固定的单个值，而Linear层有3个，Scaled Dot-Product Attention有3个，即3个多头；最后cancat在一起，然后Linear层转换变成一个和单头一样的输出值；类似于集成；多头和单头的区别在于复制多个单头，但权重系数肯定是不一样的；类比于一个神经网络模型与多个一样的神经网络模型，但由于初始化不一样，会导致权重不一样，然后...

算法面试之transformer的Attention和多头自注意力机制

持续战斗状态的博客

04-02

6535

1.Attention CNN CNN的卷积操作可以提取重要特征，我觉得这也算是Attention的思想，但是CNN的卷积感受视野是局部的，需要通过叠加多层卷积区去扩大视野，然而实际情况是CNN做NLP问题就是做不深，做到2到3层卷积层就做不上去了；另外，Max Pooling直接提取数值最大的特征，也像是hard attention的思想，直接选中某个特征。Max Pooling的操作逻辑是：从一个卷积核获得的特征向量里只选中并保留最强的那一个特征，所以到了Pooling层，位置信息就被扔掉了。 RNN

动手学深度学习（五十）——多头注意力机制

Liu Feng's Blog

02-21

8万+

文章目录1. 为什么用多头注意力机制2. 什么是多头注意力机制3. 多头注意力机制模型和理论计算4. 动手实现多头注意力机制层小结练习 1. 为什么用多头注意力机制 所谓自注意力机制就是通过某种运算来直接计算得到句子在编码过程中每个位置上的注意力权重；然后再以权重和的形式来计算得到整个句子的隐含向量表示。自注意力机制的缺陷就是：模型在对当前位置的信息进行编码时，会过度的将注意力集中于自身的位置，因此作者提出了通过多头注意力机制来解决这一问题。 2. 什么是多头注意力机制 在实践中，当给定

Multi Self-Attention(多头自注意力机制）

qq_72354549的博客

06-03

4979

一下是我对李宏毅老师-自注意力机制的总结首先看图：假设我们输入有四个向量，这四个向量是有关系的，而如果我们将self-attention这个模块拿走，那么就相当于是把这四个输入当作毫无关系的向量进行处理然后得到四个输出。所以：self-attention这个模块的作用就是将这四个输入联系起来使我们的输出与这四个输入都有关。

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

冯·诺依曼

06-09

1万+

为此，与其只使用单独一个注意力汇聚，我们可以用独立学习得到的组不同的线性投影（Linear Projections）来变换查询、键和值。然后，这组变换后的查询、键和值将并行地送到注意力汇聚中。最后，将这个注意力汇聚的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出。在实践中，当给定相同的查询、键和值的集合时，我们希望模型可以基于相同的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来，捕获序列内各种范围的依赖关系（例如，短距离依赖和长距离依赖关系）。

transformer中的多头注意力机制

scu-liu的博客

04-14

1万+

本文为《Attention Is All You Need》精读中的一个拓展论文- 《Attention Is All You Need》为了学到多重语意含义的表达，进行多头注意力机制的运算。不要被这个多头注意力给吓住，其实这里面就是用到了几个矩阵运算，先不用管怎么运算的，我们先宏观看一下这个注意力机制到底在做什么？拿单头注意力机制举例：左边的红框就是我们现在讲的部分，右图就是单头注意力机制做的事情，拿句子： The animal didn’t cross the street, because

transformer中，多头注意力机制

weixin_49146002的博客

04-23

442

多头注意力机制之所以在自注意力机制中使用，是因为自注意力机制需要在序列中建立全局的依赖关系，而多头注意力机制能够帮助模型捕捉到不同位置之间的不同关系，从而更好地理解输入序列的结构和语义信息。具体来说，自注意力机制通过计算每个位置与序列中所有其他位置的注意力权重，然后将这些权重与相应位置的表示进行加权求和，从而生成每个位置的上下文相关表示。而多头注意力机制则在自注意力机制中并行计算多个注意力头的输出，然后将它们连接起来，最后经过线性变换得到最终的输出。

如何在TensorFlow中实现Transformer模型的多头注意力机制？请提供具体的代码实现和步骤解析。

11-09