【NLP】多头注意力（Multi-Head Attention）的概念解析

最新推荐文章于 2025-05-24 14:30:00 发布

原创

最新推荐文章于 2025-05-24 14:30:00 发布 · 1.1w 阅读

53 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #transformer #机器翻译 #语言模型

文章详细介绍了多头注意力在Transformer模型中的作用，包括如何通过并行处理多个独立头来捕捉复杂依赖关系，以及为何使用多个头以增强学习能力。重点讨论了多头自注意力在自参照序列处理中的优势和区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一. 多头注意力

多头注意力（Multi-Head Attention）是一种在Transformer模型中被广泛采用的注意力机制扩展形式，它通过并行地运行多个独立的注意力机制来获取输入序列的不同子空间的注意力分布，从而更全面地捕获序列中潜在的多种语义关联。
多头注意力机制结构
在多头注意力中，输入序列首先通过三个不同的线性变换层分别得到Query、Key和Value。然后，这些变换后的向量被划分为若干个“头”，每个头都有自己独立的Query、Key和Value矩阵。对于每个头，都执行一次Scaled Dot-Product Attention（缩放点积注意力）运算，即：
$Softmax(\frac{Q\cdot K^T}{\sqrt{d_k}})\cdot V$