MultiHeadAttention多头注意力机制的原理

最新推荐文章于 2025-04-22 14:00:39 发布

tostq

最新推荐文章于 2025-04-22 14:00:39 发布

阅读量2.6w

点赞数 18

分类专栏：深度学习机器学习文章标签：机器学习深度学习人工智能 nlp

本文链接：https://blog.csdn.net/tostq/article/details/130156696

版权

MultiHeadAttention多头注意力作为Transformer的核心组件，其主要由多组自注意力组合构成。

1. self-Attention自注意力机制

在NLP任务中，自注意力能够根据上下文词来重新构建目标词的表示，其之所以被称之为注意力，在于从上下文词中去筛选目标词更需要关注的部分，比如"他叫小明"，"他"这个词更应该关注"小明"这个上下文。

上图提示了一个输入为两个单词[Thinking, Matchines]的序列在经过自注意力构建后的变换过程：

通过Embeding层，两个单词的one-hot向量转换为embedding向量X=[x1, x2]
通过三组矩阵运算得到query、key、value值，这三组矩阵的输入都是原来同一个输入向量[x1,x2]，这也是被称之为自注意力的原因。

$\\ Q=\begin{bmatrix} q_1\\ q_2 \end{bmatrix}_{2\times d_q}=\begin{bmatrix} x_1\\ x_2 \end{bmatrix}_{2\times d_x} *W^Q_{d_x \times d_q}\\ K=\begin{bmatrix} k_1\\ k_2 \end{bmatrix}_{2\times d_k}=\begin{bmatrix} x_1\\ x_2 \end{bmatrix}_{2\times d_x} *W^K_{d_x \times d_k}\\ V=\begin{bmatrix} v_1\\ v_2 \end{bmatrix}_{2\times d_v}=\begin{bmatrix} x_1\\ x_2 \end{bmatrix}_{2\times d_x} *W^K_{d_x \times d_v}$

计算query、key间的相似度得分，为了提升计算效率，此处采用缩放点积注意力，其需要query、key向量的维度是相等的，并且都满足零均值和单位方差，此时得分表示：

$\\ score(q, k)=\frac{q\cdot k }{\sqrt{d_k}}\\ Score(Q, K)_{2\times 2}=\begin{bmatrix} s_{11} & s_{12}\\ s_{21} & s_{22}\end{bmatrix}_{2 \times 2}=\frac{1}{\sqrt{d_k}}\begin{bmatrix} q1 && q1\\ q2 && q2 \end{bmatrix}_{2\times d_q}\begin{bmatrix} k1 & k2 \\ k1 & k2 \end{bmatrix}_{d_q \times 2}$