多头注意力最后每个头生成的矩阵是拼在一起吗

最新推荐文章于 2024-07-30 11:00:20 发布

six.学长

最新推荐文章于 2024-07-30 11:00:20 发布

阅读量706

点赞数 14

分类专栏：深度学习 informer Transformer 文章标签：矩阵机器学习深度学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/139853040

版权

63 篇文章 0 订阅

订阅专栏

39 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

多头注意力机制（Multi-Head Attention）中的每个头生成的矩阵通常会在最后拼接（concatenate）在一起，然后再通过一个线性变换来生成最终的输出。这是多头注意力机制的核心操作之一，允许模型从不同的子空间中提取和聚合信息。以下是详细解释：

输入嵌入向量分解：
- 给定输入嵌入向量 $X$ （维度为 $seq_len × d model \text{seq\_len} \times d_{\text{model}}$ ，其中 $seq_len \text{seq\_len}$ 是序列长度， $d_{\text{model}}$ 是嵌入向量维度）。
- 这些输入嵌入向量会被投影到不同的子空间。假设有 $h$ 个头，每个头的维度为 $d_k$ ，通常 $d_k = \frac{d_{\text{model}}}{h}$ 。
线性变换和注意力计算：
- 对每个头 $i$ ，应用不同的线性变换得到查询（query）、键（key）和值（value）矩阵：
  $
  Q_i = XW_i^Q, \quad K_i = XW_i^K, \quad V_i = XW_i^V
  $
  其中， $W_i^Q$ 、 $W_i^K$ 、 $W_i^V$ 是头 $i$ 的线性变换矩阵。
- 计算注意力分数并生成注意力输出：
  $\text{Attention}_i = \text{softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right) V_i$
拼接和线性变换：
- 将所有头的注意力输出拼接在一起，形成一个大的矩阵：
  $\text{Concat}(\text{Attention}_1, \text{Attention}_2, \ldots, \text{Attention}_h)$
  这个拼接后的矩阵维度为 $seq_len × ( h × d k ) \text{seq\_len} \times (h \times d_k)$ 。
- 通过一个线性变换将拼接后的矩阵映射回 $d_{\text{model}}$ 维度的向量空间：
  $\text{MultiHead}(Q, K, V) = \text{Concat}(\text{Attention}_1, \text{Attention}_2, \ldots, \text{Attention}_h) W^O$
  其中， $W^O$ 是用于将拼接后的矩阵转换回原始维度的线性变换矩阵。

多头注意力机制允许模型在不同的子空间中并行计算注意力，从而捕捉到输入序列中不同的特征和关系。通过拼接每个头的注意力输出并进行线性变换，模型可以综合来自不同注意力头的信息，生成更加丰富和全面的表示。

假设我们有一个输入嵌入矩阵 $X$ ：

$seq_len ] X = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_{\text{seq\_len}} \end{bmatrix}$

每个 $x_i$ 是一个 $d_{\text{model}}$ 维度的向量。如果我们有 8 个注意力头，每个头的维度是 $d_k = \frac{d_{\text{model}}}{8}$ ，则具体步骤如下：

线性变换：
- 对每个头 $i$ ，计算 $Q_i, K_i, V_i$ 。
注意力计算：
- 计算每个头的注意力输出 $\text{Attention}_i$ 。
拼接：
- 拼接所有头的注意力输出：
  $\text{Concat}(\text{Attention}_1, \text{Attention}_2, \ldots, \text{Attention}_8)$
  得到一个 $seq_len × ( 8 × d k ) \text{seq\_len} \times (8 \times d_k)$ 的矩阵。
线性变换：
- 通过线性变换矩阵 $W^O$ 将拼接后的矩阵映射回 $d_{\text{model}}$ 维度。

多头注意力机制中的每个头生成的注意力输出矩阵是拼接在一起的，然后通过一个线性变换生成最终的输出。这种机制允许模型在多个子空间中并行计算注意力，从而捕捉到更丰富和多样的特征，提高模型的表示能力和性能。

关注

专栏目录