详细说明自注意力机制的输出向量如何反映输入序列中每个元素的上下文信息和重要性

最新推荐文章于 2024-08-20 18:45:43 发布

six.学长

最新推荐文章于 2024-08-20 18:45:43 发布

阅读量551

点赞数 17

分类专栏：机器学习深度学习文章标签：线性代数机器学习人工智能

本文链接：https://blog.csdn.net/m0_51200050/article/details/139879209

版权

深度学习同时被 2 个专栏收录

63 篇文章 0 订阅

订阅专栏

机器学习

31 篇文章 0 订阅

订阅专栏

让我们通过一个具体的例子来详细说明自注意力机制的输出向量如何反映输入序列中每个元素的上下文信息和重要性。

示例设置

假设我们有一个简单的输入序列 $X$ ，包含三个词（元素），每个词表示为一个2维向量：

$\begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix}$

我们将使用自注意力机制来计算这个序列的上下文表示。

计算查询、键和值向量

假设权重矩阵 $W_Q$ 、 $W_K$ 和 $W_V$ 均为单位矩阵：

$W_Q = W_K = W_V = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$

这样，查询向量 $Q$ 、键向量 $K$ 和值向量 $V$ 都等于输入向量 $X$ ：

$XW_Q = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix}$

$XW_K = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix}$

$XW_V = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix}$

计算注意力分数

计算查询向量 $Q$ 和键向量 $K$ 的点积并缩放：

$\frac{QK^T}{\sqrt{2}} = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 1 & 1 & 2 \end{bmatrix}$

应用Softmax函数

对注意力分数矩阵的每一行应用Softmax函数：

$\text{softmax}\left(\frac{QK^T}{\sqrt{2}}\right)$

假设Softmax计算结果如下：

$\begin{bmatrix} 0.4 & 0.2 & 0.4 \\ 0.2 & 0.4 & 0.4 \\ 0.3 & 0.3 & 0.4 \end{bmatrix}$

计算加权求和值矩阵

用注意力权重矩阵 $A$ 对值矩阵 $V$ 进行加权求和，得到输出向量：

$\text{Output} = AV = \begin{bmatrix} 0.4 & 0.2 & 0.4 \\ 0.2 & 0.4 & 0.4 \\ 0.3 & 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix} = \begin{bmatrix} 0.8 & 0.6 \\ 0.6 & 0.8 \\ 0.7 & 0.7 \end{bmatrix}$

分析输出向量的含义

第一个输出向量 $[0.8, 0.6]$ ：
这个向量综合了输入序列中第一个元素与其他所有元素（包括自身）的信息。
- 0.4 (自身): 表示第一个元素对自己的注意力权重。
- 0.2 (第二个元素): 表示第一个元素对第二个元素的注意力权重。
- 0.4 (第三个元素): 表示第一个元素对第三个元素的注意力权重。
加权求和计算得到的输出向量表示了第一个元素在整个输入序列中的上下文信息。具体来说：

$\text{第一个输出向量} = 0.4 \cdot [1, 0] + 0.2 \cdot [0, 1] + 0.4 \cdot [1, 1] = [0.8, 0.6]$

这意味着第一个输出向量不仅包含了第一个元素的原始信息，还结合了第二个和第三个元素的信息。这个向量反映了第一个元素在当前上下文中的重要性和相关性。

第二个输出向量 $[0.6, 0.8]$ ：
类似地，第二个输出向量综合了第二个元素与其他所有元素（包括自身）的信息。
- 0.2 (第一个元素): 表示第二个元素对第一个元素的注意力权重。
- 0.4 (自身): 表示第二个元素对自己的注意力权重。
- 0.4 (第三个元素): 表示第二个元素对第三个元素的注意力权重。
加权求和计算得到的输出向量表示了第二个元素在整个输入序列中的上下文信息：

$\text{第二个输出向量} = 0.2 \cdot [1, 0] + 0.4 \cdot [0, 1] + 0.4 \cdot [1, 1] = [0.6, 0.8]$

第三个输出向量 $[0.7, 0.7]$ ：
第三个输出向量综合了第三个元素与其他所有元素（包括自身）的信息。
- 0.3 (第一个元素): 表示第三个元素对第一个元素的注意力权重。
- 0.3 (第二个元素): 表示第三个元素对第二个元素的注意力权重。
- 0.4 (自身): 表示第三个元素对自己的注意力权重。
加权求和计算得到的输出向量表示了第三个元素在整个输入序列中的上下文信息：

$\text{第三个输出向量} = 0.3 \cdot [1, 0] + 0.3 \cdot [0, 1] + 0.4 \cdot [1, 1] = [0.7, 0.7]$

详细计算过程

第一个注意力权重和第一个值向量的加权求和：
$0.4 \cdot [1, 0] = [0.4 \cdot 1, 0.4 \cdot 0] = [0.4, 0]$
第二个注意力权重和第二个值向量的加权求和：
$0.2 \cdot [0, 1] = [0.2 \cdot 0, 0.2 \cdot 1] = [0, 0.2]$
第三个注意力权重和第三个值向量的加权求和：
$0.4 \cdot [1, 1] = [0.4 \cdot 1, 0.4 \cdot 1] = [0.4, 0.4]$
将上述结果相加：
$[0.4, 0] + [0, 0.2] + [0.4, 0.4] = [0.4 + 0 + 0.4, 0 + 0.2 + 0.4] = [0.8, 0.6]$

解释输出向量的含义

第一个输出向量 $[0.8, 0.6]$ ：
- 这个向量是通过加权求和得到的，每个权重反映了输入序列中对应元素对第一个输入元素的重要性。
  - $0.4$ 表示第一个输入元素对自己的权重（自身重要性）。
  - $0.2$ 表示第一个输入元素对第二个输入元素的权重。
  - $0.4$ 表示第一个输入元素对第三个输入元素的权重。
最终的输出向量不仅包含了第一个输入元素的原始信息（因为第一个元素的权重是 $0.4$ ），还结合了第二个和第三个输入元素的信息（它们的权重分别是 $0.2$ 和 $0.4$ ）。因此，这个向量综合了整个输入序列的上下文信息。