【ShuQiHere】语言处理的两次飞跃（下）：自注意力机制的未来

ShuQiHere

已于 2024-08-26 01:13:11 修改

阅读量629

点赞数 16

分类专栏：【ShuQiHere】数据骑士的机器学习之旅文章标签：机器学习算法深度学习

于 2024-08-26 01:04:56 首次发布

本文链接：https://blog.csdn.net/wangshuqi666/article/details/141537720

版权

【ShuQiHere】数据骑士的机器学习之旅专栏收录该内容

26 篇文章 1 订阅

订阅专栏

【ShuQiHere】

在上一篇文章中，我们探讨了Seq2Seq模型如何在序列到序列任务中取得显著的突破，但同时也面临了一些局限性，如信息压缩和长距离依赖问题。为了解决这些问题，自注意力机制应运而生。通过引入动态关注机制，自注意力极大地提升了模型的灵活性和性能，并为更复杂的模型（如Transformer）奠定了基础。在本文中，我们将深入探讨自注意力机制的工作原理，特别是其背后的矩阵运算，并通过具体的例子来详细说明这些概念。

1. 注意力机制中的矩阵表示

在深度学习模型中，输入的文本或序列通常被转换为向量或矩阵表示，使得模型能够利用矩阵运算来处理这些数据。

1.1 输入序列的向量化

假设我们有一个简单的英文句子：“The cat is on the mat.”，我们需要将这个句子转换为向量表示。通常，通过词嵌入技术（如Word2Vec或GloVe），我们可以将每个单词转换为一个向量。例如，“cat”的词向量 (\mathbf{v}_{cat}) 可以表示为一个n维向量：

[
$\mathbf{v}_{cat} = \begin{bmatrix} 0.1 \\ 0.3 \\ 0.5 \\ \dots \\ 0.2 \end{bmatrix}$
]

对句子中的每个单词进行相同的操作后，我们可以得到一个向量序列，用来表示整个句子。整个句子的向量表示可以写成一个矩阵：

[
$\mathbf{X} = \begin{bmatrix} \mathbf{v}_{The} \\ \mathbf{v}_{cat} \\ \mathbf{v}_{is} \\ \mathbf{v}_{on} \\ \mathbf{v}_{the} \\ \mathbf{v}_{mat} \end{bmatrix}$
]

假设每个词向量的维度为4，向量矩阵 (\mathbf{X}) 可以具体表示为：

[
$\mathbf{X} = \begin{bmatrix} 0.1 & 0.2 & 0.3 & 0.4 \\ 0.5 & 0.1 & 0.7 & 0.6 \\ 0.4 & 0.8 & 0.9 & 0.2 \\ 0.6 & 0.3 & 0.1 & 0.5 \\ 0.1 & 0.7 & 0.4 & 0.3 \\ 0.2 & 0.9 & 0.5 & 0.4 \end{bmatrix}$
]

2. 查询、键和值的向量表示

在注意力机制中，每个输入向量（如 (\mathbf{v}_{cat}) ）都会被映射成查询向量（Query）、键向量（Key）和值向量（Value）。这些向量用于计算注意力得分，并最终生成输出。

2.1 查询、键和值的计算公式

查询向量（Query）的生成公式为：

[
$\mathbf{Q} = \mathbf{X} \mathbf{W}^Q$
]

键向量（Key）的生成公式为：

[
$\mathbf{K} = \mathbf{X} \mathbf{W}^K$
]

值向量（Value）的生成公式为：

[
$\mathbf{V} = \mathbf{X} \mathbf{W}^V$
]

其中：

(\mathbf{X}) 是输入词向量（如 (\mathbf{v}_{cat})）。
(\mathbf{W}^{Q)、(\mathbf{W}}K) 和 (\mathbf{W}^V) 是可训练的权重矩阵，用于生成查询、键和值向量。

2.2 查询、键和值的矩阵表示

假设输入序列有 (T) 个词，每个词用 (n) 维向量表示，那么输入序列可以表示为 (T \times n) 的矩阵 (\mathbf{X})：

[
$\mathbf{X} = \begin{bmatrix} \mathbf{v}_{The} \\ \mathbf{v}_{cat} \\ \mathbf{v}_{is} \\ \dots \\ \mathbf{v}_{mat} \end{bmatrix}$
]

对于权重矩阵 (\mathbf{W}^Q)（大小为 (n \times d_k)），我们可以通过矩阵乘法生成查询矩阵 (\mathbf{Q})（大小为 (T \times d_k)）：

[
$\mathbf{Q} = \mathbf{X} \mathbf{W}^Q$
]

例如，如果 (\mathbf{W}^Q) 的维度为 (4 \times 3)，假设其具体值为：

[
$\mathbf{W}^Q = \begin{bmatrix} 0.2 & 0.3 & 0.5 \\ 0.6 & 0.1 & 0.4 \\ 0.3 & 0.2 & 0.7 \\ 0.5 & 0.4 & 0.1 \end{bmatrix}$
]

则查询矩阵 (\mathbf{Q}) 为：

[
$$
\mathbf{Q} = \mathbf{X} \mathbf{W}^Q = \begin{bmatrix}
0.1 & 0.2 & 0.3 & 0.4 \
0.5 & 0.1 & 0.7 & 0.6 \
0.4 & 0.8 & 0.9 & 0.2 \
0.6 & 0.3 & 0.1 & 0.5 \
0.1 & 0.7 & 0.4 & 0.3 \
0.2 & 0.9 & 0.5 & 0.4
\end{bmatrix}
\begin{bmatrix}
0.2 & 0.3 & 0.5 \
0.6 & 0.1 & 0.4 \
0.3 & 0.2 & 0.7 \
0.5 & 0.4 & 0.1
\end{bmatrix}

\begin{bmatrix}
0.41 & 0.27 & 0.38 \
0.73 & 0.52 & 0.83 \
0.73 & 0.43 & 0.71 \
0.64 & 0.46 & 0.69 \
0.52 & 0.25 & 0.44 \
0.73 & 0.47 & 0.71
\end{bmatrix}
$$
]

同样地，可以得到键矩阵 (\mathbf{K}) 和值矩阵 (\mathbf{V})。

3. 计算注意力得分（Attention Scores）

为了计算注意力得分，我们将查询矩阵 (\mathbf{Q}) 与键矩阵 (\mathbf{K}) 进行点积操作。这个点积表示查询向量与每个键向量之间的相似度：

[
$\text{Attention Scores} = \mathbf{Q} \cdot \mathbf{K}^T$
]

假设键矩阵 (\mathbf{K}) 为：

[
$\mathbf{K} = \begin{bmatrix} 0.2 & 0.1 & 0.7 \\ 0.6 & 0.9 & 0.4 \\ 0.3 & 0.8 & 0.5 \end{bmatrix}$
]

则注意力得分为：

[
$\text{Attention Scores} = \mathbf{Q} \cdot \mathbf{K}^T = \begin{bmatrix} 0.41 & 0.27 & 0.38 \\ 0.73 & 0.52 & 0.83 \end{bmatrix} \cdot \begin{bmatrix} 0.2 & 0.6 & 0.3 \\ 0.1 & 0.9 & 0.8 \\ 0.7 & 0.4 & 0.5 \end{bmatrix}^T = \begin{bmatrix} 0.41 \times 0.2 + 0.27 \times 0.1 + 0.38 \times 0.7 \\ 0.73 \times 0.6 + 0.52 \times 0.9 + 0.83 \times 0.4 \end{bmatrix} = \begin{bmatrix} 0.405 \\ 0.998 \end{bmatrix}$
]

4. 缩放与Softmax归一化

为了防止点积结果过大导致梯度消失或爆炸，我们将其进行缩

放，并使用Softmax函数进行归一化：

[
$\text{Scaled Scores} = \frac{\text{Attention Scores}}{\sqrt{d_k}}$
]

假设 (d_k = 3)，那么缩放后的得分为：

[
$\text{Scaled Scores} = \frac{\begin{bmatrix} 0.405 \\ 0.998 \end{bmatrix}}{\sqrt{3}} = \begin{bmatrix} 0.234 \\ 0.576 \end{bmatrix}$
]

接下来，我们应用Softmax函数，得到注意力权重矩阵：

[
$\text{Attention Weights} = \text{Softmax}\left(\frac{\mathbf{Q} \cdot \mathbf{K}^T}{\sqrt{d_k}}\right)$
]

通过Softmax归一化后，得到的注意力权重矩阵为：

[
$\text{Attention Weights} = \begin{bmatrix} 0.415 \\ 0.585 \end{bmatrix}$
]

5. 加权求和值向量

最后，用注意力权重矩阵对值矩阵 (\mathbf{V}) 进行加权求和，得到最终的输出：

[
$\text{Output} = \text{Attention Weights} \cdot \mathbf{V}$
]

假设值矩阵 (\mathbf{V}) 为：

[
$\mathbf{V} = \begin{bmatrix} 0.1 & 0.2 & 0.3 \\ 0.4 & 0.5 & 0.6 \end{bmatrix}$
]

加权求和后的输出为：

[
$\text{Output} = \begin{bmatrix} 0.415 \\ 0.585 \end{bmatrix} \cdot \begin{bmatrix} 0.1 & 0.2 & 0.3 \\ 0.4 & 0.5 & 0.6 \end{bmatrix} = \begin{bmatrix} 0.415 \times 0.1 + 0.585 \times 0.4 \\ 0.415 \times 0.2 + 0.585 \times 0.5 \\ 0.415 \times 0.3 + 0.585 \times 0.6 \end{bmatrix} = \begin{bmatrix} 0.324 \\ 0.467 \\ 0.610 \end{bmatrix}$
]

输出矩阵的大小是 (T \times d_v)，其中 (d_v) 是值向量的维度。

6. 形象的理解

让我们通过书本的类比来形象地理解自注意力机制：

查询（Query）：问题“主角做了什么？”被表示为一个向量，它与书中的每个段落（键）进行对比。
键（Key）：每个段落的主题被表示为键向量，与查询向量进行比较。
值（Value）：段落的内容被表示为值向量。

通过计算查询与键的相似度，注意力机制决定了哪些段落是最重要的，并将注意力集中在这些段落上，从中提取出有用的信息。

7. 自注意力的优势

自注意力机制相比传统的RNN或Seq2Seq模型具有显著的优势：

并行计算：由于自注意力机制不依赖于序列顺序，可以并行处理输入序列，从而大幅提高计算效率。
长距离依赖处理：自注意力机制通过直接计算查询与键的相似度，可以更好地捕捉输入序列中的长距离依赖关系。
灵活性：自注意力机制能够根据当前查询的上下文动态调整关注的内容，从而更灵活地处理不同类型的输入。

结论

在本文中，我们深入探讨了自注意力机制中的矩阵表示及其计算过程。通过这种机制，模型能够在生成每个输出时，动态地关注输入序列中的不同部分，从而实现更灵活、更精确的处理。自注意力机制的引入，不仅解决了Seq2Seq模型的诸多问题，还为更复杂的模型（如Transformer）奠定了基础。如果你有任何问题或想进一步了解，请随时与我们交流！

ShuQiHere

关注

16
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录