自注意力计算举例_自注意力并行计算例题-CSDN博客

本文链接：https://blog.csdn.net/W976277/article/details/132677459

博客围绕输入序列的自注意力计算展开。给定含4个单词、隐藏表示维度为3的输入序列，介绍了查询、键、值向量及其维度，通过将这些向量分别乘以权重矩阵进行线性变换，计算查询、键、值线性变换结果，再经点积和softmax归一化得到自注意力权重，最终与值线性变换结果相乘得出输出。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假设我们有一个输入序列，其中包含4个单词，每个单词的隐藏表示维度为3。现在我们要计算这个输入序列的自注意力。

首先，我们有以下参数：

查询向量（query）：维度为3
键向量（key）：维度为3
值向量（value）：维度为3

假设输入序列的隐藏表示如下：

Copy Code

输入序列 = [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]

接下来，我们将查询向量、键向量和值向量分别乘以权重矩阵进行线性变换。假设权重矩阵如下：

Copy Code

WQ = [[0.5, 0.3, 0.2], [0.1, 0.7, 0.4], [0.6, 0.2, 0.9]] WK = [[0.8, 0.6, 0.3], [0.2, 0.9, 0.5], [0.7, 0.1, 0.4]] WV = [[0.9, 0.2, 0.7], [0.3, 0.5, 0.1], [0.6, 0.8, 0.4]]

计算查询线性变换结果：

Copy Code

查询线性变换 = 输入序列 × WQ = [[1, 2, 3], [[0.5, 0.3, 0.2], [4, 5, 6], × [0.1, 0.7, 0.4], [7, 8, 9], [0.6, 0.2, 0.9], [10, 11, 12]] [0.6, 0.2, 0.9]] = [[2.3, 2.1, 3.7], [5.7, 5.6, 8.8], [9.1, 9.1, 14.1], [12.5, 13.1, 19.5]]

计算键线性变换结果：

Copy Code

键线性变换 = 输入序列 × WK = [[1, 2, 3], [[0.8, 0.6, 0.3], [4, 5, 6], × [0.2, 0.9, 0.5], [7, 8, 9], [0.7, 0.1, 0.4], [10, 11, 12]] [0.7, 0.1, 0.4]] = [[4.5, 3.1, 2.6], [12.6, 8.4, 7.2], [20.7, 13.7, 11.8], [28.8, 19.0, 16.4]]

计算值线性变换结果：

Copy Code

值线性变换 = 输入序列 × WV = [[1, 2, 3], [[0.9, 0.2, 0.7], [4, 5, 6], × [0.3, 0.5, 0.1], [7, 8, 9], [0.6, 0.8, 0.4], [10, 11, 12]] [0.6, 0.8, 0.4]] = [[4.3, 5.7, 2.9], [12.2, 16.0, 8.2], [20.1, 26.3, 13.5], [28.0, 36.6, 18.8]]

接着，我们计算自注意力权重。首先计算查询线性变换和键线性变换的点积，并进行softmax归一化：

Copy Code

自注意力权重 = softmax(查询线性变换 × 键线性变换转置) = softmax([[2.3, 2.1, 3.7], [5.7, 5.6, 8.8], [9.1, 9.1, 14.1], [12.5, 13.1, 19.5]] × [[4.5, 12.6, 20.7, 28.8], [3.1, 8.4, 13.7, 19.0], [2.6, 7.2, 11.8, 16.4]])

最后，将自注意力权重与值线性变换结果相乘，得到自注意力的输出：

Copy Code

自注意力输出 = 自注意力权重 × 值线性变换 = 自注意力权重 × [[4.3, 5.7, 2.9], [12.2, 16.0, 8.2], [20.1, 26.3, 13.5], [28.0, 36.6, 18.8]]