机器学习常识 24: 自注意力机制

闵帆

已于 2024-05-11 09:00:45 修改

阅读量338

点赞数 2

分类专栏：机器学习常识文章标签：深度学习 transformer 自然语言处理

于 2023-06-24 10:25:21 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/131357476

版权

机器学习常识专栏收录该内容

25 篇文章 38 订阅

订阅专栏

文章介绍了自注意力机制的概念，其灵感来源于人类阅读时并非逐字阅读，而是抓取关键信息。通过word2vec将单词编码，计算Query、Key和Value，然后通过softmax进行归一化，形成自注意力编码。多头注意力则可以提取不同特征，提高模型的表现。该机制在处理序列数据，如机器翻译任务中，展示了高效性和并行计算的优势。

摘要由CSDN通过智能技术生成

摘要: 自注意力机制来源与我们人类对事物的观察方式.

两篇参考贴:

1. 启示

例 1: 研表究明, 汉字的序顺并不定一能影阅响读, 比如当你看完这句话后, 才发这现里的字全都是乱的.
从这个例子表明, 人类在阅读句子的时候, 并不是逐个字地阅读, 而是扫描一遍, 抓住重点. 换言之, 做机器翻译时, RNN, LSTM 重点考虑单词的前后关系, 这并不一定是必要的.

2. 自注意力编码过程

图 1 展示了基本结构.

图 3. Self-attention 基本结构.

分为 5 个步骤:

2.1 准备输入

使用预先获得的编码方案, 利用 word2vec 将每个单词编码为一个固定长度 (如 $d_v = 520$ ) 的词向量. 现假设有 $n$ 个单词, 获得 $\mathbf{x}_1, \dots, \mathbf{x}_n$ .
这里, word2vec 要考虑单词之间的相似性.

2.2 计算 Query, Key 和 Value

$\mathbf{q}_i = \mathbf{x}_i \mathbf{W}_Q; \tag{1}$
$\mathbf{k}_i = \mathbf{x}_i \mathbf{W}_K; \tag{2}$
$\mathbf{v}_i = \mathbf{x}_i \mathbf{W}_V; \tag{3}$
其中, 三个 $\mathbf{W}$ 是需要学习的权重矩阵, 相当于 MLP 的全连接层的权重矩阵. $\mathbf{W}_Q$ 和 $\mathbf{W}_K$ 的维度均为 $d_v \times d_k$ , $\mathbf{W}_V$ 的维度为 $d_v \times d_x$ , $d_x$ 是 Self-attention 编码后的长度.
$i$ 取 $1$ 到 $n$ , 然后将向量组成行数为 $n$ 的矩阵 $\mathbf{Q}$ , $\mathbf{K}$ , $\mathbf{V}$ .

2.3 计算 score

第 $i$ 个单词 (作为查询者) 与第 $j$ 个单词 (由键值表示) 的相关性:
$\mathrm{score}(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{q}_i \cdot \mathbf{k}_i, \tag{4}$
其中 $\cdot$ 表示内积. 由于是输入与输入自己计算, 所以称为 自注意力.
将 $n$ 个单词对应的运算表示为矩阵运算:
$\mathbf{Q} \mathbf{K}^{\mathsf{T}}. \tag{5}$
它是一个 $\times n$ 的单词相关性矩阵.

2.4 scale

将 score 除以一个常数 ( $d_k = 64$ 时就除以 $8$ ), 避免太大.

2.5 mask (可选)

2.6 softmax

由于每行表示一个查询单词, 这一行的第 $j$ 列表示第 $j$ 个单词对其影响, 因此将 (5) 式的每行通过 softmax, 归一化的同时强调最大的分数.

2.7 编码加权和, 获得自注意力编码

总体式子为:
$\mathrm{Attention}(Q, K, V) = \mathrm{softmax\left(\frac{\mathbf{Q} \mathbf{K}^{\mathsf{T}}}{\sqrt{d_k}}\right)} \mathbf{V}.\tag{6}$
最终获得一个 $\times d_x$ 的矩阵, 即每个单词的编码为 $\times d_x$ 向量.