零基础学习Transformer：AttentionLayer and Self-AttentionLayer

最新推荐文章于 2024-05-11 10:07:29 发布

Poppy679

最新推荐文章于 2024-05-11 10:07:29 发布

阅读量2.8k

点赞数

文章标签： transformer 深度学习自然语言处理 attention

本文链接：https://blog.csdn.net/qq_34539676/article/details/122579998

版权

Transformer Model

Transformer是一个Seq2Seq模型，有一个encoder和一个decoder
Transformer不是RNN，没有循环的结构，只有attention和全连接层（dense layers）
实验效果好，优于RNNs

Attention for RNN

Attention for Seq2Seq Model，where are an encoder and a decoder.
在这里插入图片描述
输入m个向量，encoder将输入信息压缩到m个状态向量 $h_1,...,h_m$ 中，最后一个状态信息 $h_m$ 是对所有输入信息的一个概括。decoder是一个文本生成器，生成m个状态 $s_1,...,s_{j-1}$ ，第 $s_j$ 是第m+1个状态。
计算：将 $S_j$ 与所有encoder中的m个状态信息 $h_1,...,h_m$ 做对比，用align函数计算相关性， $\alpha_{i j}=\operatorname{align}\left(\mathbf{h}_{i}, \mathbf{s}_{j}\right)$ ，将计算结果 $\alpha_{i j}$ 作为权重。
在这里插入图片描述
$\alpha_{: j}$ 中的元素全都介于0和1之间，并且相加和为1.以上能得到m个权重。
对 $s_j$ 和 $h_i$ 做线性变换，query的作用是匹配key值，key的作用是被query匹配。通过 $q_{: j}$ 与 $K^T$ 中每个元素的匹配，得到的 $\alpha_{: j}$ 越大，则匹配程度越高。
在这里插入图片描述
其中， $W_q, W_K,W_V$ 是该层的参数，需要系统学习获得。
计算流程：

将decoder中的状态向量 $s_j$ 映射到query向量
将encoder中 $h_1,...,h_m$ 向量映射到m个key向量
用矩阵 $K$ 与 $q$ 计算出m维的权重向量 $\alpha_{: j}$ ，向量 $\alpha_{: j}$ 中元素分别是 $\alpha_{1 j},\alpha_{2 j},...,\alpha_{m j}$ ，每一个元素都对应一个 $h$ 。
计算value向量 $v_{: i}$ ，encoder的第i个状态向量 $h_i$ 与参数矩阵 $W_v$ ，对m个状态向量都做这样的变化，得到m个value值 $v_1,v_2,...,v_m$ 。每一个value向量都对应一个 $h$
m个 $\alpha$ 做权重，对m个value向量做加权平均，并将结果作为新的context向量 $c_j$ 。计算公式： $\mathrm{c}_{j}=\alpha_{1 j} \mathbf{v}_{: 1}+\cdots+\alpha_{m j} \mathbf{v}_{: m}$

Attention without RNN

剥离RNN就可以得到attention层和self-attention层。
首先考虑基于Seq2Seq的模型，这样的模型有一个编码器和一个解码器。举个例子：想要把英语翻译成德语。那么英语单词就是encoder的输入序列 $x_1,x_2,...,x_m$ ，decoder依次生成德语单词作为下一轮decoder的输入序列 $x'_1,x'_2,...,x'_t$ ，接下来新生成的德语单词会成为第t+1个输入。
在这里插入图片描述
如果不用RNN，只考虑attention。首先利用encoder的输入 $x_1,x_2,...,x_m$ 来计算key和value向量，于是 $x_1$ 就被映射成了 $k_{:1}$ 和 $v_{: 1}$ …由此得到m个k和m个v向量。
接着将decoder的输入向量 $x'_1,x'_2,...,x'_t$ 做线性变换，将其映射道query向量 $q_{: j}$
在这里插入图片描述
接着计算权重。将 $q_{: 1}$ 与m个k向量做对比（比较相关性），计算出权重 $\alpha$ ，公式： $\alpha_{: 1}=\operatorname{Softmax}\left(\mathbf{K}^{T} \mathbf{q}_{: 1}\right) \in \mathbb{R}^{m}$

然后计算context向量 $c_{: 1}$ ，需要用到权重向量 $\alpha_{: 1}$ 以及所有 $v_{: m}$ 。 $c_{: 1}$ 就是m个v向量的加权平均。
在这里插入图片描述
第二个权重向量和context向量和之前计算方式相同，由此就可以计算出所有context向量 $c_{: j}$ 。每个c对应一个decoder的输入 $x^{'}$ 。decoder中有t个向量，则会计算出t个c值，这些c就是attention layer的输出，用 $C$ 表示。
在这里插入图片描述
回到之前英语翻译德语的例子，m个英语单词输入encoder，然后由decoder来依次产生德语单词。第2个context向量 $c_{: 2}$ 可以通过key和value向量看到所有的英语单词，即 $x_1,x_2,...,x_m$ ，同时还能看到 $x'_2$ ，即当前输入的德语单词。此时可以将 $c_2$ 作为一个特征向量输入到softmax分类器，来计算概率分布 $p_2$ ，然后通过 $p_2$ 抽样得出第三个德语单词,编码成 $x'_3$ ，作为下一轮的输入（decoder）。
在这里插入图片描述 attention layer替代RNN，优势：不会遗忘。attention层的输入是 $X$ 和 $X^{'}$ ，输出是 $c_1,c_2,...,c_t$ ，每一个 $c$ 向量对应一个 $x^{'}$ 向量.

在这里插入图片描述

Self-attention without RNN

Attention层用于Seq2Seq有两个输入序列。Self-Attention不是seq2seq，只有一个输入序列。类似普通RNN。self-attention层的输入是两个相同的 $X$ 序列，一个 $c$ 向量都对应一个 $x$ 向量，但 $c_i$ 不止依赖于 $x_i$ ，而是依赖所有 $x$ 向量，改变其中任何 $x$ , $c_i$ 都会发生变化。
在这里插入图片描述
self-attention层的原理和attention层的原理完全一样，只是输入不一样。self-attention只有一个输入序列 $x_1,x_2,...,x_m$ 。
计算过程
第一步是做三种变换：将 $x_i$ 映射到三种向量 $q_{: i},k_{: i},v_{: i}$ 上。参数依然是 $W_Q,W_K,W_V$ 。线性变换后， $x_1$ 映射到 $q_{:1},k_{: 1},v_{: 1}$ ，其余类似。
在这里插入图片描述
第二步计算权重向量 $\alpha$ 。权重 $\alpha_{: j}$ 依赖于相应的 $q_{: j}$ 和所有 $k$ 。利用公式计算出所有的权重向量： $\boldsymbol{\alpha}_{: j}=\operatorname{Softmax}\left(\mathbf{K}^{T} \mathbf{q}_{: j}\right) \in \mathbb{R}^{m}$ ，每一个权重向量都是m维的。
在这里插入图片描述
第三步计算context向量。对所有 $v_{: j}$ 做加权平均去计算相应的 $c$ ，权重都是 $\alpha$ 。 $c_1$ 依赖与权重向量 $\alpha_{: 1}$ 以及所有v向量。同样的方法计算其余c向量

得到的 $c_{: j}$ 是self-attention layer的输出。
在这里插入图片描述
第j个输出 $c_{: j}$ 是依赖于矩阵 $V$ ，矩阵 $K$ ，和向量 $q_{: j}$ 。 $c_{: j}$ 依赖m个x向量。

attebtion layer的输入是encoder和decoder的元素，是两个不同的矩阵.输出的长度与decoder的输入长度相同。
self-attention layer的输入是两个相同的矩阵
在这里插入图片描述

Poppy679

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
零基础学习Transformer：AttentionLayer and Self-AttentionLayer

Transformer ModelTransformer是一个Seq2Seq模型，有一个encoder和一个decoderTransformer不是RNN，没有循环的结构，只有attention和全连接层（dense layers）实验效果好，优于RNNsAttention for RNNAttention for Seq2Seq Model，where are an encoder and a decoder.输入m个向量，encoder将输入信息压缩到m个状态向量 h1,...,hmh
复制链接

扫一扫