Transformer(上）

稻禾边的阳光

已于 2024-03-10 16:43:02 修改

阅读量332

点赞数 12

分类专栏： # transformer 文章标签： transformer

于 2024-03-05 16:01:11 首次发布

本文链接：https://blog.csdn.net/qq_45888225/article/details/136481082

版权

transformer 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

transformer(上）

一、Attention

链接: 参考文章Attention详解
链接: transformer下

1.Encoder – Decoder(编码器和解码器）

1.1 简介

Encoder-Decoder框架主要被用来处理序列-序列问题。也就是输入一个序列，生成一个序列的问题。这两个序列可以分别是任意长度。
链接: RNN的简单了解

1.2 Encoder-Decoder结构原理

在这里sd片描述
下图是RNN n-to-m

Encoder
以上图为例，输入<x1,x2,x3,x4>，通过RNN生成隐藏层的状态值<h1,h2,h3,h4>，如何确定语义编码C呢？最简单的办法直接用最后时刻输出的ht作为C的状态值，这里也就是可以用h4直接作为语义编码C的值，也可以将所有时刻的隐藏层的值进行汇总，然后生成语义编码C的值，这里就是C=q(h1,h2,h3,h4)，q是非线性激活函数。

Decoder
解码器，根据输入的语义编码C，然后将其解码成序列数据，解码方式也可以采用RNN/LSTM/GRU/BiRNN/BiLSTM/BiGRU。Decoder和Encoder的编码解码方式可以任意组合，并不是说我Encoder使用了RNN，Decoder就一定也需要使用RNN才能解码，Decoder可以使用LSTM，BiRNN这些。

1.3 Decoder解码方式

基于seq2seq模型有两种解码方式：
在这里插入图片描述
论文1中指出，因为语义编码C包含了整个输入序列的信息，所以在解码的每一步都引入C。文中Ecoder-Decoder均是使用RNN，在计算每一时刻的输出y_t时，都应该输入语义编码C，即h_t=f(h_t-1,y_t-1,C)，p(y_t)=f(h_t,y_t−1,C)。h_t为当前t时刻的隐藏层的值，y_t-1为上一时刻的预测输出，作为t时刻的输入，每一时刻的语义编码C是相同的。
在这里插入图片描述
论文2的方式相对简单，只在Decoder的初始输入引入语义编码C，将语义编码C作为隐藏层状态值h0的初始值，p(y_t)=f(h_t,y_t−1)。

这两种方式都存在弊端，不好使，所以attention model就出现啦。

2. Attention原理

在这里插入图片描述上图就是引入了Attention 机制的Encoder-Decoder框架。咱们一眼就能看出上图不再只有一个单一的语义编码C，而是有多个C₁,C₂,C₃这样的编码。当我们在预测Y1时，可能Y1的注意力是放在C1上，那咱们就用C₁作为语义编码，当预测Y₂时，Y2的注意力集中在C₂上，那咱们就用C₂作为语义编码，以此类推，就模拟了人类的注意力机制。

问题：
怎么计算出C₁，C₂，C₃…C_n呢？如何判断我每次在做解码的时候注意力应该放在哪个位置呢？
以机器翻译例子"Tom chase Jerry" - "汤姆追逐杰瑞"来说明：
当我们在翻译"杰瑞"的时候，为了体现出输入序列中英文单词对于翻译当前中文单词不同的影响程度，比如给出类似下面一个概率分布值：
（Tom,0.3）（Chase,0.2）（Jerry,0.5）
每个英文单词的概率代表了翻译当前单词“杰瑞”时，注意力分配模型分配给不同英文单词的注意力大小。这对于正确翻译目标语单词肯定是有帮助的，因为引入了新的信息。同理，目标句子中的每个单词都应该学会其对应的源语句子中单词的注意力分配概率信息。这意味着在生成每个单词Yi的时候，原先都是相同的中间语义表示C会替换成根据当前生成单词而不断变化的C_i。理解AM模型的关键就是这里，即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的C_i。

f2(“Tom”),f2(“Chase”),f2(“Jerry”)就是对应的隐藏层的值h(“Tom”),h(“Chase”),h(“Jerry”)。g函数就是加权求和。α_i表示权值分布。因此C_i的公式就可以写成：

那么现在的问题就只剩下，怎么知道attention模型所需要的输入句子单词注意力分配概率分布值呢？也就是α_ij？

以普通的RNN-RNN Encoder-Decoder结构为例，注意上图Decoder初始输入用初始符，这里使用eos作为初始符。将输入eos与初始S₀通过RNN生成h(eos)，然后分别计算h(eos)与h1，h2，h3…hm的相关性，这个相关性怎么计算一会儿再介绍。得到h(eos)与h1，h2，h3…hm的相关性评分[f1,f2,f3…fm]，然后跟多分类一样使用softmax，就能得到相关性的概率分布α(eos)。

decoder上一时刻的输出值Yi-1与上一时刻传入的隐藏层的值Si-1通过RNN生成Hi，然后计算Hi与h1，h2，h3…hm的相关性，得到相关性评分[f1,f2,f3…fm]，然后对Fi进行softmax就得到注意力分配αij。然后将encoder的输出值h与对应的概率分布αij进行点乘求和，就能得到注意力attention值了。

3. Attention的本质思想

在这里插入图片描述
参照上图可以这么来理解Attention，将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成（对应到咱们上里面的例子，key和value是相等地，都是encoder的输出值h），此时给定Target中的某个元素Query（对应到上面的例子也就是decoder中的hi）（没看懂），通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。

第一阶段：计算相似性Lx表示source的长度，Similarity(Q,K_i)计算如下：
在这里插入图片描述
第二阶段：引入类似SoftMax的计算方式对第一阶段的相似性得分进行数值转换，一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。
在这里插入图片描述
第三阶段：第二阶段的计算结果 ai 即为 Valuei 对应的权重系数，然后进行加权求和即可得到Attention数值

总结：

阶段1：Query与每一个Key计算相似性得到相似性评分s
阶段2：将s评分进行softmax转换成[0,1]之间的概率分布
阶段3：将[a1,a2,a3…an]作为权值矩阵对Value进行加权求和得到最后的Attention值

3. Self-Attention

在一般任务的Encoder-Decoder框架中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子，Attention机制发生在Target的元素和Source中的所有元素之间。而Self Attention顾名思义，指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力计算机制。其具体计算过程是一样的，只是计算对象发生了变化而已，相当于是Query=Key=Value，计算过程与attention一样，所以这里不再赘述其计算过程细节。
在这里插入图片描述
例如上图是self-attention的一个例子：
我们想知道这句话中的its，在这句话里its指代的是什么，与哪一些单词相关，那么就可以将its作为Query，然后将这一句话作为Key和Value来计算attention值，找到与这句话中its最相关的单词。通过self-attention我们发现its在这句话中与之最相关的是Law和application，通过我们分析语句意思也十分吻合。
如此引入Self Attention后会更容易捕获句子中长距离的相互依赖的特征，因为如果是RNN或者LSTM，需要依次序序列计算，对于远距离的相互依赖的特征，要经过若干时间步步骤的信息累积才能将两者联系起来，而距离越远，有效捕获的可能性越小。但是Self Attention在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来，所以远距离依赖特征之间的距离被极大缩短，有利于有效地利用这些特征。除此外，Self Attention对于增加计算的并行性也有直接帮助作用。正好弥补了attention机制的两个缺点，这就是为何Self Attention逐渐被广泛使用的主要原因。