第十四课.Transformer

最新推荐文章于 2024-07-31 17:31:47 发布

tzc_fly

最新推荐文章于 2024-07-31 17:31:47 发布

阅读量477

点赞数 1

分类专栏：白景屹的Pytorch笔记本文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_40943760/article/details/113839616

版权

白景屹的Pytorch笔记本专栏收录该内容

24 篇文章 56 订阅

订阅专栏

谷歌的Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率；Transformer由论文 《Attention is All You Need》提出，现在被广泛应用于NLP的各个领域。目前在NLP各业务全面发展的模型如GPT，BERT等，都是基于Transformer模型

Seq2Seq的编码器-解码器架构与Attention机制

首先，关于Seq2Seq的Encoder-Decoder模型与Luong Attention机制原理及实现可回顾 第十二课Seq2Seq与Attention ；

Encoder-Decoder模型本质是两个循环神经网络（一般使用GRU）进行连接；假设现在有一个Seq元组：一句英文，一句中文，句子已经分词处理过，令 $x$ 表示英语的分词， $y$ 表示中文的分词，既有：
$x,y):[x_{1},x_{2},x_{3}]|[y_{1},y_{2},y_{3},y_{4}]$
按照Seq2Seq的一般处理格式，会构造 $x_{1},x_{2},x_{3},y_{1})$ 为输入数据， $y_{2},y_{3},y_{4})$ 为标签；

Encoder-Decoder的网络结构如下：
fig100
上述结构中，Encoder的初始输入 hidden state： $h_{0}$ 可使用零向量，Decoder输出的预测结果为 $yp_{2},yp_{3},yp_{4})$ ，对比标签数据 $y_{2},y_{3},y_{4})$ ，机器翻译问题即转为普通的分类任务；Decoder其实是一个语言模型，利用当前中文分词，顺序预测后面的中文分词；

早期Attention机制通常有Bahdanau Attention与Luong Attention，两种注意力的理论相似，Luong Attention使用更加广泛。通常Attention会结合原始Encoder和原始Decoder的输出，重新整合得到新的输出：
fig200
网络的Encoder输出为序列 $o_{s}$ （每个元素是一个词向量），原始Decoder输出序列为 $o_{c}$ ，经过Luong Attention整合信息得到输出 $y p$ ；

以机器翻译（英文到中文）为例，在原始的Encoder-Decoder模型里，英文句子的信息被压缩在Encoder的输出 hidden state 里，这不可避免的造成大量信息损失，对翻译中文不利，引入注意力后，给原始Decoder的某个输出词向量融合了其对应的重要英文分词信息，能提升翻译出该中文分词的准确性；

注意力机制的本质是更针对性实现特征提取，即加权平均，发展至今，注意力也有了不同的分类；

柔性注意力 Soft Attention

输入信息 $X=[x_{1},x_{2},...,x_{N}]$ ，注意力计算过程如下：

1.在输入信息上计算注意力分布；
2.根据注意力分布计算输入信息的加权平均；

注意力分布
给定一个和任务相关的查询向量 $q$ ，用注意力变量 $z\in [1,N]$ 表示被选择信息的索引位置，即 $z = i$ 表示选择了第 $i$ 个输入信息，其中查询向量 $q$ 可以是动态生成的，也可以是可学习的参数；通常在Seq2Seq中，查询向量会使用当前模型的输出信息（比如Encoder-Decoder当前输出词对应的词向量）；

在给定输入信息 $X$ 和查询向量 $q$ 后，选择第 $i$ 个输入信息的概率：
$a_{i}=P(z=i|X,q)=softmax(score(x_{i},q))=\frac{exp(score(x_{i},q))}{\sum_{j=1}^{N}exp(score(x_{j},q))}$
其中， $a_{i}$ 称为注意力分布，反映提取信息 $x_{i}$ 的程度， $score(x_{i},q)$ 为注意力打分函数；

打分函数有不同的形式：

加性模型
$score(x_{i},q)=v^{T}tanh(Wx_{i}+Uq)$
点积模型（常用）
$score(x_{i},q)=x_{i}^{T}q$
缩放点积模型（常用）
$score(x_{i},q)=\frac{x_{i}^{T}q}{\sqrt{d}}$
双线性模型
$score(x_{i},q)=x_{i}^{T}Wq$

其中， $[W, U, v]$ 为待学习参数， $d$ 为输入信息的维度。点积模型的计算效率更高，当输入信息 $x_{i}$ 的维度维度 $d$ 较大，可以通过缩放点积平衡数值。注意力分布可解释为在给定查询向量下，第 $i$ 个信息的受关注程度；

加权平均
基于注意力分布和输入信息，得到：
$attn(X,q)=\sum_{i=1}^{N}a_{i}x_{i}$
即：
fig2
在软注意力中，输入信息一方面要用于计算注意力，另一方面是被注意力提取的对象，这对输入信息来说，负担过重。因此，提出了键值对注意力；

键值对注意力 Key-Value Pair Attention

输入信息为：
$K,V)=[(k_{1},v_{1}),(k_{2},v_{2}),...,(k_{N},v_{N})]$
其中，键用于计算注意力分布 $a_{i}$ ，值用来计算聚合信息，通常值 $V$ 即为输入信息 $X$ ； $K$ 对应的信息不固定，只要是和 $V$ 有关系的对象均可以做为 $K$ ；
给定查询向量 $q$ ，注意力分布为：
$a_{i}=\frac{exp(score(k_{i},q))}{\sum_{j=1}^{N}exp(score(k_{j},q))}$
加权平均：
$attn((K,V),q)=\sum_{i=1}^{N}a_{i}v_{i}$
当 $K = V$ 时，键值对注意力就是柔性注意力；

自注意力 Self-Attention

在键值对注意力中，有两个量 $(K, q)$ 比较模糊，没有一个统一的标准，于是提出自注意力机制，输入序列为：
$X=[x_{1},x_{2},...,x_{N}]\in R^{d_{1}\times N}$
输出序列为：
$H=[h_{1},h_{2},...,h_{N}]\in R^{d_{2}\times N}$
通过线性变换得到向量序列：
$Q=W_{Q}X\in R^{d_{3}\times N}$
$K=W_{K}X\in R^{d_{3}\times N}$
$V=W_{V}X\in R^{d_{2}\times N}$
其中， $[Q, K, V]$ 分别为查询向量，键向量，值向量； $W_{Q},W_{K},W_{V}]$ 为待学习参数；

预测输出向量：
$\widehat{h}_{i}=attn((K,V),q_{i})=\sum_{j=1}^{N}a_{i,j}v_{j}=\sum_{j=1}^{N}softmax(score(k_{j},q_{i}))v_{j}$
当使用缩放点积打分时，输出向量序列为：
$H_{d_{2}\times N}=W_{V}Xsoftmax(\frac{K^{T}Q}{\sqrt{d_{3}}},axis=-1)$

pytorch 中softmax函数举例：

import torch
import torch.nn as nn

mat=torch.randn(2,2)
print(mat,mat.size())
softmax=nn.Softmax(dim=1)
output=softmax(mat)
print(output,output.size())

"""
tensor([[ 0.0081,  0.1971],
        [-0.2666, -1.0529]]) torch.Size([2, 2])
tensor([[0.4529, 0.5471],
        [0.6870, 0.3130]]) torch.Size([2, 2])
"""

axis=-1即dim=-1，即在最后一维上操作，在(2,2)的张量上，体现为沿着列轴计算softmax：
$0.4529=\frac{exp(0.0081)}{exp(0.0081)+exp(0.1971)}$

多头注意力 Multi-Head Attention

多头注意力起源于自注意力，多头注意力为：
$attn(X)=attn((K_{1},V_{1}),Q_{1})\oplus attn((K_{2},V_{2}),Q_{2})\oplus ...\oplus attn((K_{h},V_{h}),Q_{h})$
其中的 $\oplus$ 表示张量拼接，多头注意力相当于给出了注意力层的多个"表示空间"，即融合了不同角度的自注意力信息；

Transformer通用特征提取器

Transformer是一种架构，目的是用于实现一种通用的特征提取器。模型架构如下：
fig1
模型有两个输入，一个输出，左部被称为编码器，右部被称为解码器。左边的输入为源序列，右边输入为目标序列，目标序列是一个固定长度的输入序列；

图中的 $N\times$ 表示网络的堆叠，图中的灰色部分表示一层单元（比如左边的Encoder单元和右边的Decoder单元），加深网络可以通过重复堆叠单元实现。

输入，目标，输出序列

输入序列， $i_{q}\in R^{SourceVocabSize}$ 反映了该词在词汇表中的序号（one-hot编码）
$inputs=[i_{1},i_{2},...,i_{N}]$
目标序列， $t_{q}\in R^{TargetVocabSize}$ 反映了该词在词汇表中的序号（one-hot编码）
$targets=[t_{1},t_{2},...,t_{M}]$
其中还有
$outputs_{probabilities}=Transformer(inputs,targets)=(o_{1},o_{2},...,o_{M})$
$outputs_{probabilities}$ 为预测结果， $o_{q}\in R^{TargetVocabSize}$ 反映了词汇表中词的概率；

词嵌入与位置信息融合

输入序列词嵌入为：
$Embedding(inputs)\in R^{N,d_{model}}$
其中， $N$ 为输入序列长度， $d_{model}$ 为词嵌入维度，输入序列位置编码为：
$PosEnc(postion_{inputs})\in R^{N,d_{model}}$
其中， $postion_{inputs}=(1,2,...,p,...,N)$ 为各个字符在句子中对应的位置序号；

位置编码计算为：
$PosEnc(pos,2i)=sin(\frac{pos}{10000^{2i/d_{model}}}),PosEnc(pos,2i+1)=cos(\frac{pos}{10000^{2i/d_{model}}})$
其中， $pos\in postion_{inputs}$ ， $i\in (0,1,...,d_{model}/2)$ ；

融合位置信息的目的：注意力机制没有考虑单词的位置信息，而是单纯的加权平均，所以在Transformer中添加了位置信息

将词嵌入与位置信息融合：
$Embedding(inputs)+PosEnc(postion_{inputs})$
同样的，目标序列也进行对应的融合：
$Embedding(targets)+PosEnc(postion_{targets})$

编码器

编码器的计算为：
$e_{0}=Embedding(inputs)+PosEnc(postion_{inputs})$
$e_{l}=EncoderLayer(e_{l-1}),l\in [1,n]$
其中， $e_{0}\in R^{N,d_{model}}$ 为编码器输入， $n$ 为编码器层数， $e_{l}$ 为第 $l$ 层编码器的输出；
编码器 $E n c o d e r L a y e r$ ：
$e_{mid}=LayerNorm(e_{in}+MultiHeadAttention(e_{in}))$
$e_{out}=LayerNorm(e_{mid}+FFN(e_{mid}))$
其中， $e_{in}\in R^{N,d_{model}}$ 为编码器层输入， $e_{out}\in R^{N,d_{model}}$ 为编码器层输出， $M u l t i H e a d A t t e n t i o n$ 为多头注意力机制， $F F N$ 为前馈神经网络， $L a y e r N o r m$ 为层归一化；

图中的多头注意力机制输入有三条支路，代表了三个待学习参数 $W_{Q},W_{K},W_{V}]$

关于Transformer的缩放点积和多头注意力机制：
fig3
注意左图的 $[Q, K, V]$ 是右图 $[Q, K, V]$ 经过线性变换得到的；

输入向量序列 $e_{in}=[e_{in1},e_{in2},...,e_{inN}]\in R^{N,d_{model}}$ ，分别得到查询向量序列 $Q=e_{in}$ ，键向量序列 $K=e_{in}$ ，值向量序列 $V=e_{in}$ ；

使用缩放点积打分的多头注意力机制：
$MultiHeadAttention(e_{in})=Concat(head_{1},...,head_{h})W_{O}$
其中，多头输出：
$head_{i}=Attention(QW_{Q,i},KW_{K,i},VW_{V,i})=softmax(\frac{QW_{Q,i}(KW_{K,i})^{T}}{\sqrt{d_{K}}})VW_{V,i}$
可学习的参数为：
$[W_{Q,i}\in R^{d_{model},d_{K}},W_{K,i}\in R^{d_{model},d_{K}},W_{V,i}\in R^{d_{model},d_{V}},W_{O}\in R^{h\cdot d_{V},d_{model}}]$

Mask操作可以省略，Mask操作是为了保留非填充（pad）的词

前馈神经网络为全连接网络，两层网络如下：
$FFN(e_{mid})=ReLU(e_{mid}W_{1}+b_{1})W_{2}+b_{2}$

解码器

$d_{0}=Embedding(targets)+PosEnc(postion_{targets})$
$d_{l}=DecoderLayer(d_{l-1}),l\in [1,n]$
$outputs_{probabilities}=softmax(d_{n}W)$
其中， $d_{0}\in R^{M,d_{model}}$ 为解码器的输入， $d_{l}\in R^{M,d_{model}}$ 为解码器第 $l$ 层的输出， $W\in R^{d_{model},TargetVocabSize}$ ；

解码器层 $D e c o d e r L a y e r$ ：
$d_{mid1}=LayerNorm(d_{in}+MaskedMultiHeadAttention(d_{in}))$
$d_{mid2}=LayerNorm(d_{mid1}+MultiHeadAttention(d_{mid1},e_{out}))$
$d_{out}=LayerNorm(d_{mid2}+FFN(d_{mid2}))$
其中， $d_{in}\in R^{M,d_{model}}$ 为解码器输入， $d_{out}\in R^{M,d_{model}}$ 为解码器输出；

由于解码器的目标序列是逐步向后移动的固定长度输入，在预测当前序列时，使用 $M a s k e d M u l t i H e a d A t t e n t i o n$ 可以遮挡住当前输入中文数据内，目标序列以外的信息，确保当前计算所输入的目标序列是我们确实需要的信息。

$M a s k e d M u l t i H e a d A t t e n t i o n$ 用于训练，因为训练是已知中文序列的，而翻译只有英文序列，所以不需要mask操作，使用中文逐个作为输入序列依次翻译即可；

训练与翻译

假设有一个英文与中文元组：

"""
(['BOS', 'why', 'me', 'EOS'],
 ['BOS', '为', '什', '么', '是', '我', 'EOS'])
"""

对于Encoder-Decoder，或结合Luong Attention的Encoder-Decoder，都有训练格式如下：

英文部分的输入为：BOS why me EOS；
中文部分的输入为：BOS 为什么是我；
标签为：为什么是我 EOS；

翻译时：

英文序列作为输入；
模型固定为逐次调用以输出 max seq len 个词向量；
将标志符号BOS作为中文的第一个分词，结合英文输入，得到第一个输出词向量，再将该词向量作为新的中文输入词向量，因此，可以依次得到一组输出词向量（一共 max seq len 个），每个词向量经过全连接映射得到one-hot编码，即得到输出的中文分词列表；
顺着列表检查分词，如果出现标志符号EOS就截取前面的分词组成中文结果。

对于Transformer，如果设置目标序列长度固定为3，则输入的中文序列与对应标签依次为：

输入中文BOS 为什，标签为什么；
输入中文为什么，标签什么是；
输入中文什么是，标签么是我；
输入中文么是我，标签是我 EOS；

通常，每次设置目标序列长度为中文序列长度减1，该情况下的训练格式与Encoder-Decoder相同，mask操作只需遮挡中文序列最后一个元素EOS即可；

Transformer的翻译过程与Encoder-Decoder一致

tzc_fly

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第十四课.Transformer

目录Seq2Seq的编码器-解码器架构与Attention机制谷歌的Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率；Transformer由论文《Attention is All You Need》提出，现在被广泛应用于NLP的各个领域。目前在NLP各业务全面发展的模型如GPT，B
复制链接

扫一扫

专栏目录