【NIPS】经典论文Transformer速读

最新推荐文章于 2024-07-18 20:23:56 发布

大胃羊

最新推荐文章于 2024-07-18 20:23:56 发布

阅读量1.8k

点赞数

分类专栏：经典论文速读文章标签：机器翻译 transformer 深度学习

本文链接：https://blog.csdn.net/davidyang_980/article/details/121898775

版权

经典论文速读专栏收录该内容

7 篇文章 4 订阅

订阅专栏

初识Transformer

Transformer最早由NIPS会议上Attention is all you need论文提出来，包含Encoder和decoder的一类结构，有区别于ＲＮＮ，在大数据量的情况下效果显著优于RNN，Tranformer在机器翻译领域用的比较多。

Transformer结构

在这里插入图片描述
网络步骤：
1.　特征提取，获取embedding，包括词和位置，然后用表示向量X进行表示，多个表示向量X，得到整句话的表示向量矩阵，其中每一行为Ｘ。
Transformer使用全局信息，不能利用单词的顺序信息，所以需要位置embedding（绝对位置）
在这里插入图片描述
2.　Encoder编码，使用６个encoder block对输入特征向量矩阵Ｘ进行编码，得到编码信息矩阵Ｃ。注意每个encoder block的输入输出矩阵维度都是完全一致的。

3.　Decoder解码，编码信息矩阵c传到decoder，decoder逐词翻译，根据当前翻译的前面所有单词来翻译、预测下一个单词。在翻译到i单词的时候，需要把之后的单词给遮住Mask。
在这里插入图片描述

自注意力机制　Self-Attention

在这里插入图片描述上图中的左右block分别为encoder和decoder。其中Multi-Head Attention由多个Self-Attention组成，对于decoder中有一个Multi-Head Attention是用于Masked。Add表示残差链接，Norm是Layer Normalization。

在这里插入图片描述
关键参数为矩阵Q(查询),K(键值),V(值)，其作用是对输入（单词的向量表示矩阵）进行线性变化，乘上线性变换矩阵，得到ＱＫＶ。再利用ＱＫＶ计算Self-Attention的输出。

Softmax 计算每一个单词对于其他单词的 attention 系数，对矩阵的每一行进行 Softmax，即每一行的和都变为 1.