论文- Transformer_编码器将符号表示(x1,…,xn)的输入序列映射到连续表示z=(z1,…,zn)的序列。给定z,-CSDN博客

本文链接：https://blog.csdn.net/Faith_L/article/details/105562497

Attention Is All Y ou Need

1.模型体系结构

encoder-decoder structure
编码器将符号表示的输入序列（x1，…，xn）映射到连续表示的序列z=（z1，…，zn）
给定z，解码器然后一次生成一个符号的输出序列（y1，…，ym）
在每一步，模型都是auto-regressive，在生成下一步时，将先前生成的符号作为附加输入。

Auto-regressive(AR)模型基本思想：下一个观测值约等于前n个观测值的某种线性加权和。

在这里插入图片描述

1-1.编码器和解码器堆栈

编码器： 编码器由N=6个相同层组成。每层有两个子层。第一个是一个多头自关注机制，第二个是一个简单的、位置全连接的前馈网络
我们在两个子层的每一个子层周围使用一个剩余连接，然后进行层规范化
解码器： 解码器还插入第三个子层，该子层对编码器堆栈的输出执行多头部注意
与编码器类似，我们在每个子层周围使用剩余连接，然后进行层规范化
修改解码器堆栈中的自关注子层，以防止位置关注后续位置。这种掩蔽，加上输出嵌入被一个位置偏移的事实，确保位置i的预测只能依赖于小于i的位置处的已知输出

1-2.注意力机制

之前学习的
在这里插入图片描述
论文中

Scaled Dot-Product Attention

输入由维度dk的Q和K以及维度dv的V组成
在这里插入图片描述

Multi-Head Attention

多头注意允许模型在不同的位置共同关注来自不同表示子空间的信息。只有一个注意力集中的头脑，平均化可以抑制这种情况
在这里插入图片描述

1-3.位置嵌入

由于我们的模型不包含递归和卷积，为了使模型能够利用序列的顺序，我们必须注入一些关于令牌在序列中的相对或绝对位置的信息。
在这里插入图片描述
其中pos是位置，i是尺寸。也就是说，位置编码的每个维度对应于一个正弦。
我们选择这个函数是因为我们假设它可以让模型很容易地学会通过相对位置来参与，因为对于任何固定偏移量k，PEpos+k可以表示为PEpos的线性函数。