文章目录
主要关注提出的Transformer,可以将不同的位置联系起来,计算相关注意力,而且不管两个信息的位置有多远,计算的复杂程度都是相同的
结构
结 构 图 结构图 结构图
由编码器和解码器构成,左边是编码器,右边是解码器。
编码器
将一系列表示符号 ( x 1 , . . . , x n ) (x_1,...,x_n) (x1,...,xn)映射成一系列连续的表示 z = ( z 1 , . . . , z n ) z=(z_1,...,z_n) z=(z1,...,zn),由六个完全相同 ( N = 6 ) (N=6) (N=6)的层堆叠而成,每个层有两个子层: 第一个是多头self-attention机制,第二个是逐点的全连接前向传播网络。
在两个子层上面,都使用了正则化的残差连接,所以每个子层的输出都是 L a y e r N o r m ( x + S u b l a y e r ( x ) ) LayerNorm(x+Sublayer(x)) LayerNorm(x+Sublayer(x)),其中 S u b l a y e r ( x ) Sublayer(x) Sublayer(x)是经过该子层后生成的值,为了方便做残差连接,模型中的所有的子层还有嵌入层的输出维度都是 d m o d e l = 512 d_{model} = 512 dmodel=512
解码器
利用z来生成输出序列 ( y 1 , . . . , y m ) (y_1,...,y_m) (y1,...,ym),一次一个,也是六个完全相同的 ( N = 6 ) (N=6)