tra二、Transformer
2.1模型
transformer由编码器和解码器组成。两者是基于自注意力模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编码(positional encoding),再分别输入编码器和解码器中。
由上图可知transformer的编码器是由多个相同的层叠加而成的,每个层有两个子层(sublayer)。第一个子层是多头自注意力(multi-head self-attention)汇聚;第二个子层是基于位置的前馈网络(positionwise feed-forward network)。在计算编码的自注意力时,查询、键和值都来自前一个编码层的输出。每个子层都采用残差连接(residual connection)。在残差连接的加法计算后,紧接着应用层规范化(layer normalization)。因此,输入序列对应的每个位置,transformer编码器都将输出一个d维表示向量。
Transformer解码器也是由多个相同的层叠加而成的,并且层中使用了残差连接和层规范化。除了编码器中描述的两个子层之外,解码器还在这两个子层之间插入了第三个子层,成为编码器-解码器注意力(encoder-decoder attention)层。。。。。(根本听不懂)
2.2基于位置的前馈网络
基于位置的前馈网络对序列中的所有位置的表示进行变换时使用的是同一个多层感知机(MLP)。