Transformer编码器-解码器（Encoder-Decoder）架构介绍+代码实现

刺破细胞膜

已于 2024-03-26 13:26:18 修改

阅读量7k

点赞数 29

文章标签： transformer 深度学习人工智能

于 2024-03-26 13:16:30 首次发布

本文链接：https://blog.csdn.net/weixin_41686431/article/details/137041301

版权

一，Transformer架构介绍：

Transformer的编码器-解码器是基于自注意力的模块叠加而成的，源序列（Input）和目标序列（Target）的嵌入（Embedding）表示将加上位置编码（Positional encoding）,再分别输入到编码器和解码器中。从宏观角度来看，Transformer的编码器是由多个相同的层叠加而成的，每个层都有两个子层（子层表示为sublayer）。第一个子层是多头自注意力（multi‐head self‐attention）

汇聚；第二个子层是基于位置的前馈网络（ positionwise feed‐forward network ）。具体来说，在计算编码器的自注意力时，查询、键和值都来自前一个编码器层的输出，每个子层都采用

了残差连接（ residual connection ）。在 Transformer 中，对于序列中任何位置的任何输入 x ∈ R d ，都要求满足sublayer ( x ) ∈ R d ，以便残差连接满足 x + sublayer ( x ) ∈ R d。在残差连接的加法计算之后，紧接着应用层规范化（layer normalization）。因此，输入序列对应的每个位置，Transformer编码器都将输出一个 d维表示向量。 Transformer解码器也是由多个相同的层叠加而成的，并且层中使用了残差连接和层规范化。除了编码器中描述的两个子层之外，解码器还在这两个子层之间插入了第三个子层，称为编码器－解码器注意力（encoder‐ decoder attention）层。在编码器－解码器注意力中，查询来自前一个解码器层的输出，而键和值来自整个编码器的输出。在解码器自注意力中，查询、键和值都来自上一个解码器层的输出。但是，解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽（masked）注意力保留了自回归（auto‐regressive）属性，确保预测仅依赖于已生成的输出词元。