Transformer

不想转生信的小张

已于 2024-04-11 21:08:17 修改

阅读量453

点赞数 11

分类专栏：深度学习文章标签： transformer 深度学习人工智能

于 2024-04-10 16:06:29 首次发布

本文链接：https://blog.csdn.net/Nana_Oyang/article/details/137590239

版权

3 篇文章 0 订阅

订阅专栏

本文详细介绍了Transformer模型，包括其基于注意力的自编码器-解码器结构，多头注意力机制，有掩码的自注意力设计，前馈网络的作用以及层规范化对深度学习的贡献。特别强调了自回归性和深度模型训练中的关键组件。

摘要由CSDN通过智能技术生成

Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层

Transformer作为编码器－解码器架构的一个实例

Transformer的编码器和解码器是基于自注意力的模块叠加而成的，源（输入）序列和目标（输出）序列的嵌入（embedding）表示将加上位置编码（positional encoding），再分别输入到编码器和解码器中。

在这里插入图片描述

Transformer的编码器是由多个相同的层叠加而成的，每个层都有两个子层（子层表示为sublayer）。
第一个子层是多头自注意力（multi‐head self‐attention）汇聚；第二个子层是基于位置的前馈网络（position wise feed‐forward network）。
在计算编码器的自注意力时，查询、键和值都来自前一个编码器层的输出。
Transformer解码器也是由多个相同的层叠加而成的，并且层中使用了残差连接和层规范化。
除了编码器中描述的两个子层之外，解码器还在这两个子层之间插入了第三个子层，称为编码器－解码器注意力（encoder‐decoder attention）层。
在编码器－解码器注意力中，查询来自前一个 解码器层 的输出，而键和值来自整个 编码器 的输出。在解码器自注意力中，查询、键和值都来自上一个解码器层的输出。但是，解码器中的每个位置只能考虑该位置之前的所有位置。