Transformer

本文详细介绍了Transformer模型,包括其基于注意力的自编码器-解码器结构,多头注意力机制,有掩码的自注意力设计,前馈网络的作用以及层规范化对深度学习的贡献。特别强调了自回归性和深度模型训练中的关键组件。
摘要由CSDN通过智能技术生成

1. 概要

Transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层

2. 整体架构

Transformer作为编码器-解码器架构的一个实例

1. transformer架构
  1. Transformer的编码器和解码器是基于自注意力的模块叠加而成的,(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编码(positional encoding),再分别输入到编码器和解码器中。

在这里插入图片描述

  1. Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层(子层表示为sublayer)。

  2. 第一个子层是多头自注意力(multi‐head self‐attention)汇聚;第二个子层是基于位置的前馈网络(position wise feed‐forward network)。

  3. 在计算编码器的自注意力时,查询、键和值都来自前一个编码器层的输出。

  4. Transformer解码器也是由多个相同的层叠加而成的,并且层中使用了残差连接和层规范化。

  5. 除了编码器中描述的两个子层之外,解码器还在这两个子层之间插入了第三个子层,称为编码器-解码器注意力(encoder‐decoder attention)层。

  6. 在编码器-解码器注意力中,查询来自前一个 解码器层 的输出,而键和值来自整个 编码器 的输出。在解码器自注意力中,查询、键和值都来自上一个解码器层的输出。但是,解码器中的每个位置只能考虑该位置之前的所有位置。

2. 多头注意力

在这里插入图片描述
在这里插入图片描述

3. 有掩码的多头注意力

在这里插入图片描述

4. 前馈网络

在这里插入图片描述

5. 层归一化

在这里插入图片描述

  1. Layer:每一个batch里面给样本。单样本里面,不管批量多少。

  2. 有b句话,每句话有len个词,每个词由d个特征表示,BN是对所有句子所有词的某一特征做归一化,LN是对某一句话的所有词所有特征做归一化
    在这里插入图片描述

6. 信息传递

在这里插入图片描述

3. 预测

在这里插入图片描述
在这里插入图片描述

4. 小结

  1. • Transformer是编码器-解码器架构的一个实践,尽管在实际情况中编码器或解码器可以单独使用。

  2. • 在Transformer中,多头自注意力用于表示输入序列和输出序列,不过解码器必须通过掩蔽机制来保留
    自回归属性。

  3. • Transformer中的残差连接和层规范化是训练非常深度模型的重要工具。

  4. • Transformer模型中基于位置的前馈网络使用同一个多层感知机,作用是对所有序列位置的表示进行转
    换。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值