Transformer学习笔记

Transformer是一种基于注意力机制的深度学习模型,它摒弃了传统的循环和卷积结构,采用Encoder和Decoder进行序列处理,具有更好的并行计算能力和训练效率。模型中关键组件包括多头自注意力子层、FFN子层、Embedding和PositionalEncoding。此外,使用Adam优化器和Dropout、LabelSmoothing作为正则化手段,以提升模型性能。
摘要由CSDN通过智能技术生成

Transformer是一种基于注意力机制的模型,相较于传统的循环结构和卷积结构,它具有更好的效果和更强的并行计算能力,同时训练时间更短。它解决了循环模型在处理长序列语料时的缺陷。

Transformer的结构

Transformer主要包含以下部分:

  1. Encoder:由6个相同的层构成,每个层包含多头自注意力子层与FFN子层两个子层。层的输入为Input(输入的语句)经过Embedding与Positional Encoding相加后得到的结果。
  2. Decoder:同样以6个相同的层构成,每个层包含掩码多头自注意力子层、编码-解码注意力子层、FFN子层三个子层。层的输入为Output(输出的语句)经过Embedding与Positional Encoding相加后得到的结果。
  3. Embedding:包括Input的Embedding和Output的Embedding,这两个Embedding与Pre-softmax层共享权重。
  4. Positional Encoding:将输入序列信息嵌入至向量表示,使用正弦与余弦公式得到位置的嵌入信息。
  5. Pre-softmax:与两个Embedding共享权重。

Transformer的子层

Transformer的每个子层的输出维度均为dmodel,论文中dmodel为512。具体子层内容如下:

  1. 多头自注意力子层:由multi-head attention和add&norm两个构件组成。multi-head attention为多个(论文中为8个,h=8)自注意力构件计算后拼接然后乘以一个矩阵得到,其输出维度与输入维度相同。自注
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值