transformer整理

Transformer是一种基于encoder-decoder结构的模型,主要用于序列到序列任务。关键组件包括Positional Encoding、Multi-Headed Attention、Feed-Forward Layer和Masked Multi-head attention。Positional Encoding用于表示单词顺序,Self-Attention允许模型查看序列中的其他位置。训练时使用Adam优化算法,并在WMT数据集上进行实验,表现出优秀的性能。
摘要由CSDN通过智能技术生成

介绍

Transformer 是一种基于 encoder-decoder 结构的模型,模型结构如下图所示,在encoder中主要有Multi-Headed Attention和前馈神经网络层组成,decoder 中主要有Multi-Headed Attention、前馈神经网络层和Masked Multi-Headed Attention组成。
在这里插入图片描述
在 Encoder 中,

  1. Input 经过 embedding 后,要做 positional encodings
  2. 经过Multi-head attention
  3. 再经过 position-wise Feed Forward
  4. 每个子层之间有残差连接

在 Decoder 中,
如上图所示,也有 positional encodings,Multi-head attention 和 FFN,子层之间也要做残差连接,但比 encoder 多了一个 Masked Multi-head attention,最后要经过 Linear 和 softmax 输出概率。

Positional Encoding

Positional Encoding 是一种考虑输入序列中单词顺序的方法。
encoder 为每个输入 embedding 添加了一个向量,这些向量符合一种特定模式,可以确定每个单词的位置,或者序列中不同单词之间的距离。计算方式如下:
在这里插入图片描述
其中 p o s pos pos为token在sequence里的位置, d m o d e l d_{model} dmodel 为Embedding的维度, 2 i 、 2 i + 1 2i 、2i+1 <

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值