Transformer模型

Transformer在做什么事情?

  1. 下图是一个机器翻译流程:输入中文经过Transformer得到对应翻译的英文
    在这里插入图片描述
  2. 细化流程图:Transformer模型可以拆解为Encoders + Decoders
    在这里插入图片描述
  3. 继续细化:注意所有Encoders是结构上完全相同(参数上不是:也就是说要训练所有的Encoders)的且数量可以自定义,Decoders也是完全相同(参数上不是:也就是说要训练所有的Decoders)的且数量可以自定义,Encoders和Decoders架构不相同
    在这里插入图片描述
  4. Transformer原论文图
    在这里插入图片描述

Encoder细节

Encoder可以分为以下三个部分:
在这里插入图片描述

1. 输入部分

在这里插入图片描述

1.1 Embedding

Embedding 就是用一个数值向量“表示”一个对象(Object)的方法
在这里插入图片描述

1.2 位置嵌入

在这里插入图片描述

上图是RNN的架构,RNN具有天然的时序关系(有先后顺序)
Transformer则是一起处理,增强了速度但是忽略了单词之间的序列关系,所以需要位置编码来告诉模型,单词之间的排列顺序

位置编码公式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 注意力机制

在这里插入图片描述
注意力机制计算公式
在这里插入图片描述
例子1:
在这里插入图片描述
例子2:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

残差和Laynorm

在这里插入图片描述

  • x1和x2是词向量
  • 经过位置编码后对应位相加得到新的x1和x2
  • 经过注意力层得到z1和z2
  • 把x和z对应位相加作为残差的一个结果
  • 经过layerNorm后输出

3.1 残差

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

PS:使用LayerNorm而不使用传统BatchNorm

BN

feature scaling为了让模型收敛的更快
在这里插入图片描述
BN:对整个Batch样本的同一纬度做处理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

LN

在这里插入图片描述

3. 前馈神经网络

在这里插入图片描述

Decoder细节

1. 多头注意力机制

在这里插入图片描述
在这里插入图片描述

2. 交互层

在这里插入图片描述
在这里插入图片描述
encoder和每一个decoder做交互
在这里插入图片描述
encoder生成K、V矩阵
decoder生成Q矩阵
在这里插入图片描述

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值