Transformer

前言

近期学习了之前在nlp领域很火的transformer,希望能够扩宽它在视觉领域内的应用。

Transformer

Attention is all you need中提出了transformer这种network架构,transformer中最重要的module就是self-attention,本章学习内容来自于李宏毅老师的transformer讲解课程,代码源自github ViT

transformer就是一种seq2seq的model

在这里插入图片描述
应用举例:训练一个聊天机器人
在这里插入图片描述

在这里插入图片描述
对不同的任务定制不同的model将会取得更好的结果。

也可以应用在一些看起来不那么像sequence to sequence的问题中:
在这里插入图片描述
在这里插入图片描述

seq2seq

在这里插入图片描述

Encoder

在这里插入图片描述
在这里插入图片描述
BERT的网络架构就是transformer encoder这样的

encoder也可以是其他架构设计,例如:
在这里插入图片描述

Decoder

常用的Decoder是用Autoregressive来实现的
在这里插入图片描述
在这里插入图片描述


Masked Multi-head attention

在这里插入图片描述
在这里插入图片描述


Decoder必须自己决定输出的sequence长度,即什么时候停止
在这里插入图片描述

Decoder:Non-autoregressive (NAT)

在这里插入图片描述

Encoder和Decoder之间的连接

在这里插入图片描述
在这里插入图片描述
decoder不管哪一层的输入一定都是encoder的最后一层吗?
其实也可以有各式各样的连接方式。
在这里插入图片描述

Training

之前都是假设模型已经训练好了,看它怎么运作,现在我们来看怎么训练这个网络。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值