Transformer

最新推荐文章于 2024-06-11 15:16:58 发布

Nismilesucc

最新推荐文章于 2024-06-11 15:16:58 发布

阅读量244

点赞数

分类专栏： Computer Vision

HUIKI

本文链接：https://blog.csdn.net/Nismilesucc/article/details/117787432

版权

Computer Vision 专栏收录该内容

8 篇文章 3 订阅

订阅专栏

前言

近期学习了之前在nlp领域很火的transformer，希望能够扩宽它在视觉领域内的应用。

Transformer

Attention is all you need中提出了transformer这种network架构，transformer中最重要的module就是self-attention，本章学习内容来自于李宏毅老师的transformer讲解课程，代码源自github ViT

transformer就是一种seq2seq的model

在这里插入图片描述
应用举例：训练一个聊天机器人

在这里插入图片描述
对不同的任务定制不同的model将会取得更好的结果。

也可以应用在一些看起来不那么像sequence to sequence的问题中：
在这里插入图片描述

seq2seq

在这里插入图片描述

Encoder

在这里插入图片描述

BERT的网络架构就是transformer encoder这样的

encoder也可以是其他架构设计，例如：
在这里插入图片描述

Decoder

常用的Decoder是用Autoregressive来实现的
在这里插入图片描述

Masked Multi-head attention

在这里插入图片描述

Decoder必须自己决定输出的sequence长度，即什么时候停止
在这里插入图片描述

Decoder：Non-autoregressive (NAT)

在这里插入图片描述

Encoder和Decoder之间的连接

在这里插入图片描述

decoder不管哪一层的输入一定都是encoder的最后一层吗？
其实也可以有各式各样的连接方式。

Training

之前都是假设模型已经训练好了，看它怎么运作，现在我们来看怎么训练这个网络。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Transformer

前言近期学习了之前在nlp领域很火的transformer，希望能够扩宽它在视觉领域内的应用。TransformerAttention is all you need中提出了transformer这种network架构，transformer中最重要的module就是self-attention，本章学习内容来自于李宏毅老师的transformer讲解课程，代码源自github ViTtransformer就是一种seq2seq的model应用举例：训练一个聊天机器人对不同的任务定制不同的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。