Transformer在视觉的应用

最新推荐文章于 2024-08-14 11:19:52 发布

小蒋的学习笔记

最新推荐文章于 2024-08-14 11:19:52 发布

阅读量167

点赞数

分类专栏：深度学习文章标签： transformer 深度学习人工智能

桂林电子科技大学计算机与信息安全学院蒋熹煜

本文链接：https://blog.csdn.net/qq_61735602/article/details/134707643

版权

深度学习专栏收录该内容

54 篇文章 3 订阅

订阅专栏

文章目录

Vison Transformer
Swin Transformer
Visual Attention Network

在这里插入图片描述

在这里插入图片描述

Vison Transformer

transformer 在 cv 中最重要的算法

Linear Projection of Flattened Patches
对于标准的Transformer模块，要求输入的是token（向量）序列，即二维矩阵［num_token，token_dim］。对于图像数据而言，其数据格式为［H，W，C］是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。
具体来说，直接使用一个卷积核大小为16x16，步距为16，卷积核个数为768的卷积来实现线性映射，这个卷积操作产生shape变化为［224，224，3］->［14，14，768］，然后把H以及W两个维度展平（FlattenedPatches）即可，shape变化为（［14，14，768］->［196，768］），此时正好变成了一个二维矩阵，正是
Transformer想要的。
在输入Transformer Encoder之前注意需要加上［class］token以及Position Embedding。

在这里插入图片描述
2. Transformer Encoder
Transformer Encoder其实就是重复堆叠如下图所示的Encoder BlockL次，主要由以下几部分组成
MLPBlock就是全连接+GELU激活函数+Dropout组成也非常简单，需要注意的是第一个全连接层会把输入节点个数翻4倍［197，768］->［197，3072］，第二个全连接层会还原回原节点个数［197，3072］->［197， 768］

3.MLP Head
上面通过Transformer Encoder后输出的shape和输入的shape是保持不变的，以ViT-B/16为例，输入的是［197，768］输出的还是［197，768］。
这里我们只是需要分类的信息，所以我们只需要提取出［class］token生成的对应结果就行，即［197，768］中抽取出［class］token对应的［1，768］，因为self-attention计算全局信息的特征，这个［class］token其中已经融合了其他token的信息。接着我们通过MLP Head得到我们最终的分类结果。

在这里插入图片描述

数据>策略>模型

Swin Transformer

在这里插入图片描述

Visual Attention Network

在这里插入图片描述

小蒋的学习笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer在视觉的应用

Vison Transformer、Swin Transformer、Visual Attention Network网络结构收藏
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小蒋的学习笔记 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。