Transformer架构 VIT

最新推荐文章于 2023-08-21 19:44:41 发布

dzm1204

最新推荐文章于 2023-08-21 19:44:41 发布

阅读量1.4k

点赞数

分类专栏： # Transformer 文章标签： python 深度学习 transformer 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45893652/article/details/127898022

版权

Transformer 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

VIT 简单来说就说在视觉中怎么去做transfomer

transfomer的输入得是一个序列，我们用transfomer做视觉的时候不能把一整张图片传进去，而是考虑把一张图片分成多个小块，比如下图把图片分成九个小块，按照从左到右，从上到下分别标称序号1，2，3，4，5，6，7，8，9,每个小块还是图片，然后通过Embedding转换成向量,然后通过Linear Projection Flattened Patches全连接对这些向量做一个整合。因为我们把分成了9小块图像，这些图像之间也是有位置顺序的，这里也和bert一样加上位置编码。
在这里插入图片描述

CNN最大的问题

CNN中的“格局和眼界”就是感受野。CNN中想要获得大的感受野（全局的信息）就必须堆叠很多层卷积，问题就说不断卷积+池化的操作有点麻烦还不一定好。Transformer的架构感受野这件事情做的比较好，Transformer根本不需要堆叠，就可以直接获得全局信息。但是Transformer训练数据得到位才行（必须得数据量大）。
下图是vit的感受野，浅层就能捕获较大范围信息，全局信息丰富，更好理解整个图像
在这里插入图片描述

位置编码

Embedded一般有三种形式，不加位置编码，加上行位置编码，加上行列位置编码。我们选取最好的一种。
结论是：编码有用，但是怎么编码影响不大，干脆用简单的
在这里插入图片描述

TNT （Transformer in Transformer）

VIT中只对针对patch进行建模，忽略了其中更小的细节
TNT比VIT的效果要比VIT强一些，做的更细了，主要就是batch做的更细一些，又嵌套了一层Transformer

TNT的基础组成

外部Transformer 处理的序列和 VIT一样
内部Transformer 重组成多个超像素（4个像素点）就说按照四个像素点把batch再拆分成一个个小块

TNT的基本计算

内部Transformer 重组成新的向量，新向量再通过全连接改变输出特征大小，内部组合后的向量与外部Transformer patch编码大小相同，最后与原始输入patch向量进行相加

TNT位置编码实验

内外兼修，都加编码效果最好
在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer架构 VIT

transfomer的输入得是一个序列，我们用transfomer做视觉的时候不能把一整张图片传进去，而是考虑把一张图片分成多个小块，比如下图把图片分成九个小块，按照从左到右，从上到下分别标称序号1，2，3，4，5，6，7，8，9,每个小块还是图片，然后通过Embedding转换成向量,然后通过全连接对这些向量做一个整合。因为我们把分成了9小块图像，这些图像之间也是有位置顺序的，这里也和bert一样加上。
复制链接

扫一扫

专栏目录

dzm1204 CSDN认证博客专家 CSDN认证企业博客

码龄5年

23: 原创

42万+: 周排名

137万+: 总排名

1万+: 访问

: 等级

263: 积分

8: 粉丝

22: 获赞

5: 评论

63: 收藏

私信

关注

热门文章

分类专栏

最新评论

ros解决同一个节点不能同时启动
boreno: 你好、再哪里修改呢
YOLO系列-yolov2
namelijink: 迪哥的视频，整理也费心了
笛卡尔空间下的机械臂路径规划算法
m0_73155415: 请问这个代码怎么用到我自己配置的moveit机械臂包中
MMLAB学习-MMCLS项目-训练自己的任务
dzm1204: 生成的配置文件里会有workdir的地址，用来保存模型和日志，仔细对照一下路径找一找
MMLAB学习-MMCLS项目-训练自己的任务
落栀星: 你好，我给config配置参数的时候并不能生成一个work_dir的文件夹，请问这个怎么解决呀 usage: train.py [-h] [--work-dir WORK_DIR] [--resume-from RESUME_FROM] [--no-validate] [--device DEVICE | --gpus GPUS | --gpu-ids GPU_IDS [GPU_IDS ...] | --gpu-id GPU_ID] [--ipu-replicas IPU_REPLICAS] [--seed SEED] [--diff-seed] [--deterministic] [--cfg-options CFG_OPTIONS [CFG_OPTIONS ...]] [--launcher {none,pytorch,slurm,mpi}] [--local_rank LOCAL_RANK] config train.py: error: unrecognized arguments: Project\\mmclassification-master\\configs\\resnet\\resnet18_8xb32_in1k.py

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

dzm1204 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。