Transformer架构 VIT

VIT 简单来说就说在视觉中怎么去做transfomer

transfomer的输入得是一个序列,我们用transfomer做视觉的时候不能把一整张图片传进去,而是考虑把一张图片分成多个小块,比如下图把图片分成九个小块,按照从左到右,从上到下分别标称序号1,2,3,4,5,6,7,8,9,每个小块还是图片,然后通过Embedding转换成向量,然后通过Linear Projection Flattened Patches全连接对这些向量做一个整合。因为我们把分成了9小块图像,这些图像之间也是有位置顺序的,这里也和bert一样加上位置编码
在这里插入图片描述

CNN最大的问题

CNN中的“格局和眼界”就是感受野。CNN中想要获得大的感受野(全局的信息)就必须堆叠很多层卷积,问题就说不断卷积+池化的操作有点麻烦还不一定好。Transformer的架构感受野这件事情做的比较好,Transformer根本不需要堆叠,就可以直接获得全局信息。但是Transformer训练数据得到位才行(必须得数据量大)。
下图是vit的感受野,浅层就能捕获较大范围信息,全局信息丰富,更好理解整个图像
在这里插入图片描述

位置编码

Embedded一般有三种形式,不加位置编码,加上行位置编码,加上行列位置编码。我们选取最好的一种。
结论是:编码有用,但是怎么编码影响不大,干脆用简单的
在这里插入图片描述

TNT (Transformer in Transformer)

VIT中只对针对patch进行建模,忽略了其中更小的细节
TNT比VIT的效果要比VIT强一些,做的更细了,主要就是batch做的更细一些,又嵌套了一层Transformer

TNT的基础组成

外部Transformer 处理的序列 和 VIT一样
内部Transformer 重组成多个超像素(4个像素点) 就说按照四个像素点把batch再拆分成一个个小块

TNT的基本计算

内部Transformer 重组成新的向量,新向量再通过全连接改变输出特征大小,内部组合后的向量与外部Transformer patch编码大小相同,最后与原始输入patch向量进行相加

TNT位置编码实验

内外兼修,都加编码效果最好
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dzm1204

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值