VIT与changeformer论文阅读笔记

VIT

模型整体流程

VIT主要就是引入transformer到CV中,众所周知transformer相当于是句子的输入,那么最主要的就是看如何将图像转为token序列,实际上是通过一个卷积层来实现的,如下图所示。
在这里插入图片描述
首先卷积层的卷积核大小为16 × 16,stride为16,卷积核的个数为768,通过卷积层之后,数据层由224 × 224 × 3 变成14 × 14 × 768 ,接着我们在高度和宽度方向上进行一个Flatten打平处理196 × 768,接着我们Concat一个Class Token(1 × 768),然后在加上Position Embedding(196 × 768 196\times 768196×768),再经过一个Dorpout层,在经过Transformer Encoder层(重复L次)。
下面的图很形象了:
在这里插入图片描述

其它细节

1、不加 cls字符结果区别不大
2、不加position embedding结果有下降,但是不大。

参考资料:

1、https://blog.csdn.net/abc13526222160/article/details/131228810
2、https://blog.csdn.net/qq_56591814/article/details/127358168

ChangeFormer

transformer引入图像领域后,变化检测领域就用tansfromer框架进行了设计。相当于搬砖了。

就是一些常规的操作,图像输入成token采用的仍然是VIT的方法。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值