VIT与changeformer论文阅读笔记

本文链接：https://blog.csdn.net/weixin_43013480/article/details/137213555

本文介绍了VIT模型如何将图像转换为token序列，使用卷积层和Transformer结构进行特征提取。同时提到ChangeFormer在变化检测领域的应用，它基于Transformer框架进行常规操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

VIT

模型整体流程

VIT主要就是引入transformer到CV中，众所周知transformer相当于是句子的输入，那么最主要的就是看如何将图像转为token序列，实际上是通过一个卷积层来实现的，如下图所示。
在这里插入图片描述
首先卷积层的卷积核大小为16 × 16，stride为16，卷积核的个数为768，通过卷积层之后，数据层由224 × 224 × 3 变成14 × 14 × 768 ，接着我们在高度和宽度方向上进行一个Flatten打平处理196 × 768，接着我们Concat一个Class Token(1 × 768)，然后在加上Position Embedding(196 × 768 196\times 768196×768)，再经过一个Dorpout层，在经过Transformer Encoder层(重复L次)。
下面的图很形象了：
在这里插入图片描述