【论文笔记】CvT: Introducing Convolutions to Vision Transformers

论文标题:

CvT: Introducing Convolutions to Vision Transformers

CvT:将卷积引入 Vision Transformer 中

论文链接:https://arxiv.org/abs/2103.15808

论文代码:https://github.com/microsoft/CvT

发表时间:2021年3月


创新点:

1、将卷积应用到 Vision Transformer 中,提升了空间信息

2、基于此,提出了一个新的架构卷积视觉变换器 CVT


Abstract

本文提出了一种新的结构,称为卷积视觉变换器(CvT),它通过在 ViT 中引入卷积来提高视觉变换器(ViT)的性能和效率。这是通过两个主要修改来实现的:包含新卷积令牌嵌入的 Transformer 层次结构,以及利用卷积投影的卷积 Transformer 块。这些变化将卷积神经网络(CNN)的理想特性引入 ViT 体系结构(即平移、缩放和失真不变性),同时保持 Transformer 的优点(即动态注意、全局上下文和更好的泛化)。

我们通过进行大量实验来验证 CvT,结果表明,与 ImageNet-1k 上的其他 ViT 和 Resnet 相比,该方法实现了最先进的性能,参数更少,触发器更少。此外,在对更大的数据集(例如ImageNet-22k)进行预训练并对下游任务进行微调时,可以保持性能提升。我们的 CvT-W24 在 ImageNet-22k 上进行了预训练,在 ImageNet-1k val 集上获得了 87.7% 的顶级精度。

最后,我们的结果表明,位置编码是现有 ViT 中的一个关键组件,可以在我们的模型中安全地删除,从而简化高分辨率视觉任务的设计。


Method

CvT架构

总共使用了三个阶段。每个阶段有两个部分

步骤:

1)输入图像(或 2D 重构的令牌图)经过卷积令牌嵌入层

2)向量扁平化后,进入 Transformer

详解:

  • 卷积令牌嵌入层,本质就是一个二维卷积,每次卷积都能够实现减少 Transformer 令牌序列长度,并且具备空间信息
  • 这里的二维卷积,使用的是深度可分离卷积,作用是降低参数

(a) ViT 中的线性投影  (b) 卷积投影  (c) 压缩卷积投影

除非另有说明,我们默认使用 (c) 压缩卷积投影

 详解:

  • 采用压缩卷积投影,实验证明,并不会降低效果,反而减少了参数量

Experiments

实验目标:

 (a) 在 ImageNet-22k 上进行预训练时,与基于 CNN 的模型 BiT 和基于 Transformer 的模型 ViT 进行比较

 (b) 与并行工作的比较:在 ImageNet-1k 上预训练时的 DeiT 、T2T 、PVT 、TNT 

实验结果:CvT 有明显优势

实验目标:不同架构 CvT 的参数

实验结果:

实验目标:在 ImageNet、ImageNet Real 和 ImageNet V2 设计架构的准确性

实验结果:CvT 效果最优

实验目标:下游任务的 Top-1 准确度。所有模型都在 ImageNet-22k 数据上进行了预训练

实验结果: CvT-W24 效果最优

写在最后

CNN + Transformer 的架构,是否会引领新的时代呢?

  • 8
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
CGAL(计算几何算法库,Computational Geometry Algorithms Library)是一个开源的计算几何算法库,提供了一系列高性能、可靠的计算几何算法和数据结构。它是由一个国际合作项目组织开发的,主要面向科学、工程和工业应用。CGAL通过丰富的API接口,为用户提供了许多用于计算几何问题解决的算法和数据结构,如凸包、Delaunay三角剖分、Voronoi图、最近邻搜索等。 在CGAL中,CVT(Centroidal Voronoi Tessellation)是一个重要的计算几何算法。CVT是一种用于离散采样点布置的方法,通过最小化采样点与它们所属Voronoi区域质心之间的距离,使采样点在给定区域内均匀分布。CVT可以用于许多应用领域,如计算机图形学中的网格生成、物理模拟中的粒子系统等。 在CGAL中,实现CVT算法的过程可以简单描述为以下几个步骤: 1. 初始化:定义输入区域和所需采样点数量,并随机生成初始采样点。 2. 构建Voronoi图:根据采样点,构建其所属的Voronoi区域。 3. 计算质心:根据Voronoi图,计算每个Voronoi区域的质心。 4. 更新采样点:将每个采样点移动到其所属Voronoi区域的质心,以实现迭代优化。 5. 重复步骤3和步骤4,直到达到预设的迭代次数或结束条件。 通过CGAL中提供的CVT算法,用户可以灵活地调整参数和设置迭代次数,以获得满足需求的采样点布局。CVT算法的高效性和可靠性使得CGAL成为许多计算几何问题求解的首选工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来自γ星的赛亚人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值