模型搭建论文精读——论文精读系列

Wu H, Xiao B, Codella N, et al. Cvt: Introducing convolutions to vision transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 22-31.

(本文图片来自原论文)


文章目录


一、论文创新点总结

对于ViT模型进一步改进策略——通过引入卷积的方式:

  1. 新的embedding方式—— Convolutional token embedding
  2. 新的QKV映射方式——Convolutional projection

二、文章内容概述

1.  Introduction

  • Transformer从NLP到CV的发展过程,及其特点:全局关联性
  • ViT在小规模数据集上表演不如CNN可能的原因:CNN所具有的捕捉二维局部结构特性的能力:CNN通过局部接收域、共享权值、空间子采样等方式来获取图像位移、缩放和失真不变性。从而同时获得图像低维边缘信息和高维语义信息
  • 本工作将卷积合理的引入ViT当中,成为CvT网络模型。(模型结构上面已经介绍,这里不再赘述,后面还会详细介绍实验过程)

2.  Related Work

  • Transformer在视觉领域广泛应用
  • Vision Transformers : 具体实现概述;后来的改进工作(针对位置编码、patch的embeding方式、通过滑动窗口实现token之间关联性的计算、多级设计)

  • Introducing Self-attentions to CNNs:工作——建立全局关联性。相关工作举例:将CNN中的卷积替换成全局自注意力在Resnet最后三层
  • Introducing Convolutions to Transformers:相关工作:将多头注意力替换成卷积;增加平行的额外卷积层;通过残差层传递注意力权重图。我们的工作的不同点:将卷积引入到ViT两个关键的位置——QKV映射;使用多层级结构实现token maps的建立

3.  Convolutional vision Transformer

  • 借鉴了CNN的多层级结构:
    • 一共分三层;
    • 每层有两部分:1. ConvolutioToken Embedding ——层输入图像或者转换得到的二维token maps(得到重叠的patch,也就是卷积操作)注意:不添加位置信息;  2. Convolutional Transformer Blocks——包括:一个卷积映射操作;cls_token只在最后一层加上去;MLP

3.1. Convolutional Token Embedding

输入:x_{i-1}\epsilon R^{H_{i-1}\times W_{i-1}\times C_{i-1}}

过程:f(.)   

  • 二维卷积操作:
    • 卷积核大小:s\times s
    • 步长:s-o
    • padding: p

 

 

输出:f(x_{i})\epsilon R^{H_{i}\times W_{i}\times C_{i}}

处理:

  • 展平到:H_{i}W_{i}\times C_{i}
  • normalized: layer normalization

3.2. Convolutional Projection for Attention

3.2.1 Implementation Details

 

3.2.2 Efficiency Considerations

在尽量保证性能的前提下,减少了计算复杂度

3.3. Methodological Discussions

  • Removing Positional Embeddings: 因为QKV的映射采用卷积的形式,因此模型对于局部空间关系有了建模能力,位置编码的工作就可以省略掉;
  • Relations to Concurrent Work: 

4. Experiments

4.1. Setup

  • Model Variants

4.2. Comparison to state of the art

4.3. Downstream task transfer

4.4. Ablation Study
 

  • Removing Position Embedding
  •  Convolutional Token Embedding

  • Convolutional Projection

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值