模型搭建论文精读——论文精读系列

最新推荐文章于 2022-11-14 22:42:51 发布

VR图像质量评估_小研的进阶

最新推荐文章于 2022-11-14 22:42:51 发布

阅读量622

点赞数 1

分类专栏：论文阅读系列文章标签： python 机器学习 pandas

本文链接：https://blog.csdn.net/qq_42351942/article/details/126700964

版权

论文阅读系列专栏收录该内容

7 篇文章 2 订阅

订阅专栏

Wu H, Xiao B, Codella N, et al. Cvt: Introducing convolutions to vision transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 22-31.

(本文图片来自原论文)

文章目录

一、论文创新点总结

对于ViT模型进一步改进策略——通过引入卷积的方式：

新的embedding方式—— Convolutional token embedding
新的QKV映射方式——Convolutional projection

二、文章内容概述

1. Introduction

Transformer从NLP到CV的发展过程，及其特点：全局关联性
ViT在小规模数据集上表演不如CNN可能的原因：CNN所具有的捕捉二维局部结构特性的能力：CNN通过局部接收域、共享权值、空间子采样等方式来获取图像位移、缩放和失真不变性。从而同时获得图像低维边缘信息和高维语义信息
本工作将卷积合理的引入ViT当中，成为CvT网络模型。（模型结构上面已经介绍，这里不再赘述，后面还会详细介绍实验过程）

2. Related Work

Transformer在视觉领域广泛应用
Vision Transformers : 具体实现概述；后来的改进工作（针对位置编码、patch的embeding方式、通过滑动窗口实现token之间关联性的计算、多级设计）

Introducing Self-attentions to CNNs：工作——建立全局关联性。相关工作举例：将CNN中的卷积替换成全局自注意力在Resnet最后三层
Introducing Convolutions to Transformers：相关工作：将多头注意力替换成卷积；增加平行的额外卷积层；通过残差层传递注意力权重图。我们的工作的不同点：将卷积引入到ViT两个关键的位置——QKV映射；使用多层级结构实现token maps的建立

3. Convolutional vision Transformer

借鉴了CNN的多层级结构：
- 一共分三层；
- 每层有两部分：1. ConvolutioToken Embedding ——层输入图像或者转换得到的二维token maps（得到重叠的patch,也就是卷积操作）注意：不添加位置信息; 2. Convolutional Transformer Blocks——包括：一个卷积映射操作；cls_token只在最后一层加上去；MLP

3.1. Convolutional Token Embedding

输入： $x_{i-1}\epsilon R^{H_{i-1}\times W_{i-1}\times C_{i-1}}$

过程： $f(.)$

二维卷积操作：
卷积核大小： $s\times s$
步长： $s-o$
padding: $p$

输出： $f(x_{i})\epsilon R^{H_{i}\times W_{i}\times C_{i}}$

处理：

展平到： $H_{i}W_{i}\times C_{i}$
normalized: layer normalization