论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction

中文标题:基于多路视觉Transformer的密集预测(Multi-Path Vision Transformer)

在这里插入图片描述

提出问题

创新点

  • 提出了一种具有多路径结构的多尺度嵌入方法,以同时表示密集预测任务的精细和粗糙特征。
  • 全局到局部的特征交互(GLI),以同时利用卷积的局部连通性和转换器的全局上下文。

网络结构

在这里插入图片描述

  • 建立了一个四阶段的特征层次图来生成不同尺度的特征映射。
  • 步骤
  • 第1层(stem):对于输入HxWx3,我们设计了一个由两个3x3,步长为4,输出通道数为 C 2 C_2 C2的卷积。
  • 第2-5层:反复叠加MS-PatchEmbed(multi-scale patch embedding)以及MP-Transformer(multi-path Transformer)。和ViT原始论文相比,很多论文实验证明把Cls(分类头)换成average pooling同样有效。

Multi-Scale Patch Embedding

  • 输入特征 X i ∈ R H i − 1 × W i − 1 × C i − 1 X_i \in \mathbb{R}^{H_{i-1} \times W_{i-1} \times C_{i-1}} XiRHi1×Wi1×Ci1, 学习一个 F k × k ( ⋅ ) F_{k\times k}(·) Fk×k() X i X_i Xi排布成新Tokens F k × k ∈ R H i × W i × C i F_{k \times k} \in \mathbb{R}^{H_{i} \times W_{i} \times C_{i}} Fk×kRHi×Wi×Ci,它的通道数为 C i C_i Ci。F的构型为一个大小 k × k k \times k k×k,步长s,padding为p的卷积。
    在这里插入图片描述
  • 通过改变 k × k k \times k k×k的大叫改变Patch的尺寸。卷积补丁嵌入层使我们能够通过改变stride和padding来调整标记的序列长度(输出尺寸)。
  • 接着我们得到 F 3 × 3 , F 5 × 5 , F 7 × 7 F_{3\times 3}, F_{5\times 5},F_{7\times 7} F3×3,F5×5,F7×7
  • 这里是对输入特征进行多次3x3的卷积来达到加大感受野的效果。

Global-to-Local Feature Interaction

  • 虽然transformer中的自我关注可以捕获大范围依赖关系(即全局上下文),但它很可能会忽略每个补丁中的结构性信息和局部关系。
  • 此外,Transformer受益于shape-bias[52],允许他们专注于图像的重要部分。

[52]卷积神经网络利用滤波器将图像中的Patchs赋予相同的权重,这类似于视觉皮层中的一个神经元对特定刺激的反应。通过训练这些滤波器的权值,CNN可以学习每个特定类别的图像表示,并已被证明与视觉皮层的处理有许多相似之处。然而,这种局部连通性可能会导致全局环境的丢失;例如,它可能会鼓励人们倾向于根据纹理而不是形状进行分类。
而Transformer则是以自监督为主干,这种机制允许我们在上下文(不同patch间)中增强某些信息的相关性。

  • 卷积可以利用平移不变性中的局部连通性——图像中的每个补丁都由相同的权值处理。这种归纳偏差鼓励CNN在对视觉对象进行分类时,对纹理有更强的依赖性,而不是形状。
  • 因此,MPViT以一种互补的方式将cnn的局部连接与全局上下文转换器结合起来。
  • 在这里插入图片描述
  • 分别使用卷积以及Transformer对tokens F k × k F_{k \times k} Fk×k提取特征。 H ( ⋅ ) H(·) H()是特征通道融合器。

在这里插入图片描述
-Tiny是最小的网络。增加路径数意味着要减小通道数C或者层数L。

Experiments

  • The stochastic depth drop is only used in the small and Base sized models, where we set the rates to 0.05 and 0.3.

    Stochastic depth reduces the network depth during training in expectation while maintaining the full depth at testing time. Training with stochastic depth allows one to increase the depth of a network well beyond 1000 layers, and still obtain a reduction in test error.

参考文献

[1] Lee Y, Kim J, Willette J, et al. Mpvit: Multi-path vision transformer for dense prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7287-7296.
[52] Shikhar Tuli, Ishita Dasgupta, Erin Grant, and Thomas L Griffiths. Are convolutional neural networks or transformers more like human vision? arXiv preprint arXiv:2105.07197, 2021. 4

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BlueagleAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值