论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction

BlueagleAI

已于 2024-03-12 17:06:56 修改

阅读量843

点赞数

分类专栏： Backbone Transformer 文章标签：论文阅读 transformer 深度学习

于 2023-03-01 11:08:36 首次发布

本文链接：https://blog.csdn.net/blueag1e/article/details/129265987

版权

Backbone 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

Transformer

1 篇文章 0 订阅

订阅专栏

本文提出了一种新的多路径视觉Transformer模型，用于密集预测任务。该模型结合了多尺度嵌入和全局到局部特征交互，旨在同时捕获精细和粗糙的特征。网络结构包括四阶段的特征层次，使用MS-PatchEmbed和MP-Transformer层。实验表明，通过结合局部连通性和全局上下文，模型能有效地进行预测。

摘要由CSDN通过智能技术生成

中文标题：基于多路视觉Transformer的密集预测（Multi-Path Vision Transformer）

在这里插入图片描述

提出问题

创新点

提出了一种具有多路径结构的多尺度嵌入方法，以同时表示密集预测任务的精细和粗糙特征。
全局到局部的特征交互（GLI），以同时利用卷积的局部连通性和转换器的全局上下文。

网络结构

在这里插入图片描述

建立了一个四阶段的特征层次图来生成不同尺度的特征映射。
步骤：
第1层(stem)：对于输入HxWx3，我们设计了一个由两个3x3，步长为4，输出通道数为 $C_2$ 的卷积。
第2-5层：反复叠加MS-PatchEmbed(multi-scale patch embedding)以及MP-Transformer（multi-path Transformer）。和ViT原始论文相比，很多论文实验证明把Cls（分类头）换成average pooling同样有效。

Multi-Scale Patch Embedding

输入特征 $X_i \in \mathbb{R}^{H_{i-1} \times W_{i-1} \times C_{i-1}}$ , 学习一个 $F_{k\times k}(·)$ 将 $X_i$ 排布成新Tokens $F_{k \times k} \in \mathbb{R}^{H_{i} \times W_{i} \times C_{i}}$ ，它的通道数为 $C_i$ 。F的构型为一个大小 $\times k$ ，步长s，padding为p的卷积。
通过改变 $\times k$ 的大叫改变Patch的尺寸。卷积补丁嵌入层使我们能够通过改变stride和padding来调整标记的序列长度（输出尺寸）。
接着我们得到 $F_{3\times 3}, F_{5\times 5},F_{7\times 7}$ 。
这里是对输入特征进行多次3x3的卷积来达到加大感受野的效果。

Global-to-Local Feature Interaction

虽然transformer中的自我关注可以捕获大范围依赖关系（即全局上下文），但它很可能会忽略每个补丁中的结构性信息和局部关系。
此外，Transformer受益于shape-bias[52]，允许他们专注于图像的重要部分。

[52]卷积神经网络利用滤波器将图像中的Patchs赋予相同的权重，这类似于视觉皮层中的一个神经元对特定刺激的反应。通过训练这些滤波器的权值，CNN可以学习每个特定类别的图像表示，并已被证明与视觉皮层的处理有许多相似之处。然而，这种局部连通性可能会导致全局环境的丢失；例如，它可能会鼓励人们倾向于根据纹理而不是形状进行分类。
而Transformer则是以自监督为主干，这种机制允许我们在上下文（不同patch间）中增强某些信息的相关性。

卷积可以利用平移不变性中的局部连通性——图像中的每个补丁都由相同的权值处理。这种归纳偏差鼓励CNN在对视觉对象进行分类时，对纹理有更强的依赖性，而不是形状。
因此，MPViT以一种互补的方式将cnn的局部连接与全局上下文转换器结合起来。
分别使用卷积以及Transformer对tokens $F_{k \times k}$ 提取特征。 $H (\cdot)$ 是特征通道融合器。

在这里插入图片描述
-Tiny是最小的网络。增加路径数意味着要减小通道数C或者层数L。

Experiments

The stochastic depth drop is only used in the small and Base sized models, where we set the rates to 0.05 and 0.3.

Stochastic depth reduces the network depth during training in expectation while maintaining the full depth at testing time. Training with stochastic depth allows one to increase the depth of a network well beyond 1000 layers, and still obtain a reduction in test error.

参考文献

[1] Lee Y, Kim J, Willette J, et al. Mpvit: Multi-path vision transformer for dense prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7287-7296.
[52] Shikhar Tuli, Ishita Dasgupta, Erin Grant, and Thomas L Griffiths. Are convolutional neural networks or transformers more like human vision? arXiv preprint arXiv:2105.07197, 2021. 4

BlueagleAI

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction

MPViT : Multi-Path Vision Transformer for Dense Prediction
复制链接

扫一扫