中文标题:基于多路视觉Transformer的密集预测(Multi-Path Vision Transformer)
提出问题
创新点
- 提出了一种具有多路径结构的多尺度嵌入方法,以同时表示密集预测任务的精细和粗糙特征。
- 全局到局部的特征交互(GLI),以同时利用卷积的局部连通性和转换器的全局上下文。
网络结构
- 建立了一个四阶段的特征层次图来生成不同尺度的特征映射。
- 步骤:
- 第1层(stem):对于输入HxWx3,我们设计了一个由两个3x3,步长为4,输出通道数为 C 2 C_2 C2的卷积。
- 第2-5层:反复叠加MS-PatchEmbed(multi-scale patch embedding)以及MP-Transformer(multi-path Transformer)。和ViT原始论文相比,很多论文实验证明把Cls(分类头)换成average pooling同样有效。
Multi-Scale Patch Embedding
- 输入特征
X
i
∈
R
H
i
−
1
×
W
i
−
1
×
C
i
−
1
X_i \in \mathbb{R}^{H_{i-1} \times W_{i-1} \times C_{i-1}}
Xi∈RHi−1×Wi−1×Ci−1, 学习一个
F
k
×
k
(
⋅
)
F_{k\times k}(·)
Fk×k(⋅)将
X
i
X_i
Xi排布成新Tokens
F
k
×
k
∈
R
H
i
×
W
i
×
C
i
F_{k \times k} \in \mathbb{R}^{H_{i} \times W_{i} \times C_{i}}
Fk×k∈RHi×Wi×Ci,它的通道数为
C
i
C_i
Ci。F的构型为一个大小
k
×
k
k \times k
k×k,步长s,padding为p的卷积。
- 通过改变 k × k k \times k k×k的大叫改变Patch的尺寸。卷积补丁嵌入层使我们能够通过改变stride和padding来调整标记的序列长度(输出尺寸)。
- 接着我们得到 F 3 × 3 , F 5 × 5 , F 7 × 7 F_{3\times 3}, F_{5\times 5},F_{7\times 7} F3×3,F5×5,F7×7。
- 这里是对输入特征进行多次3x3的卷积来达到加大感受野的效果。
Global-to-Local Feature Interaction
- 虽然transformer中的自我关注可以捕获大范围依赖关系(即全局上下文),但它很可能会忽略每个补丁中的结构性信息和局部关系。
- 此外,Transformer受益于shape-bias[52],允许他们专注于图像的重要部分。
[52]卷积神经网络利用滤波器将图像中的Patchs赋予相同的权重,这类似于视觉皮层中的一个神经元对特定刺激的反应。通过训练这些滤波器的权值,CNN可以学习每个特定类别的图像表示,并已被证明与视觉皮层的处理有许多相似之处。然而,这种局部连通性可能会导致全局环境的丢失;例如,它可能会鼓励人们倾向于根据纹理而不是形状进行分类。
而Transformer则是以自监督为主干,这种机制允许我们在上下文(不同patch间)中增强某些信息的相关性。
- 卷积可以利用平移不变性中的局部连通性——图像中的每个补丁都由相同的权值处理。这种归纳偏差鼓励CNN在对视觉对象进行分类时,对纹理有更强的依赖性,而不是形状。
- 因此,MPViT以一种互补的方式将cnn的局部连接与全局上下文转换器结合起来。
- 分别使用卷积以及Transformer对tokens F k × k F_{k \times k} Fk×k提取特征。 H ( ⋅ ) H(·) H(⋅)是特征通道融合器。
-Tiny是最小的网络。增加路径数意味着要减小通道数C或者层数L。
Experiments
- The stochastic depth drop is only used in the small and Base sized models, where we set the rates to 0.05 and 0.3.
Stochastic depth reduces the network depth during training in expectation while maintaining the full depth at testing time. Training with stochastic depth allows one to increase the depth of a network well beyond 1000 layers, and still obtain a reduction in test error.
参考文献
[1] Lee Y, Kim J, Willette J, et al. Mpvit: Multi-path vision transformer for dense prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7287-7296.
[52] Shikhar Tuli, Ishita Dasgupta, Erin Grant, and Thomas L Griffiths. Are convolutional neural networks or transformers more like human vision? arXiv preprint arXiv:2105.07197, 2021. 4