MPVIT：Multi-Path Vision Transformer for Dense Prediction

最新推荐文章于 2024-05-09 09:31:27 发布

翰墨大人

最新推荐文章于 2024-05-09 09:31:27 发布

阅读量395

点赞数 1

分类专栏： paper总结文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_43733107/article/details/126279391

版权

paper总结专栏收录该内容

41 篇文章 10 订阅

订阅专栏

动机：
深度预测需要多尺度特征表示，在这篇文章中作者关注于如何有效的使用Vision Transformer来表示多尺度特征。
如何实现：
提出了多尺度块编码和多路径的结构，多尺度块编码通过重叠的卷积操作，将不同大小的块同时进行编码，产生的特征具有相同的序列长度，然后将产生的特征并行的输入到Transformer结构中。最后将产生的并行的粗糙的和精细特征进行融合。
通用的VIT和本文的结构
网络结构介绍：
具体结构
1：多尺度patch embedding:
经过MP-Transformer Block后的输出X（2D reshaped output feature map–>如何reshape以及reshape后的样子参考SETR），作为下一层的输入，使用卷积操作（kxk,s,p）将X映射为新的Token，那么新的feature map 大小为：
在这里插入图片描述
我们使用不同的卷积核大小来调整序列的长度，最后输出相同的尺寸，文中使用的为3x3,5x5,7x7。
2：在transformer中使用了factorized self-attention（在CoaT中也使用了）。

将transformer从单路径扩充到多路径，减少通道数C比减少层数L效果更好，由于在第二层图片的分辨率高，我们只用了两个分支。从图中我们可以知道，层数比维度更重要即网络越深比网络越宽效果更好。
在这里插入图片描述

3：在输入图片后使用了stem block,包括两个3*3卷积层，通道数为C2/2,C2，步长为2。
4：去掉了class token,在最终的特征图使用了全局平均池化。
5：局部到全局特征交互：
为了解决每一个块之间的结构信息和局部关系，引入局部到全局特征交互模块，首先将产生的特征图拼接起来，然后通过1x1卷积来进行特征间的交互，且实验证明concat比sum结果更好。

在这里插入图片描述
实验：
模型的具体配置：

翰墨大人

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MPVIT：Multi-Path Vision Transformer for Dense Prediction

MPVIT：Multi-Path Vision Transformer for Dense Prediction
复制链接

扫一扫

专栏目录