【CVPR2022】MPViT : Multi-Path Vision Transformer for Dense Prediction

最新推荐文章于 2023-03-23 11:22:17 发布

计算机科研狗@OUC

最新推荐文章于 2023-03-23 11:22:17 发布

阅读量622

点赞数 1

分类专栏：论文推介文章标签： Transformer

本文链接：https://blog.csdn.net/gaopursuit/article/details/123676316

版权

论文推介专栏收录该内容

78 篇文章 14 订阅

订阅专栏

请添加图片描述

论文链接：https://arxiv.org/abs/2112.11010

代码链接：https://git.io/MPViT

作者以不同于现有Transformer的视角，探索多尺度path embedding与multi-path结构，提出了Multi-path Vision Transformer(MPViT) ，技术框架如下图所示。

请添加图片描述

conv-stem

输入图像大小为：H×W×3，两层卷积：采用两个3×3的卷积，通道分别为C2/2，C2，stride为2，生成特征的大小为H/4×W/4×C2，其中C2为stage 1的通道大小。从stage 2到stage 4，作者在每个阶段对所提出的 Multi-scale Patch Embedding (MS-PatchEmbed)和 Multi-path Transformer (MP-Transformer)块进行堆叠。

Multi-scale patch embedding

作者并行的使用不同尺寸的卷积核（3×3, 5×5, 7×7）处理，可以生成相同序列的 tokens。在实现中，作者使用3×3卷积，同时用两个连续的3×3卷积代替5×5卷积，三个连续的3×3卷积代替7×7卷积。（为降低计算量，全部使用 depth-wise conv 和 point-wise conv，每个卷积之后都是Batch Normalization 和一个Hardswish激活函数）。

Multi-path transformer

MPViT 将CNN与Transformer结合起来，有一个卷积分支，三个 Transformer 分支。卷积分支采用 MobileNet 的结构。在 Transformer block 中，为了降低计算量采用了 CoaT 中的分解自注意力 Factorized MHSA。

最后是 Global-to-local feature interaction，将多个分支的特征拼接并用1×1的卷积融合。和最近的很多方法一样，作进行选择用GAP取代 CLS token。

实验部分不再过多介绍，可以阅读作者论文。

计算机科研狗@OUC

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【CVPR2022】MPViT : Multi-Path Vision Transformer for Dense Prediction

论文链接：https://arxiv.org/abs/2112.11010代码链接：https://git.io/MPViT作者以不同于现有Transformer的视角，探索多尺度path embedding与multi-path结构，提出了Multi-path Vision Transformer(MPViT) ，技术框架如下图所示。conv-stem输入图像大小为：H×W×3，两层卷积：采用两个3×3的卷积，通道分别为C2/2，C2，stride为2，生成特征的大小为H/4×W/4×C2..
复制链接

扫一扫

专栏目录