论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction

甜橙不加冰

已于 2022-04-27 16:58:55 修改

阅读量3.7k

点赞数 7

分类专栏：论文阅读文章标签：深度学习

于 2022-04-25 10:22:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Qingkaii/article/details/124398735

版权

论文阅读专栏收录该内容

16 篇文章 5 订阅

订阅专栏

最先进的ViT使用单尺度的patch embedding和单路径transformer编码器

MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。

Ø将多尺度patch嵌入，通过重叠卷积将其拉平成为不同尺寸的token，在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。

Ø然后，来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中，执行全局自我关注。

Ø然后聚合生成的特征，从而在相同的特征级别上实现精细和粗略的特征表示。

由于我们的目标是探索用于密集预测的强大骨干网络，因此我们构建了一个多级体系结构。具体来说，构建了一个四阶段特征层次结构，用于生成不同尺度的特征图。

它们输出密集预测任务四个阶段中，作者在每个阶段对所提出的Multi-scale Patch Embedding(MS-PatchEmbed)和Multi-path Transformer(MP-Transformer)块进行堆叠。

由于多级体系结构具有更高分辨率的特点，因此它本质上需要更多的计算。因此，由于其线性复杂性，我们对整个模型使用了包括Factorzed Self attention的Transformer编码器。

思考：如何应用/改进

甜橙不加冰

关注

7
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：MPViT : Multi-Path Vision Transformer for Dense Prediction

最先进的ViT使用单尺度的patch embedding和单路径transformer编码器MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。Ø将多尺度patch嵌入，通过重叠卷积将其拉平成为不同尺寸的token，在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。Ø然后，来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中，执行全局自我关注。Ø然后聚合生成的特征，从而在相同的特征级别上实现精细和粗略的特征表示。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。