论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction

最先进的ViT使用单尺度的patch embedding和单路径transformer编码器

MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。

Ø将多尺度patch嵌入,通过重叠卷积将其拉平成为不同尺寸的token,在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。

Ø然后,来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中,执行全局自我关注。

Ø然后聚合生成的特征,从而在相同的特征级别上实现精细和粗略的特征表示。

由于我们的目标是探索用于密集预测的强大骨干网络,因此我们构建了一个多级体系结构。具体来说,构建了一个四阶段特征层次结构,用于生成不同尺度的特征图。

它们输出密集预测任务四个阶段中,作者在每个阶段对所提出的Multi-scale Patch Embedding(MS-PatchEmbed)和Multi-path Transformer(MP-Transformer)块进行堆叠。

由于多级体系结构具有更高分辨率的特点,因此它本质上需要更多的计算。因此,由于其线性复杂性,我们对整个模型使用了包括Factorzed Self attention的Transformer编码器。

 

 

思考:如何应用/改进 

  • 7
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值