【论文笔记】Vision Transformers for Dense Prediction

声明

不定期更新自己精读的论文,通俗易懂,初级小白也可以理解

涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin

论文题目:Vision Transformers for Dense Prediction

论文链接:https://arxiv.org/abs/2103.13413v1

论文代码:https://github.com/isl-org/DPT

发表时间:2021年3月

创新点

1、提出了基于 ViT 为主干架构的 Vision Transformer - DPT

Abstract

我们引入了密集视觉 Transformer,一种利用 Vision Transformer 代替卷积网络作为密集预测任务的骨干的架构。我们将来自 Vision Transformer 各个阶段的令牌组装成各种分辨率的类似图像的表示,并使用卷积解码器将它们逐步组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示,并且在每个阶段都具有全局感受野。与全卷积网络相比,这些属性允许密集视觉 Transformer 提供更细粒度和更全局连贯的预测。

我们的实验表明,这种架构对密集预测任务产生了显着的改进,尤其是在有大量训练数据可用的情况下。对于单目深度估计,我们观察到与最先进的全卷积网络相比,相对性能提高了高达 28%。 当应用于语义分割时,密集视觉转换器以 49.02% 的 mIoU 在 ADE20K 上创造了新的技术水平。

我们进一步表明,该架构可以在较小的数据集上进行微调,例如 NYUv2、KITTI 和 Pascal Context,它还设置了新的状态。 

Method

架构概述

首先,输入图像通过提取非重叠块然后对其扁平表示(DPT-Base 和 DPT-Large)进行线性投影或通过应用 ResNet-50 特征提取器(DPT-Hybrid)转换为标记(橙色);

其次,图像嵌入通过位置嵌入增强,并添加了与补丁无关的读出标记(红色)。令牌通过多个 Transformer 阶段。 作者将来自不同阶段的令牌重新组合成具有多种分辨率(绿色)的类似图像的表示;

最后,融合模块(紫色)逐步融合和上采样表示以生成细粒度预测。

Reassemble

重新组装操作,令牌被组装成特征图。

首先,将 Np + 1(位置编码,红色) 个标记映射到一组 Np 标记,这些标记可以进行空间连接成类似图像的表示;

然后,使用 1*1 卷积表示投影操作;

最后,在四个不同阶段和四种不同分辨率重新组合特征。

Fusion

 融合块使用残差卷积单元组合特征并对特征图进行上采样。

Experiments

实验目标:与单目深度估计的最新技术进行比较

实验结果:DPT-Large 具有明显优势

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来自γ星的赛亚人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值