论文笔记:Vision Transformers for Dense Prediction

中文标题: 密集预测的视觉Transformers

创新点

  • DPT是一种密集预测架构,它基于编码器-解码器的设计,利用一个Transformer作为编码器的基本模块。具体来说,我们使用最近提出的ViT作为主干架构。
  • 我们将ViT提供的tokens表示重新组合成不同分辨率的类图像特征表示,并使用卷积解码器逐步将特征表示组合到最终的密集预测中。
  • 与全卷积网络不同,视觉Transformer主干在计算出初始图像嵌入后放弃了显式的降采样操作,并在所有处理阶段保持了恒定维数的表示。此外,它在每个阶段都有一个全球性的接受域。

算法介绍

网络结构

在这里插入图片描述

Transformer 编码器
  • 在高层次,ViT将图像转换为词袋表示的Patches。这些Patches作为“单词”独立编码到特征空间,我们将这些“单词”作为tokens,使用一系列多头自注意力机制来与其他的tokens进行联系。
  • 使用Resnet50作为Embedding编码器。
  • 由于Transformer是设定到集(set-to-set)函数,所以不保留tokens的空间位置信息。因此可以通过合并enbeddings补充这部分信息。
  • 见结构图左。
卷积解码器
  • 提出的解码器将一组tokens组装成不同分辨率的图像特征表示。特征逐步被融合进最终的密集预测中。
  • 提出了一个简单三层Reassemble操作从tokens恢复到图像表示。
    在这里插入图片描述
  • s是输出特征与输入图像的尺寸比
  • 见图中
  1. 首先将 N p + 1 N_p + 1 Np+1个tokens 按照图像排列到 N p N_p Np ,但是 read out token虽然在密集预测任务中没有明确的作用,但潜在地捕捉、区分全局信息,因此设计了三种不同地方法:无视,加在所有的tokens上,使用MLP结合到所有tokens上。(从后面的Abltion study 可知MLP方法和Ignore方法没有明显优略)
    在这里插入图片描述
  2. 然后我们使用一个空间连接操作,组合得到特征图:在这里插入图片描述
  3. 使用空间重采样层对特征进行进一步的特征提取。(1x1卷积,3x3卷积或反卷积)
    在这里插入图片描述
  • 最后我们以较低的分辨率的特征来融合来自Transformer深层的特征,而来自浅层的特征则以较高的分辨率融合。
  • 如果使用ViT-Hybrid模型,则分别使用Resnet以及ViT的特征在Decoder进行融合。

实验介绍

  • 文章把DPT应用在:单目深度估计以及语义分割任务中。

单目深度估计

  • 论文中认为Transformer只有在大量数据上进行训练效果才会好,因此可以在不同数据集间迁移,达到很好的训练效果。
  • 文章训练了60个Epoches。

参考文献

[1] Ranftl R, Bochkovskiy A, Koltun V. Vision transformers for dense prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 12179-12188.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BlueagleAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值