用于密集预测的视觉转换器 Vision Transformers for Dense Prediction

Vision Transformers for Dense Prediction

面向实际应用的室内单目深度估计

0 Abstract

  我们提出了一种视觉转换器,一种利用视觉转换器代替卷积网络作为密集预测任务的骨干架构。本文将视觉转换器各个阶段的toker(翻译是令牌,但我感觉更像一个图像块)组装成各个分辨率的类图像表示,然后在解码器阶段进行组合,从而生成全分辨率预测。transformer采用恒定且相对较高的分辨率表示,并且在每个阶段都具有全局感受野。与全卷积网络相比,这些特征可以提供更细粒度和更全局连贯的预测。实验在深度估计和图像分割两个方向都产生了显著的效率提升。

1 Introduction

  目前几乎所有的密集预测框架都是基于卷积网络的编解码器结构,他们通过编码器来获得更深层次的特征信息,通过解码器来将这些特征进行聚合分析,最终实现密集预测。由于下采样才做,网络的编码器会丢失部分特征,而这些特征在解码器阶段无法得到恢复。虽然特征分辨率和图像粒度对于图像分类等任务无关紧要,但是他们对于密集预测至关重要。密集预测希望能够在与或接近输入图像分辨率的尺度上进行特征解析。
  目前提出了许多减轻特征粒度的方法,例如高分辨计算、扩展卷积、跳跃连接和并行连接等,但网络还是受到基本模块:卷积的限制。卷积和非线性一起构成了图像分析网络的基本计算单元,但是卷积是有限感受野的计算单元,为了得到有限的上下文联系和广泛的感受野,需要大量的卷积并行排列,这使得网络需要占据大量的计算机内存。所以采用下采样的方法来缩减中间表示。以减少内存消耗。
  在本文中提出了DPT,采用Visio transformer来代替传统网络中的编码器部分,采用transformer来代替卷积作为基本单元,最后将VIT输出的特征进行逐步组合到密集预测中。与全卷积网络不同,VIT放弃了显式的下采样操作,在各个阶段都保持了恒定的维度预测。通过深度估计和图像分割的相关实验证明了以上特性可以提升密集预测的网络能力。

2 Related Work

  全卷积网络一直是密集预测的主要框架,最近已经提出了许多变体,例如,在不同交汇处进行上采样,扩张卷积和并行连接等,最近的架构在整个网络中保持高分辨和多个低分辨率表示。基于注意力的模型尤其是transfoemer在自然语言处理NLP方向一直是首选框架,最近的研究证明,直接应用在NLP的框架在图像分类领域已经取得了较好的性能。

3 Architecture

在这里插入图片描述
  Transformer使用多头自我注意力MHSA来进行图像块的顺序关联,通过ViT和MHSA将token和图像块进行一一关联,由于MHSA本质上是一种全局操作,因为每个token都会影响其他的token,所以transformer在每一层都相当于是拥有全局视野。
  输入图像通过提取非重叠块然后对其进行扁平表示进行线性投影或者应用resnet-50进行特征提取,对应图中的橙色块。图像嵌入通过位置嵌入增强,并添加了与补丁无关的读出标记,对应红色块。将来自不同阶段的token重新组合成具有多种分辨率的类图像表示,对应图中的绿色模块,紫色模块对类图像进行逐步融合和上采样,类似于一般的解码器结构。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值