DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计

【Paper】

目录

核心

介绍

相关工作

方法

Encoder = Transformer Brance + CNN Brance

HAHI Module

实验结果


核心

目的:解决有监督的单眼深度估计

基础:远距离联系对准确估计深度的重要性——必不可少

设计:

  • 利用带有有效注意力机制的Transformer建模全局信息
  • 利用卷积分支来保存局部信息(因为Transformer在建模时缺少空间感知偏差)
    • 但是:独立的分支导致特征之间缺乏关联性
    • 解决:设计一种层次化聚合和异构交互模块
    • 实现:
      • 加强Transformer特征经过元素级交互
      • 在Transformer和CNN特征之间建立一种以set-to-set转换的affinity密切联系模型
  • 问题:高分辨率特征图上进行全局关注(二次)所带来内存成本巨大。
  • 解决:deformable方案来降低复杂度

结果:

  • 数据集:KITTI、NYU、SUN RGB-D
  • 有突出边缘的单眼深度估计:优 (文章前rank 1)

介绍

单眼深度估计对三维重建/感知很重要。自2016年He的开创性工作以来,卷积神经网络(CNN)一直主导着深度估计的领域,其中设计了基于编码器-解码器的体系结构。虽然已经有许多工作集中在解码器的设计上,最近的研究表明,编码器对于精确的深度估计甚至更为关键。由于缺乏深度线索,充分利用远距离相关性(即物体之间的距离关系)局部信息(即同一物体的一致性)是有效编码器的关键。因此,当前深度估计方法的潜在瓶颈可能在于编码器,卷积算子很难模拟有限的接受域的远距离相关性

就CNN而言,目前已经做出了很大的努力来克服上述限制,大致分为两类:

  • 操纵卷积操作:适用于先进的变体,包括多尺度融合,无效卷积和特征金字塔,以提高卷积算子的有效性。
  • 整合注意机制:引入了注意模块,以建模特征图中所有像素的全局交互作用。
  • 两种策略的组合。虽然性能得到了显著提高,但困境依然存在。

在CNN的一个替代方案中,视觉变压器(ViT)在图像识别上取得了巨大的成功,展示了作为深度估计的编码器的优势。得益于注意机制,变压器在建模与全球接受域的长期相关性方面更专业。然而,初步研究表明ViT编码器在建模局部信息时缺乏空间归纳偏差而不能产生令人满意的性能。

论文为了缓解这些问题,提出了一种新的单眼深度估计框架:DepthFormer

 通过整合Transformer和CNN的优势来提高模型的性能。

  • Transformer:对远距离相关性进行建模
  • CNN:保留局部信息

作者认为,这两种类型的特征的集成可以帮助实现更准确的深度估计。然而,具有后期融合的独立分支导致解码器的特征聚合不足。为了弥补这一差距,设计了分层聚合和异构交互(HAHI)模块,以结合这两个分支的最佳部分

具体来说,它包括一个自注意模块,通过元素级交互来增强Transformer分支的层次层之间的特征,以及一个交叉注意模块,以集对集转换的方式建模“异构”特征(即Transformer和CNN特征)之间的密切联系。由于对高分辨率特征图的全局关注导致了难以忍受的内存成本,建议利用可变形方案,以可学习的方式只关注有限的关键采样向量集来缓解这一问题。

这项工作的主要贡献有三个方面:

  • 应用Transformer作为图像编码器来利用远距离相关性,并采用一个额外的卷积分支来保存局部信息。
  • 设计了HAHI,通过元素级交互来增强特征,并以集到集的转换方式建模密切联系。
  • 提出的方法在KITTI、NYU和SUNRGB-D数据集中显著优于现有技术。
  • 在高度激烈的KITTI深度估计基准2上取得了最具竞争力的结果。

相关工作

从RGB图像中估计深度是一个不适定的问题。缺乏线索、尺度模糊、半透明或反射材料都会导致模糊的情况,即表面不能推断空间结构。随着深度学习的快速发展,CNN已经成为从单一的RGB输入中提供合理的深度图的主流方法/关键组成部分。

单眼深度估计:众多有效的方法中,DPT、Adabins、Transdepth是目前最主要的竞争对手。该论文重点比较这些(和许多其他)方法。

  • DPT:DPT提出在更大尺度的深度估计数据集上利用ViT作为编码器和预训练模型。
  • Adabins:利用自适应bins,动态调整输入场景的表示,并提出在高分辨率嵌入mini-ViT方案(编码器之后)。
  • Transdepth:跨深度在瓶颈处嵌入了ViT,避免Transformer丢失局部信息,并提出了一个注意门解码器来融合多级特征。

编码器-解码器:在编码器方面,采用主流特征提取器来学习特征表示。解码器通常由连续的卷积和上采样算子组成,以后期融合的方式聚合编码器的特征,恢复空间分辨率并估计深度。在论文中,利用了前人中的基线解码器架构,其能够更明确地研究这项工作的关键贡献的性能归因,是独立于解码器的。

Neck:在编码器和解码器之间加入Neck模块来增强特征表示。以往的许多方法只关注瓶颈特征,而忽略了较低级的特征,限制了其有效性。在这项工作中,提出了HAHI模块来增强所有的多层次的层次特征。当另一个分支可用时,它也可以对两个分支特性之间的密切关系进行建模,这有利于解码器聚合异构信息。

Transformer:随着最近应用Transformer解决计算机视觉任务的成功趋势,建议利用Transformer作为编码器来建模远距离相关性。


方法

深度估计的关键组成部分:

  • Transformer分支和CNN分支组成的编码器
  • 层次聚合和异构交互(HAHI)模块。

动机: ViT和CNN都存在各自的局限性。

初步研究:

  • CNN:墙壁装饰和地毯的深度结果不正确。因为用于特征提取的是纯卷积编码器,它们很难建立全局上下文的建模,并通过有限的接受域捕获对象之间的长距离关系。这种大面积的反直觉故障严重损害了模型的性能。

  •  为了解决上述问题,ViT可以作为一种合适的替代方案,因为其在建模与全局接受域的远距离相关性方面效果更好。进一步设计对比基于ViT和基于ResNet50的编码器来捕获特征。数据表明,基于ViT的编码器对远处物体的深度估计效果更好。然而,在近距离的物体上效果较差。由于深度值呈现长尾分布,且场景中有更多的接近物体,因此应用ViT的模型的总体结果明显较差。

分析:

  • 通常,直接估计远处物体的深度是具有难度的。但是,得益于基于ViT的能够对远距离相关性进行建模,其能够更可靠利用全局内容/像素完成估计。物体之间距离关系可以更好地提高距离物体深度估计的性能。
  • 对于次级近距离目标深度估计结果,存在许多可能的解释。此处,强调2种主要问题:
    • Transformer缺乏空间感知偏置,导致局部信息建模差。深度估计的局部信息反映在详细的上下文中,这对于一致和剧烈变化的估计结果至关重要。然而,这些详细的内容往往会在Transformer的补丁式交互过程中丢失。因为近距离的物体越大,纹理质量越高,Transformer将在这些位置失去更多的细节,严重恶化模型在近距离的性能,导致不满意的结果。
    • 视觉元素在尺度上有很大的差异。一般来说,U-Net形状架构用于深度估计,其中多尺度跳跃连接是开发多级信息的关键。由于ViT中的tokens都是固定尺度的,连续的非层次前向传播使多尺度性质不明确,也限制了性能。

在本文中,作者提出利用一个由Transformer和CNN分支组成的编码器,同时利用远程相关性和局部信息。与DPT直接利用ViT作为编码器不同,本工作引入了一个卷积分支来弥补Transformer分支中空间归纳偏差的不足。此外,利用Swin Transformer替代ViT,目的是能够提供分层特征,进而降低计算量。与以前将Transformer嵌入到CNN中的方法不同,本文采用Transformer直接对图像进行编码,可以充分利用Transformer的优势,避免CNN在进行全局上下文建模前丢弃关键信息。

此外,由于这两个分支的独立性,解码器简单的延迟融合导致特征聚集不足和边际性能提高。为了弥补这一差距,设计了HAHI模块,通过特征交互来增强特征和模型的亲合力,这减轻了缺陷,并有助于结合这两个分支的最佳部分


Encoder = Transformer Brance + CNN Brance

Transformer Brance

  • a patch partition module:
    • image → non-overlapping patches → initial feature representation
    • 每个补丁的初始特征表示被设置为连续像素RGB值。
  • a linear embedding layer:
    • ​​​​​​​​​​​​​​initial feature representation → projected to an arbitrary dimension
    • 作为Transformer第一层的输入 
  • L Transformer layers:
    • LN + MSA + MLP 
    • extract features
  • a residual connection:each module

学习参考DPT从N个选择的Transformer层中采样并重新组装N个特征图作为Transformer的输出。

注:本文的框架与各种Transformer结构兼容。在本文中,更倾向于利用Swin Transformer来提供层次表示并降低计算复杂度。与标准Transformer层的主要区别在于局部注意机制、移位窗口方案和patch融合策略。

CNN Brance

  • 深度估计中,常用标准的ResNet来捕获局部信息,本文仅利用ResNet的第一个block来捕获局部信息,这避免了低级特征被连续的乘法冲刷掉,并大大减少了计算时间。
  • Transformer特征F和卷积特征G之后,将输入HAHI模块进行进一步处理。与跨深度相比,采用了一个额外的卷积分支来保存局部信息。它避免了CNN对关键信息的丢弃,这样能够在没有伪影的情况下预测出更清晰的深度图。

HAHI Module

为了缓解聚合不足的限制,引入了HAHI模块来增强变压器的特性,并进一步以集对集转换的方式对Transformer与CNN特性的密切联系进行建模,它是由Deform-DETR提出的,并试图应用注意模块来解决异构特征的融合。

利用一组层次特征作为特征增强的输入,由于本文使用的是Swin Transformer提取特征,重新组装的特征图将显示出不同的大小和通道。以往的许多工作都需要对多层次特征进行降采样,以解决瓶颈特征,只能通过简单的连接或潜在卷积方案来增强瓶颈特征。相反,本文的目标:在没有下采样操作的情况下(因为降采样会导致信息的损失),增强所有特征

【具体算法流程见原文-后续整理】


实验结果

数据集:KITTI  NYU-Depth-v2  SUN RGB-D

评价指标:

  • absolute relative error (AbsRel)
  • mean squared relative error (SqRel)
  • root mean squared error (RMSE)
  • root mean squared log error (RMSElog)
  • mean log10 error (log10)
  • the scale-invariant log arithmic error (SILog)
  • percentage of AbsRel and SqRel(absErrorRel, sqErrorRel)
  • root mean squared error of the inverse depth (iRMSE)

实验配置:

  • batch size 2
  • 8 NVIDIA V100 32GB GPUs 
  • 5 hours
  • warm-up strategy
  • cosine annealing learning rate strategy
  • AdamW 优化器
  • encoders are pre-trained on the ImageNet classifification, which is the standard protocol of
    supervised monocular depth estimation.【协议要求:存疑】

实验效果: 

NYU-Depth-V2 

KITTI 

 

SUN RGB-D

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值