monodepth2论文翻译

本文探讨了在单目深度估计中面临的遮挡和视觉伪影问题,提出了一种新的最小重投影损失、auto-mask损失以及全分辨率多尺度采样方法。这些改进在定量和定性上提升了深度图的质量,特别是在处理遮挡和减少视觉伪影方面。在KITTI基准测试中,这些方法展现出了优秀的效果。
摘要由CSDN通过智能技术生成

摘要

在大规模情况下获取每像素的地面真实深度数据是具有挑战性的。为了克服这一限制,自监督学习已经成为训练模型进行单目深度估计的一种有希望的替代方法。在本文中,我们提出了一系列改进,这些改进与其他的自监督方法相比,深度图在定量和定性上都有所提升。

自监督单目训练的研究通常探索越来越复杂的架构、损失函数和图像形成模型,所有这些都有助于缩小与全监督方法之间的差距。我们展示了一个出奇地简单的模型以及相关的设计选择会带来更好的预测结果。特别是,我们提出了(i)最小重投影损失,旨在稳健地处理遮挡,(ii)全分辨率多尺度采样方法,减少视觉伪影,以及(iii)一个auto-mask损失,以忽略违反相机运动假设的训练像素。我们分别展示了每个组件的有效性,并在KITTI基准测试中展示了高质量的领先成果。

1、引言

我们旨在从单个彩色输入图像自动推断出密集的深度图像。在没有第二个输入图像进行三角测量的情况下,估计绝对深度,甚至是相对深度,似乎是一个不适当的问题。然而,人类通过在现实世界中导航和互动来学习,使我们能够为新颖场景假设合理的深度估计[18]。

生成高质量的深度图像是很吸引人的,因为它能够廉价地实现自动驾驶汽车的LIDAR传感器,从而能够为图像编辑和增强现实合成等新的单张照片应用提供可能性。对深度利用大规模未标记的图像数据集网络进行预训练,以供下游的判别性任务使用[23],是一种强大的解决深度问题的方法。然而,为了进行监督学习,收集大型且多样的训练数据集,其中包含准确的地面真实深度[55, 9],本身就是一个艰巨的挑战。作为替代方案,一些最近的自监督方法已经表明,可以使用仅同步的立体对或单目视频[12, 15]来训练单目深度估计模型。

在这两种自监督方法中,单目视频是立体监督的一个有吸引力的替代方案,但它也有自己的一系列挑战。除了估计深度外,模型还需要在训练期间估计时间图像对之间的自我运动。这通常涉及训练一个姿态估计网络,该网络以一系列帧作为输入,并输出相应的相机变换。相反,使用立体数据进行训练使得相机姿态估计成为一次离线校准,但可能会引起遮挡和纹理复制等问题[15]。

我们提出了三种结构和损失的创新,这些创新相结合,在使用单目视频、立体对或两者一起进行训练时,在单目深度估计方面取得了巨大的改进:(1) 一种新颖的外观匹配损失,用于解决在单目监督中出现的遮挡像素问题。 (2) 一种新颖且简单的auto-masking方法,用于忽略在单目训练中没有观察到相对相机运动的像素。 (3) 一个多尺度外观匹配损失,该损失在输入分辨率下执行所有图像采样,从而减少深度伪影。总之,这些贡献在KITTI数据集[13]上取得了领先的单目和立体自监督深度估计结果,并简化了现有表现最佳模型中的许多组件。

2、相关工作

我们回顾了在测试阶段将单个彩色图像作为输入并预测每个像素深度作为输出的模型。

2.1. 监督深度估计

从单张图像估计深度是一个本质上不适定的问题,因为同一输入图像可以投影到多个合理的深度上。为了解决这个问题,基于学习的方法已经表现出能够拟合预测模型,利用颜色图像与其相应深度之间的关系。各种方法,如合并局部预测[19, 55]、非参数场景采样[24],直至端到端监督学习[9, 31, 10]等都被探索过。基于学习的算法也是立体估计[72, 42, 60, 25]和光流估计[20, 63]中表现最佳的一些方法之一。

上述许多方法都是完全监督的,在训练过程中需要地面真实深度。然而,在多样的现实世界环境中获取这些数据是具有挑战性的。因此,出现了越来越多利用弱监督训练数据的工作,例如已知对象尺寸[66]、稀疏序数深度[77, 6]、监督外观匹配项[72, 73],或者非配对的合成深度数据[45, 2, 16, 78],尽管仍需要收集额外的深度或其他注释。合成训练数据是一种替代方案[41],但是生成包含多样现实世界外观和运动的大量合成数据并不是轻松的任务。最近的工作表明,传统的结构运动(SfM)流程可以为相机姿态和深度生成稀疏的训练信号[35, 28, 68],其中SfM通常作为与学习分离的预处理步骤来运行。最近,[65]在我们的模型基础上,将传统立体算法产生的有噪深度线索整合进去,改进了深度预测。

2.2. 自监督深度估计

在没有地面真实深度的情况下,一种替代方法是使用图像重建作为监督信号来训练深度估计模型。在这种情况下,模型会得到一组图像作为输入,可以是立体对或者单目序列形式。通过对给定图像进行深度虚拟并将其投影到附近的视图中,模型通过最小化图像重建误差来进行训练。

自监督的立体训练

自监督的一种形式来自于立体对。在这里,同步的立体图像对在训练期间可用,在预测图像对之间的像素视差时,可以训练深度网络在测试时执行单目深度估计。[67]提出了这样的模型,用于新视图合成问题的离散深度。[12]通过预测连续的视差值扩展了这种方法,[15]通过包括左右深度一致性项,得到了优于当时的监督方法的结果。基于立体的方法已经扩展到半监督数据[30, 3

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值