CVPR2019——MonoDepth2论文阅读

本文深入研究了自监督单目深度估计,提出了最小重投影误差、自动屏蔽损失和多尺度外观匹配损失等改进,显著提升了模型在KITTI基准上的性能,实现了自监督学习的新突破。
摘要由CSDN通过智能技术生成

文章标题:Digging Into Self-Supervised Monocular Depth Estimation

 

摘要:

逐像素的真实尺度深度数据的大量获取,是具有挑战性的任务。为了克服这个限制,自监督学习已经成为一个有希望的替代训练模型,用来执行单目深度估计。本文中,我们提出了一系列的改进手段,用来提升自监督深度学习深度估计方法的精度。

自监督单目模型训练的研究,通常是探究越来越复杂的结构、损失函数和图像形成模型,而所有这些都有助于缩小与全监督方法的差距。我们展示了一个令人惊讶的简单模型,以及相关的设计选择,可以产生更好的预测。总的来说,我们提出了:

  1. 一个最小重投影误差,用来提升算法处理遮挡场景的鲁棒性

  2. 一种全分辨率多尺度采样方法,可以减少视觉伪影

  3. 一种auto-masking loss,用来忽略训练像素中违反相机运动假设的像素点

我们分别独立的演示了每个组件的有效性,并在KITTI基准上取得了高质量、sota的结果。

 

一、引入:

我们试图从一个单个彩色输入图像自动推断出一个密集的深度图像。估计绝对深度,甚至相对深度,在没有第二个输入图像的情况下,似乎无法使用三角测量。然而,人类却能从导航以及与现实世界的互动中学习,使我们能够为新场景假设合理的深度估计。

从彩色图像生成高质量的深度图,这项研究是十分具有吸引力的,因为它可以以低廉的价格成本,辅助用于自动驾驶汽车的激光雷达传感器,并支持新的单照片应用,如图像编辑和AR合成。通过使用大量未标注数据集求解深度,也可以达到为下游识别任务的深度神经网络进行预训练的目的。然而,为监督学习收集具有精确的ground truth的深度的大型和多样的训练数据集,其本身就是一个巨大的挑战。作为替代,最近有几个自监督的方法被提出,并且已经证明,可以只使用同步的立体图像对或单目视频来训练单目深度估计模型。在这两种自我监督的方法中,基于单目视频训练是一种有吸引力的替代立体图像监督的方法,但它也带来了一系列挑战。除了估计深度外,模型还需要估计训练过程中时间图像对之间的帧间运动。这通常涉及到训练一个以有限帧序列作为输入,并输出相应的摄像机变换的位姿估计网络。相反,使用立体图像对数据进行训练,使得相机姿态估计成为一次性离线校准(左右眼像平面变换),但可能会导致与遮挡和纹理复制等相关的问题。

我们提出了三种架构和一些可以用来组合的损失项,使得单目深度估计的性能得到大大提升,三种架构分别可以使用单目视频序列,立体双目图像对,或者两者结合的方式进行训练:

  1. 一种新颖的外观匹配损失,以解决在使用单目监督时出现的像素遮挡问题

  2. 一种新颖而简单的auto-masking方法,可以忽略在单目训练图像中没有发生相对相机运动的像素点

  3. 在输入分辨率下执行所有图像采样的多尺度外观匹配损失,导致深度伪影的减少

通过这些改进,我们在KITTI数据集[13]上取得了sota的单目和立体图像自监督深度估计结果,并简化了现有顶级模型中的许多组件。

 

二、相关工作:

我们回顾模型:在测试时,以一个单一的彩色图像作为输入,并预测每个像素的深度作为输出。

 

2.1 有监督深度估计

从单个图像估计深度是一个病态的问题,因为相同的输入图像可以投影到多个似是而非的深度(同一条射线)。为了解决这个问题,基于学习的方法已经证明自己能够拟合预测模型,通过利用彩色图像和它们相应深度之间的关系。各种方法,如结合本地预测[19,55],非参数场景采样[24],通过端到端的监督学习[9,31,10]已经被探索过。基于学习的算法在立体估计[72,42,60,25]和光流方面的性能也是最好的。许多上述方法是完全监督,要求有ground truth深度训练。然而,这在不同的现实环境中是具有挑战性的。结果,有越来越多的工作,利用弱监督训练数据,如已知对象的形式大小[66],稀疏的序数深度(77 6),监督外表匹配项(72、73),或未配对合成深度数据(45,2,16,78),同时还需要收集更多的深度或其他注释。合成训练数据是[41]的另一种选择,但生成大量包含各种真实世界外观和运动的合成数据并非易事。最近的研究表明,传统的从结构中恢复运动(SfM)管道可以生成摄像机姿态和深度的稀疏训练信号[35,28,68],这里的SFM作为与学习阶段解耦的预处理。最近,[65]在我们的模型的基础上加入了来自传统立体算法的噪声深度提示,改进了深度预测。

 

2.2 自监督深度估计

在缺乏ground truth深度的情况下,一种方法是利用图像重建作为监督信号来训练深度估计模型。在这里,模型被给定一组图像作为输入,要么是以立体对的形式,要么是以单目序列的形式。通过对给定图像预测深度,并将其投影到附近的视图中,通过最小化图像重构误差来训练模型。

 

自监督双目立体图像对训练范式

自监督的一种形式来自立体图像对。这里,同步立体图像对在训练过程中是可用的,通过预测它们之间的像素视差,可以训练一个深度网络在测试时进行单目深度估计。[67]针对新颖的视图综合问题,提出了一种具有离散深度的模型。[12]通过预测连续的视差值扩展了这个方法,并且[15]通过包括一个左-右深度一致性项产生了优于当前有监督方法的结果。基于立体图像对的方法已经被拓展到与半监督数据[30,39]、生成对抗网络[1,48]、附加一致性[50]、时间信息[33,73,3]结合,为了实时使用[49]。

在这项工作中,我们表明,仔细选择外观损失和图像分辨率,我们可以仅使用单目训练达到立体双目训练的性能。此外,我们的贡献之一延续到立体训练,导致性能也有所提高。

 

自监督单目训练范式

一种约束较少的自我监督形式是使用单目视频,其中连续的时间帧提供训练信号。在这里,除了预测深度之外,网络还必须估计帧之间的摄像机位姿,这在存在物体运动的情况下是具有挑战性的。这个估计的摄像机位姿只需要在训练中帮助约束深度估计网络。在最早的单目自监督方法中,[76]训练了一个深度估计网络和一个单独的位姿估计网络。为了处理非刚性场景运动,一个额外的运动解释蒙版允许模型忽略违反刚性场景假设的特定区域。然而,他们在后续模型的迭代更新中,弃用了这一方案,并取得了更好地性能。受到[4]的启发,[61]提出了一种更复杂的使用多个运动masks的运动模型。然而,这并没有得到充分的评估,因此很难理解它的用途。[71]还将运动分解为刚体和非刚体两部分,利用深度和光流来解释物体运动。这改善了流估计,但他们报告说,联合训练流和深度没有提升估计精度。在光流估计的背景下,[22]表明它有助于显式地建模遮挡。最近的一些方法已经开始缩小单目和立体双目自监督方法之间的性能差距。[70]约束预测深度与预测面法线一致,[69]强制边缘一致。40]提出了一个近似的基于几何的匹配损失,以鼓励时间深度一致性。[6

  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值