【文献0919】Learn Stereo, Infer Mono: Siamese Networks for Self-Supervised, Monocular, Depth Estimation

基本信息

标题 Learn Stereo, Infer Mono: Siamese Networks for Self-Supervised, Monocular, Depth Estimation
年份 2019

摘要

近年来,自监督单目深度估计领域取得了巨大进步。 大多数方法假设在训练期间可以使用立体数据,但通常未充分利用它,仅将其视为参考信号。 我们提出了一种新颖的自监督方法,它在训练期间同等使用左右图像,但在测试时仍可用于单个输入图像,用于单眼深度估计。 我们的 Siamese 网络架构由两个孪生网络组成,每个网络都学习从单个图像预测视差图。 然而,在测试时,仅使用这些网络之一来推断深度。 我们在标准 KITTI Eigen 分割基准上展示了最先进的结果,同时也是新 KITTI 单一视图基准上得分最高的自监督方法。 为了证明我们的方法泛化到新数据集的能力,我们进一步提供了 Make3D 基准的结果,该基准在训练期间未使用。

1、介绍

单视图深度估计是计算机视觉中的一个基本问题,在自动驾驶、机器人技术、计算摄影、场景理解等许多领域都有广泛的应用。尽管单幅图像深度估计是一个不适定问题 [9, 18],但人类非常有能力从单个视图中估计深度 [22]。当然,人类可以使用立体视觉,但当仅限于单眼视觉时,我们仍然可以通过利用运动视差对已知物体及其大小的熟悉程度以及透视线索来相当准确地估计深度

有大量使用经典计算机视觉方法进行单目深度估计的工作 [4, 8, 43, 45],包括最近几种基于卷积神经网络 (CNN) [9, 35] 的方法。然而,这些方法是有监督的,需要大量的真实数据。获取真实场景的地面实况深度数据,尤其是在不受约束的观看环境中,是一项复杂的任务,通常涉及特殊设备,如光检测和测距 (LiDAR) 传感器。

最近有几种方法试图通过采用自我监督的方法来克服这一限制。这些方法利用问题的内在几何特性来训练单目系统 [11, 15]。所有这些情况,假设在训练期间两幅图像都可用,尽管只有一张训练图像用作网络的输入;第二张图片仅用作参考。戈达尔等人。 [15]表明预测左右视差图大大提高了准确性虽然使用左图像预测左视差是直观和直接的,但他们也使用左图像估计右视差。由于左视点的遮挡和信息缺失,此过程容易出错相比之下,我们在学习从单个图像估计视差时充分利用了这两个图像。

我们提出了一种类似于 Godard 等人的自我监督方法。 [15]。然而,与它们不同的是,我们利用视差问题的对称性来获得有效的深度模型。我们观察到现有方法的一个关键问题是他们尝试训练单个网络来使用单个图像预测左右视差图。这在实践中效果不佳,因为右侧图像中可用的关键信息通常由于视差而被左侧视点遮挡(反之亦然)。相反,我们提出了一种简单而有效的替代方法,即围绕垂直轴翻转图像(垂直镜像)并将它们用于训练。这样,网络只学习了一个左视差图;右视差图只是通过镜像正确的图像,估计视差,然后将结果镜像回来以获得正确的右视差来获得。

具体来说,我们使用深度 Siamese [5] 网络,该网络学习从左侧图像和翻转的右侧图像预测视差图。通过使用连体架构,我们学习使用其对应的图像来预测每个视差图。通过镜像右侧图像,左右视差图的预测变得等效。因此,我们可以使用共享权重训练两个 Siamese 网络。这些共享权重具有降低训练计算成本的双重优势,正如我们的结果所证明的那样,可以改善网络。我们的方法的高级概述如图 1 所示。

我们在 KITTI [13] 和 Make3D [43] 基准上评估了我们提出的系统,并表明,在某些情况下,我们的自监督方法甚至优于监督方法。重要的是,尽管我们提出的方法很简单并且它提供了改进的结果,但我们不知道以前的方法报告以与我们建议的相同的方式利用立体训练的对称性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值