论文翻译——GeoNet:用于单目深度估计、光流和相机运动的无监督学习框架

GeoNet是一种无监督学习框架,用于联合估计视频中的单目深度、光流和相机运动。通过3D场景几何特性,GeoNet在无监督设置下超越了现有方法,其性能接近监督学习方法。在KITTI数据集上,GeoNet在三个任务上表现出state-of-the-art的结果,优于传统SLAM方法。该框架利用刚体结构重建器和非刚性运动定位器,通过几何一致性损失增强鲁棒性,尤其适用于自动驾驶、视觉感知等应用。
摘要由CSDN通过智能技术生成

前言

  2018年CVPR会议上,商汤科技SenseTime被收录的论文中,有一篇《GeoNet--Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》,提出了一个叫做GeoNet的框架——一种可以联合学习单目深度、光流和相机姿态的无监督学习框架,其表现超越了现有的一些无监督学习方法,并且取得了可以与监督学习方法相媲美的的结果。本人目前正在学习与之相关的内容,本篇博客将详细地解读论文。

Abstract

  GeoNet——一种用于视频中单目深度、光流和相机运动估计的无监督学习框架。这三者通过三维场景几何特性耦合在一起,以端到端的方式进行联合学习。从每个单独模块的预测中提取几何关系,然后将其合并为图像重构损失,分别对静态和动态场景进行推理。除此之外,还提出了一种自适应几何一致性损失损失来提高对outliers和non-Lambertian区域的鲁棒性,有效地解决了遮挡和纹理模糊的问题。在KITTI数据集上的实验表明,GeoNet在三个任务上都分别取得了state-of-the-art的结果,比以前的无监督学习的方法表现更好,甚至可以与监督学习的方相媲美。

1.Introduction

  理解视频中的3D场景几何是视觉感知中的基础问题,包括许多经典的计算机视觉任务,例如深度恢复、光流估计、视觉里程计等等。这些技术都有广阔的工业应用前景,包括自动驾驶、交互式协同机器人、定位与导航系统等。

  传统的运动恢复结构(SfM)[34,42]以整合的方式处理这些任务,其目的在于同时重建场景结构和相机运动。近期一些工作在在鲁棒性和特征描述符[2,39],更有效的跟踪系统[55],更好地利用语义级信息[4]等方面取得了进展。尽管如此,对于异常值和非纹理区域的失效仍然没有完全消除,因为它们本质上还是依赖于高质量、低级别的特征对应。

  为了突破这些限制,深度模型[35,45]被应用于每个低层次的子问题,并取得了与传统方法相当的进步。主要的优势来自于大数据,可以捕捉高层次的语义信息给低层次的学习,因此在ill-posed区域会比传统的方法表现更好。

  然而,需要大量的groundtruth数据用于深度学习,就需要昂贵的激光雷达和GPS设备。而且,以往的深度学习方法大多是针对如深度[26]、光流[8]、相机姿态[22]等某一特定任务的,而没有探究这些任务之间的内在依赖关系,这种关系可以通过3D场景结构的几何特性计算得到。

  最近已有一些工作将这些问题merge到一起,但都有一些局限性。例如,[48]需要大量的激光扫描的深度数据用作监督,[15]需要立体相机作为数据采集的附加设备,[50,56]不能有效处理非刚体和遮挡区域。

  这篇文章中提出的无监督学习框架GeoNet将从视频中联合估计单目深度,光流和相机运动。这种方法的理论基础在于3D场景几何的本质特性。大部分自然场景都是由刚性静态表面构成的,例如道路、房屋、树木等。它们在视频帧之间的2D投影图像完全由深度结构和相机运动决定。同时,在这些场景中也存在动态对象,例如行人、汽车等,他们具有大位移、无序的特点。

  因此,我们采用了深度神经网络来描述上述特点。我们采用了一种“分而治之”的策略。设计了一种级联结构,用于自适应求解刚体流和物体的运动。整个运动场可以被逐步细化,使pipeline可分解并且便于学习。视图合成损失(view synthesis loss)引导这种融合运动场的无监督学习。第二个贡献,引入了自适应几何一致性损失来来克服那些不包括在纯粹的view synthesis中的目标,比如遮挡和光度不一致的问题。通过模仿传统的前后向(或左-右)一致性检查,过滤了可能的离群点和封闭区域。预测一致性在非遮挡区域的不同视图之间强制执行,而错误预测则被平滑,特别是在遮挡区域的错误。

  最后,我们在KITTI数据集上对三个任务进行综合评测,取得了比已有的无监督学习方法更好的效果,并且可以与监督学习的方法相媲美。

2.Related Work

Traditional Scene Geometry Understanding

  结构自运动(SfM)是一个长期存在的问题,即从非常大的无序图像集合中联合起来进行场景结构和相机运动的推断[13,16]。通常从特征提取和匹配开始,然后进行几何验证。在重建过程中,将bundle adjustment(BA)[47]应用于全局重构结构的细化。现有的这些方法非常依赖于精确的特征匹配,如果没有良好的光度一致性的保证,性能无法得到保证。典型的问题可能是由于自然场景中常见的低纹理、立体模糊、隐蔽性等原因造成的。

  场景流估计是另一个与我们的工作密切相关的课题,它是从无序图像序列中求解场景的密集三维运动场[49]。MRFs[27]被广泛地应用于将这些因素建模为离散标记问题。然而,由于有大量的变量需要优化,这些现成的方法通常太慢,无法实际使用。另一方面,目前已有的几种方法强调了一般场景流的刚性规律。与上述方法不同的是,我们采用了深度神经网络来更好地利用高水平的线索,而不是局限于特定的场景。我们的端到端的方式在用户级的GPU上进行inference只需要毫秒级的时间。此外,我们还对不包括在经典场景流概念中的大量的自主运动进行了有效的估计。

Supervised Deep Models for Geometry Understanding

      近年来,随着深度学习的发展,3D几何理解的许多任务,包括深度、光流、姿态估计等,都取得了很大的进展。[9]利用了一个双尺度网络,证明了深度模型可以用于单目深度估计。虽然这种单目形式的典型严重依赖于场景先验知识,所以很多新方法更倾向于立体设备。[29]引入了一个相关层来模仿传统的立体匹配技术。[24]提出了通过深度特征对成本体积进行3D转换,以更好地聚合立体信息。在学习光流的时候也应用了类似的方法。[18]对大型合成数据集进行了大量的网络训练,取得了与传统方法相当的效果。

     除了上述问题,相机定位和跟踪也可以用监督深度学习解决。[23]将6DoF摄像机的重新定位问题转换为学习任务,并在多视点几何基础上进行分析。

Unsupervised Lear

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值