单目深度估计论文翻译（一）之Unsupervised Learning of Depth and Ego-Motion from Video

最新推荐文章于 2024-08-03 18:38:54 发布

知行SUN

最新推荐文章于 2024-08-03 18:38:54 发布

阅读量1.5k

点赞数

分类专栏：单目深度估计深度学习图像算法文章标签：计算机视觉无人驾驶单目深度估计

本文链接：https://blog.csdn.net/excellent_sun/article/details/89399768

版权

图像算法同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

深度学习

9 篇文章 0 订阅

订阅专栏

单目深度估计

4 篇文章 1 订阅

订阅专栏

单目深度估计论文翻译（一）之Unsupervised Learning of Depth and Ego-Motion from Video

摘要

摘要

我们提出了一种无监督学习框架，用于从非结构化视频序列中进行单眼深度和相机运动估计。与最近的工作[10,14,16]一样，我们使用端到端学习方法，将视图合成作为监督信号。与之前的工作相比，我们的方法完全没有监督，只需要单眼视频序列进行训练。我们的方法使用单视图深度和多视图姿势网络，其损失基于使用计算的深度和姿势使目标附近的视图变形。因此，网络在训练期间通过损失耦合，但是可以在测试时独立地应用。对KITTI数据集的实证评估证明了我们的方法的有效性：1）单眼深度与使用地面实况姿势或深度进行训练的监督方法相当，2）姿势估计与可比输入设置下的既定SLAM系统相比表现良好。

1.简介

即使在短时间内，人类也非常有能力推断自我运动和场景的3D结构。例如，在沿着街道航行时，我们可以轻松找到障碍物并快速做出反应以避开它们。多年来对几何计算机视觉的研究未能为现实世界场景重建类似的建模能力（例如，存在非刚性，遮挡和缺乏纹理的情况）。那么为什么人类擅长这项任务呢？一个假设是，我们通过过去的视觉体验对世界形成了丰富的结构性理解，这些视觉体验主要包括移动和观察大量场景以及开发我们观察的一致建模。从数以百万计的观察结果中，我们了解了世界的规律性，道路是平坦的，建筑物是直的，汽车是由道路等支撑的，我们可以在感知新场景时应用这些知识，即使是从单个单眼图像也是如此。
*大部分工作是在Google实习期间完成的。
在这里插入图片描述
图1.我们系统的训练数据仅包括从不同视点捕获场景外观的未标记图像序列，其中未提供图像的姿势。我们的训练程序产生两个独立运行的模型，一个用于单视图深度预测，一个用于多视图相机姿态估计。
在这项工作中，我们通过训练一个观察图像序列的模型来模仿这种方法，并旨在通过预测可能的相机运动和场景结构来解释其观察结果（如图1所示）。我们采用端到端方法允许模型直接从输入像素映射到自我运动的估计（参数化为6-DoF变换矩阵）和基础场景结构（参数化为参考视图下的每像素深度图））。我们特别受到先前工作的启发，这些工作将视图合成作为一种度量[44]，并且最近的工作在端到端框架中解决了校准的多视图3D案例[10]。我们的方法是无人监督的，并且可以简单地使用没有手动标记的图像序列或甚至摄像机运动信息来训练。
我们的方法建立在几何视图合成系统仅在其场景几何和摄像机姿势的中间预测对应于物理基础事实时才能始终如一地执行的洞察力的基础上。虽然不完美的几何形状和/或姿势估计可以对于某些类型的场景（例如，无纹理）用合理的合成视图作弊，但是当呈现具有更多样化的布局和外观结构的另一组场景时，相同的模型将悲惨地失败。因此，我们的目标是将整个视图合成流水线制定为卷积神经网络的推理过程，以便通过训练网络上的大型视频数据进行视图合成的“元”任务，网络被迫学习关于深度和相机姿态估计的中间任务，以便得出对视觉世界的一致解释。对KITTI [15]基准的实证评估证明了我们的方法对单视深度和相机姿态估计的有效性。我们的代码将在https://github.com/tinghuiz/SfMLearner上提供。

2.相关工作

运动结构结构和运动的同步估计是一个很好的研究问题，具有已建立的技术工具链[12,50,38]。虽然传统的工具链在许多情况下是有效且高效的，但是它依赖于精确的图像对应可能在低纹理，复杂几何/光度测定，薄结构和遮挡的区域中引起问题。为了解决这些问题，最近使用深度学习解决了几个流水线阶段，例如，特征匹配[18]，姿势估计[26]和立体声[10,27,53]。这些基于学习的技术很有吸引力，因为它们能够在培训期间利用外部监督，并且在应用于测试数据时可能克服上述问题。
基于变形的视图合成几何场景理解的一个重要应用是新颖视图合成的任务，其目标是合成从新颖的摄像机视点看到的场景的外观。视图合成的经典范例是首先明确估计基础3D几何或在输入视图之间建立像素对应关系，然后通过合成来自输入视图的图像块来合成新颖视图（例如，[4,55,43,6， 9]）。最近，端到端学习已经应用于通过基于深度或流动转换输入来重建新视图，例如DeepStereo [10]，Deep3D [51]和外观流[54]。在这些方法中，基础几何分别由量化深度平面（DeepStereo），概率视差图（Deep3D）和视图相关流场（外观流）表示。与直接从输入视图映射到目标视图的方法（例如，[45]）不同，基于扭曲的方法被迫学习几何和/或对应的中间预测。在这项工作中，我们的目标是从受过训练的CNN中提取这种几何推理能力，以执行基于翘曲的视图合成。
从注册的2D视图学习单视图3D我们的工作与最近研究从注册的2D观察学习单视图3D推理密切相关。Garg等人。 [14]建议学习单视图深度估计CNN使用投影误差到校准立体声双胞胎进行监督。同时，Deep3D [51]使用立体胶片作为训练数据，从输入图像预测第二个立体视点。Godard等人采取了类似的方法。 [16]，增加了左右一致性约束，以及更好的架构设计，从而带来了令人印象深刻的性能。与我们的方法一样，这些技术仅从世界的图像观察中学习，不同于需要明确训练深度的方法，例如[20,42,7,27,30]。
这些技术与结构和运动估计的直接方法有一些相似之处[22]，其中调整相机参数和场景深度以最小化基于像素的误差函数。然而，不是直接最小化误差以获得估计，而是基于CNN的方法仅针对每批输入实例采用梯度步骤，这允许网络从大的相关图像集中学习隐含先验。一些作者已经探索了将可微分渲染操作构建到以这种方式训练的模型中，例如[19,29,34]。
虽然上述大多数技术（包括我们的技术）主要集中在推断深度图作为场景几何输出，但最近的工作（例如，[13,41,46,52]）也表明在从2D观察中学习3D体积表示方面取得了成功。基于射影几何的类似原理。Fouhey等。 [11]进一步表明，甚至可以通过利用场景规律性来学习没有3D标签（或注册的2D视图）的3D推断。
来自视频的无监督/自我监督学习我们的另一系列相关工作是从视频中学习视觉表示，其总体目标是设计用于从视频数据中学习通用视觉特征的前置任务，以后可以重新用于其他视觉任务例如对象检测和语义分割。这样的借口任务包括自我运动估计[2,24]，跟踪[49]，时间相干[17]，时间顺序验证[36]和对象运动模板预测[39]。虽然我们专注于在这项工作中推断显式场景几何和自我运动，但直观地说，深层网络（尤其是单视图深度CNN）学习的内部表示应该捕获某些级别的语义，这些语义也可以推广到其他任务。
与我们的工作同时，Vijayanarasimhan等。 [48]独立提出了一个框架，用于从视频中联合训练深度，摄像机运动和场景运动。虽然两种方法在概念上相似，但我们的方法集中在无监督方面，而它们的框架增加了结合监督（例如，深度，相机运动或场景运动）的能力。在训练期间如何对场景动力学进行建模存在显着差异，其中它们明确地解决了物体运动，而我们的可解释性掩模对经历运动，遮挡和其他因素的区域进行了折扣。

3.方法

在这里，我们提出了一个框架，用于从未标记的视频序列联合训练单视深度CNN和相机姿态估计CNN。尽管经过联合训练，深度模型和姿势估计模型可以在测试时间推断期间独立使用。我们模型的训练示例包括由移动摄像机捕获的场景的短图像序列。虽然我们的训练过程对某种程度的场景运动是稳健的，但我们假设我们感兴趣的场景大多是刚性的，即不同帧的场景外观变化由摄像机运动决定。
在这里插入图片描述
图2.基于视图合成的监督管道概述。深度网络仅将目标视图作为输入，并输出每像素深度图。姿势网络将目标视图（）和附近/源视图（例如，和）作为输入，并输出相对的相机姿势（）。然后，两个网络的输出用于反向扭曲源视图（参见3.2节）以重建目标视图，并且光度重建损耗用于训练CNN。通过利用视图合成作为监督，我们能够以无人监督的方式从视频中训练整个框架。
待续。。。