通过实例感知学习动态场景 Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency

原创已于 2024-11-18 16:28:38 修改

· 3.1k 阅读

0 ·

版权

文章标签：

#计算机视觉 #自动驾驶 #机器学习

于 2021-12-07 11:06:44 首次发布

无监督单目深度估计专栏收录该内容

18 篇文章

订阅专栏

通过实例感知学习动态场景中的单目深度 Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency

0 摘要

亮点：提出正反向投影的重要性，采用现有的分割方法建立了一个基于视频的实例分割方法，提出了一个对于运动物体的光度损失和几何一致性损失方法。早先处理运动物体的方式有，掩膜SGDepth，光流Optical flow以及场景流Scene flow等。本文是光流加掩膜。铁锅炖ing。。。咋没人做场景流呢（-.-）

提出了一个端到端的联合训练框架，贡献有以下三个方面。

强调了运动物体正向投影和反向投影的区别，使用正向投影模块提出了在几何上正确的投影通道。
建立了一个统一的实力感知光度和几何一致性，对背景和目标区域添加自监督信号。
提出一个自动标注方案，使用现成的实例分割和光流模型来生成自动标注。
在KITTI 和Cityscapes上进行训练，效果突出。

1 介绍

3D环境结构和动态运动对象的只是对于自主导航是必不可少的。因为它含蓄的表达了物体的相对位置。3D场景还被用于提高高级别场景理解任务的性能。为了安全驾驶，我们不光要考虑场景的三维结构，还需要考虑运动物体的相对运动和行进方向。
深度神经网络的最新进展导致越来越多的人关注单目深度估计（单目，立体和光流）。这些监督的方法需要大量和广泛的训练数据与地面真值标签。最近的研究在从未标记的图像序列中能够得到可信的无监督深度估计和自我运动估计。这些工作利用优化框架利用网络预测单视图深度和姿态，利用序列图像的合成视图作为监督信号。但是，这些工作忽略或者遮挡了运动物体的姿态和深度估计。
在这个问题中，本文认为静态世界假设中的运动物体并不都是麻烦的，反而认为运动物体是可以作为重要的线索来进行三维物体的运动估计的。
为了解决这个问题，我们提出了一个新的框架，在单目相机的背景下，明确地建模动态物体的三维运动和自我运动以及场景深度。本文的无监督方法仅依赖单目视频进行训练，并对合成帧从一个时间到下一个序列施加统一的光度和及和一致性损失。在给定视频的连续俩帧，计算俩帧的深度图，每个运动物体的六个自由度以及相邻帧的自我运动。在这个过程中，采用实例分割和光流模块建立每个运动物体的实力掩膜来进行运动物体的分割。
主要贡献如下：
神经正向投影：zhou等人引入了可微分的基于深度的渲染，其中通过原视图来对像素进行采样重建的目标视图是通过深度图和相对位姿得到的。重投影在静态场景区域中是有效的，但是运动对象会导致该区域的投影出现扭曲，因为原视图的3D结构在获得目标图像的深度图时就已经变形扭曲（原文写的有点绕，他的意思就是原本的扭曲过程位于DepthNet和PossNet之后，使用DepthNet的深度图和PossNet的相机位姿运动参数进行扭曲投影，建立起约束关系。理论是基于运动恢复结构 structure form motion。但是本文认为扭曲投影出现误差的一部分原因是DepthNet的深度图就已经存在变形问题了）。为了建立一个几何上合理的公式，他们引入了前向扭曲，该模块基于原始图和相对位姿将原始图扭曲到目标视图（与以往的重投影不同的是，他们采用原始图而不是原始图的深度图来进行扭曲）。前向扭曲有时会导致输出图像中有孔，所以本文提出了一个可微的和无孔前向扭曲模块，作为我们深度估计和相机姿态估计的关键模块，他在单目视频中训练和学习。
实例感知光度和几何一致性：目前的工作已经成功地利用立体相机估计了独立物体的运动。基于立体视频的方法可以利用立体偏移量和时间信息明确地分离静态和动态运动。另一方面，在动态的真实世界中，物体和物体都在移动，因为只有时间线索可以用，单目深度估计会受到运动模糊的影响。为了解决这一问题，本文将实例感知的视图合成和统一投影一致性引入到训练损失中。首先，我们使用一个预测的实例掩膜将图像分解为背景和对象区域。然后，我们扭曲在单一视图的深度和相机姿态中使用的所有组件模块来计算光度一致性。我们还对每个实例施加一个几何一致性损失，以约束来自所有帧的估计几何一致。
视频实例分割的自动标注：本文引入了一种通用的自动注释方案来生成视频实例分割数据集。本文设计了一个新的框架，将该任务框架模块化为实例分割和光流计算，对现有的每个微调模型进行步骤和组合，自动生成跟踪实例掩膜。我们展示了采用实例分割和光流模型的有效性，来证明无需对我们的模型进行微调。

2 研究现状

2017年，zhou等人基于运动恢复结构的基本概念，建立了单目序列中的深度估计和相机姿态联合进行的自我监督估计框架。zhou等人通过在训练过程中最大化单目视频帧的光度一致性，引入了深度和自我运动的无监督学习框架。除此之外，Wicke等人使用静态结构架构假设在相邻框架之间添加几何约束。语义信息也被用于增强单目深度估计的特征表示。Guizilini等人介绍了一种使用3D卷积的细节特征表示。
由于刚性物体假设（刚性物体，即物体在运动过程中不会发生形变），上述研究在处理移动目标时存在一定的局限性，导致在估计目标深度时性能下降，为了解决这个问题，Godard等人在训练过程中利用立体图像对（双目的左图和右图）。通过立体图像对，左右帧之间的每个像素的对应都可以通过单个相机矫正来描述。值得注意的是，单目训练不同于立体视频的学习方法。（单目深度估计的输入有三种情况，单目视频，双目图片（立体图像对）和双目视频，从前到后会提供更多的线索信息来供框架学习，所以框架会变得简单，例如当输入从单目视频到双目图片时，双目自带的左右视图就不再需要PossNet估计相机位姿了，可以拥有绝对尺度保证和排除动态物体干扰，只需要根据左图加深度图恢复右图就可以了，再比如，双目图片到双目视频，多了一个视频上的时间序列，所以输入不光可以是左右视图，也可以是左右视图的前后帧，可以更好的避免遮挡）
近年来，动态目标运动与深度、自我运动的联合优化作为一个新的研究课题引起了人们的关注。Cao等人提出了一个具有给定2D边框的自监督框架，用于从立体视频中学习场景结构和三维物体运动。由于来自成对图像中的视差是确定的，所以可以使用简单的均值滤波计算每个实例中的3D运动矢量。Gordon等人
提出了一个运动场网络来估计像素的转换。它接受两个连续的粗糙图像，通过图相对输入，计算出了相机和非刚性物体的运动。因此，我们建议通过观察纯粹物体运动引起的两幅图像之间的残差信号来确定物体运动。Casser等人提出了一种无监督图像到深度框架，该框架利用给定的分割知识对移动物体和摄像机的运动进行建模。
上述研究在渲染动态物体时都使用了反向投影的方法，这样会导致外观失真，即刚性物体发生形变。为此，本文提出了一种几何正确的动态投影方法，这是三维几何的一个基本问题。

3 方法

网络框架如下所示。对于图像I₁和图像I₂（输入为单目视频），通过DepthNet得到深度图D₁和D₂.通过背景掩膜M₁和M₂ 得到图像I₁和图像I₂的运动物体实例，其中与原图像进行操作后可以得到i个运动实例，对提出运动物体的背景通过Ego-PossNet来计算相机位姿参数P_1→2和P_2→1，通过P_1→2和M₁对I₁中的i个实例进行重投影得到I_1→2的i个实例扭曲图像，通过图像I₂和掩膜M₂得到每个实例的分割，将该实例和重投影的实例通过Obj-PoseNet计算每个实例的六维移动参数。总的光滑损失等于图像I₁和深度图D₂与P_2→1以及掩膜得到的伪图像I₁的光度损失加上每一个重投影的实例和深度图D₂与每一个实例的位移P_2→1以及掩膜得到的伪实例的光度损失。
具体推导可以看原文，原文公式较多，可读性较差。原文还论证了移动物体重投影的误差影响情况。

请添加图片描述

4 实验

该文引入了一种自动标注方案，采用现成的实例分割模型Mask RCNN和PANet以及光流PWC-Net。首先计算每一帧图像的实例分割，然后计算每一帧图像中的交并比（IOU，用来计算两个矩形框的重合程度，数据越高，重合度越高），当相邻图片中的最大IOU高于阈值0.5时，认为跟踪到同一个实例。并使用相同的ID来分配两个实例。计算IOU得分时，排除双向一致性检查所遮挡的区域。实例ID是根据实例的大小排序的，匹配的实例最大的排在前面，较大的实例有较高的优先级，在训练中，将实例的最大数量设置为3.