Deep Rigid Instance Scene Flow

Abstract

本文解决了自动驾驶场景下的场景流估计问题。我们利用深度学习技术以及强大的先验,因为在我们的应用领域中,场景的运动可以由机器人的运动和场景中演员的3D运动组成。我们在一个深度结构模型中将问题定义为能量最小化,该模型可以在GPU中通过展开一个高斯-牛顿求解器有效地解决。我们在具有挑战性的KITTI场景流数据集中的实验表明,我们的性能远远超过了最先进的技术,而速度是它的800倍。

1. Introduction

场景流是指从一组连续的(在时间上)立体对中估计三维运动场的问题。场景流用来描述场景中每个点的3D运动。通过场景流,我们可以深入了解几何以及场景的整体构成和运动。自动驾驶汽车如果知道场景中其他物体的3 d运动,不仅可以帮助自治系统规划自己的未来运动时避免碰撞, 而且还提高场景的理解和预测他人的意图。在本研究中,我们主要研究自动驾驶场景中3D场景流的估计。

在自动驾驶的世界里,场景的运动可以用自我汽车的运动来解释。通常是刚性移动的动态对象的存在也可以作为强先验。以前的结构预测方法经常利用这些事实,并拟合运动的分段刚性表示[41,44,27,3]。虽然这些方法在场景流估计上取得了令人印象深刻的结果,但它们需要几分钟来处理每一帧,因此不能在现实世界的机器人系统中使用

另一方面,基于深度学习的方法在各种低层次任务上实时取得了最先进的性能,如光流预测[11,32,38]和立体估计[46,26,24]。虽然它们产生“准确”的结果,但它们的输出不是结构化的,不能捕获估计变量之间的关系。例如,它们缺乏保证给定对象上的像素产生一致估计的能力。虽然这种现象可能对摄影编辑应用程序的影响很小,但在自动驾驶汽车的环境中,这可能是灾难性的,因为在这种环境中,整个物体的运动比每个像素的运动更重要。

考虑到这些问题,我们开发了一个新颖的深度刚性实例场景流(DRISF)模型,它兼顾了两个方面的优点。背后的想法是,场景的运动可以通过估计每个演员的3D刚性运动组成。静态背景也可以被建模为一个刚性运动的对象,因为它的3D运动可以被描述为“自我-汽车”运动。因此,问题被简化为估计每个交通参与者的三维运动。为了实现这一目标,我们首先利用深度神经网络来估计光流、视差和实例分割。我们然后利用多个几何能量函数对这些视觉线索之间的结构几何关系进行编码。通过优化能量函数,我们可以有效地推理出每个交通参与者的三维运动。由于能量以加权平方和的形式存在,因此可以通过高斯牛顿算法[5]进行有效的最小化。我们在神经网络中以层的形式实现GN求解器,因此所有操作都可以端到端在GPU上高效地计算。

我们在KITTI场景流数据集[27]上演示了我们的方法的有效性。如图1所示,我们的深度刚性实例场景流模型在运行时间和精度上都明显优于之前的所有方法。重要的是,它几乎每一个入口都达到了最先进的性能。与现有技术相比,DRISF使D1异常值比减少43%,D2异常值比减少32%,流量异常值比减少24%。与现有的最佳场景流模型[3]相比,我们的场景流误差降低了22%,运行速度提高了800倍。

image-20210616205719505

图2:我们的方法概述:给定两个连续的立体图像,我们首先估计光流、立体和分割(第3.1节)。然后,每个实例的视觉线索被编码为能量函数(第3.2节),并传入高斯-牛顿(GN)求解器,以找到最佳三维刚性运动(第3.3节)。GN求解器被展开为一个递归网络。

2. Related Work

Optical flow光流: 光流传统上被认为是能量最小化的任务。它可以追溯到Horn和Schunck[17],他们将能量定义为一个数据项和一个平滑项的组合,并采用变分推理来解决。从那时起,各种各样的改进被提出[6,4,30]。最近,深度学习已经取代了变量学习方法。采用深度特征进行匹配[1,43]极大地提高了性能。但是由于匹配结果不密集,需要[35]的后处理步骤。这不仅降低了速度,而且限制了整体性能。

在Flownet[11]的倡导下,[21]已经提出了各种基于端到端深度回归的方法。Flownet2[20]通过叠加多个网络来迭代优化估计的流量,并引入可微分的变形操作来补偿大排量。由于产生的网络非常庞大,SpyNet[32]提出使用空间金字塔网络来处理大型运动。他们大大缩小了模型的尺寸,但以降低性能为代价。Lite-Flownet[19]和PWC-Net[38,37]扩展了这一想法,并将传统的金字塔处理和成本量概念纳入网络。与以前的方法相比,得到的模型更小、更快。在这项工作中,我们采用最新的PWC-Net作为我们的流程模块。

Stereo立体: 传统的立体方法[16,22]遵循三个步骤:计算patch-wise feature, construct cost volumes,以及最终的后处理。补丁的表示起着重要的作用。现代方法利用ecnn来预测两个补丁是否匹配[44,46]。虽然它们在具有挑战性的基准测试中表现出色,但它们的计算成本很高。为了加快匹配过程,Luo等人[24]提出了一种连体匹配网络,利用相关层[9]提取所有可能差异的边际分布。虽然相关层的使用显著提高了效率,但他们仍然需要后处理技术[15,47]来平滑他们的估计,这在很大程度上限制了他们的速度。基于此,我们提出了直接从给定的立体图像对中回归亚像素差异的网络。disnet[26]利用1D相关层来近似立体成本量,并依赖后面的层进行隐式聚合。Kendall等人[23]将3D conv纳入到进一步的正则化中,并提出了一个可区分的软argmin,以实现成本量的亚像素差异。PSM-Net[8]后来通过合并堆叠沙漏[29]和金字塔空间池对[23]进行了扩展[48,14]。在本工作中,我们利用PSM-Net作为我们的立体声模块。

Scene flow场景流: 场景流[40]描述了一个点的3D运动。与光流估计类似,该任务传统上被定义为一个变分推理问题[39,31,18,2]。然而,由于大运动引起的误差,在现实世界的情况下,性能是相当有限的。为了提高鲁棒性,基于斜面的方法[44,27,41,25]提出将场景分解成小的刚性移动平面,解决离散连续优化问题。贝尔等人在[27]的基础上构建[3],并加入识别线索。在细粒度实例和几何特征的帮助下,它们能够跨各种具有挑战性的场景建立通信。与我们的工作类似,Ren等[34]利用多个视觉线索进行场景流估计。他们通过层叠的条件随机场对特征进行编码,并迭代地改进它们。虽然这些方法取得了令人印象深刻的性能,但它们在实际应用中计算成本很高。大多数方法需要几分钟来计算一个场景流。这在很大程度上是由于复杂的优化任务。相比之下,我们的深度结构运动估计模型能够在不到一秒的时间内计算场景流,速度快了2到3个数量级。

image-20210620173251639

图3:val集合的定性结果:我们的模型可以非常准确地估计背景运动。在大多数情况下,它还能够估计前景物体的三维运动。如上一列所示,它在具有挑战性的情况下会失败。

3. Deep Rigid Instance Scene Flow

在本文中,我们感兴趣的是估计场景流在自动驾驶汽车的背景下。我们基于直觉建立模型,即在这个场景中,场景的运动可以通过估计每个演员的3D运动来形成。静态背景也可以被建模为一个刚性运动的对象,因为它的3D运动可以被描述为“自我-汽车”运动。为此,我们提出了一种新的深度结构模型,利用光流、立体声以及实例分割作为视觉线索。我们首先描述我们如何使用深度学习来有效地估计几何和语义特征。然后我们将场景流任务定义为能量最小化问题,并详细讨论每个能量项。最后,我们描述了如何进行有效的推理和学习

3.1 视觉线索

我们利用三种视觉线索:实例分割,光流和立体。

Instance Segmentation实例分割: 我们利用Mask R-CNN[13]作为我们的实例分割网络,因为它在自动驾驶基准中产生最先进的结果,例如KITTI[12]和Cityscapes[10]。Mask R-CNN是一个基于Faster R-CNN[33]的两阶段网络。对于每个对象提议,它预测对象类,回归其2D框,并推断bg/fg分割掩码。

Stereo:立体: 我们利用金字塔立体匹配网络(PSM-Net)[8]来计算我们的立体估计。它由三个主要模块组成:全卷积特征模块、空间金字塔池化[14,48]和3D成本体处理。特征模块以完全卷积的方式计算高维特征图;空间金字塔池在不同的尺度和位置聚集语境,构建成本量;然后,3D成本体积模块执行隐性成本体积聚合,并使用堆叠沙漏网络对其进行规格化。与以前的视差回归网络相比,PSM-Net学习更好地细化和产生尊重对象边界的尖锐视差图像。这是至关重要的,因为过度平滑的结果往往会恶化运动估计。

Optical Flow光流: 我们的流模块类似于PWC-Net[38],这是一个最先进的流网络设计基于三个经典原则(类似于立体网络):金字塔特征处理,扭曲和成本体积推理。金字塔特征处理对大背景下的视觉特征进行编码;通过从粗到细的方案,渐进的翘曲降低了建造成本。成本量推理通过细化边界进一步提高性能。我们通过一个修改实现了PWC-net:在扭曲操作中,如果采样点落在图像之外,我们使用最近的边界像素的特征来填充,而不是0。根据经验,我们发现这可以提高性能。

3.2 能量公式

我们现在描述我们的深度结构模型的能量公式。设L0、R0、L1、r1为两个连续时间步长采集的输入立体对。设D0,D1为估计的立体声,FL,FRbe为推断的流。表示S0 Las,实例分割计算在左侧图像L0上。假设所有的相机都预先用已知的特性校准。我们参数化了ξ∈se(3)的三维刚体运动,与se(3)有关的lie代数。我们使用这个参数化,因为它是三维运动的最小表示。对于每个实例i∈s0l,我们的目标是找到使光度误差、刚性拟合和流量一致性的加权组合最小的刚性三维运动,其中权值记为λ·,i。为简单起见,设I = {L0,R0,L1,R1,D0,D1,FL,FR}为输入图像和视觉线索。我们将属于实例i的像素集合表示为Pi= {p|S0 L§ = i}。注意,背景可以被视为一个“实例”,因为它中的所有像素都经历了相同的刚性变换。我们通过最小化得到每个实例的三维运动

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值