Stereo R-CNN based 3D Object Detection for Autonomous Driving翻译—基于立体声R-CNN的自主驾驶三维目标检测

最新推荐文章于 2024-09-06 14:42:00 发布

吴小沫

最新推荐文章于 2024-09-06 14:42:00 发布

阅读量2.4k

点赞数 2

分类专栏：目标检测文章标签：目标检测

目标检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于立体声R-CNN的自主驾驶三维目标检测

论文原文：https://arxiv.org/abs/1902.09738

摘要

提出了一种充分利用立体图像中稀疏、密集、语义和几何信息的自动驾驶三维目标检测方法。我们的方法，称为立体声R-CNN，扩展了更快的R-CNN的立体声输入，以同时检测和关联对象在左图像和右图像。我们在立体区域建议网络（RPN）之后添加额外的分支来预测稀疏的关键点、视点和对象尺寸，这些关键点、视点和对象尺寸与二维左右框相结合来计算粗糙的三维对象边界框。然后，我们通过使用左右ROI的基于区域的光度校准恢复精确的三维边界框。我们的方法不需要深度输入和三维位置监控，但优于所有现有的完全监控基于图像的方法。对具有挑战性的Kitti数据集的实验表明，在3D检测和3D定位任务上，我们的方法比最先进的基于立体声的方法快30%。代码将公开发布。

1、介绍

三维目标检测是视觉感知、运动预测和自主驾驶规划的基础。目前，大多数3D物体检测方法[5、23、31、13、18]严重依赖激光雷达数据，以在自动驾驶场景中提供准确的深度信息。然而，激光雷达的缺点是成本高，感知范围相对较短（～100米），信息稀疏（32，64行与>720p图像相比）。另一方面，单眼相机为3D物体检测提供了替代的低成本解决方案[3，21，27]。深度信息可以通过场景中的语义属性和对象大小等来预测，但是，推断的深度不能保证其准确性，尤其是对于看不见的场景。为此，我们提出了一种基于立体视觉的三维目标检测方法。立体相机与单眼相机相比，通过左右光度学对准提供更精确的深度信息。与激光雷达相比，立体摄像机成本较低，但对于非平凡视差的物体，其深度精度相当。立体相机的感知范围取决于焦距和基线。因此，立体视觉有潜力通过将不同的立体模块与不同的焦距和基线相结合来提供更大的距离感知。

本文充分利用立体图像中的语义和几何信息，研究了三维物体的稀疏和密集约束，提出了一种基于R-CNN的立体物体精确检测方法。我们的方法同时检测和关联对象的左，右图像使用建议的立体声R-CNN。网络体系结构如图1所示，可分为三个主要部分。第一个是立体声RPN模块（第3.1）输出相应的左右投资回报率建议。将roialAlign[8]分别应用于左、右特征图后，我们将左、右ROI特征连接起来，对对象类别进行分类，并在立体回归（第节）中回归精确的二维立体盒、视点和尺寸。3.2）分支。关键点3.2）使用分支来预测仅使用左ROI特征的对象关键点。这些输出形成用于3D框估计（第节）的稀疏约束（二维框、关键点）。4），其中我们用二维左右框和关键点建立三维框角之间的投影关系。

确保我们的三维定位性能的关键组件是密集的三维盒对齐（第5）。我们认为三维物体定位是一个学习辅助几何问题，而不是一个端到端的回归问题。我们不直接使用深度输入[4，27]而直接使用对象属性，而是将对象ROI视为一个整体，而不是独立的像素。对于规则形状的对象，在给定粗略的三维边界框的情况下，可以推断出每个像素与三维中心之间的深度关系。我们根据与3D对象中心的深度关系，将左侧ROI中的密集像素扭曲到右侧图像，以找到最佳的中心深度，最大限度地减少整个光度误差。因此，整个对象的ROI形成了三维对象深度估计的密集约束。使用三维盒估计器进一步校正三维盒（第4）根据对准深度和二维测量。

我们总结了我们的主要贡献如下：

•立体声R-CNN方法，它同时检测和关联立体图像中的物体。

•利用关键点和立体盒约束的三维盒估计。

•基于密集区域的光度校准方法，确保我们的三维物体定位精度。

•对Kitti数据集的评估表明，我们优于所有最先进的基于图像的方法，甚至可以与基于激光雷达的方法进行比较。

2。本文简要回顾了近年来基于激光雷达数据、单目图像和立体图像的三维目标检测技术的研究进展。

基于激光雷达的三维目标检测。大多数先进的三维物体检测方法依靠激光雷达提供准确的三维信息，同时处理不同表示形式的原始激光雷达输入。[5，16，28，18，13]将点云投影到二维鸟瞰图或前视图表示中，并将其输入结构化卷积网络，其中[5，18，13]利用将多个激光雷达表示与RGB图像融合以获得更密集的信息。[6，26，15，20，31]使用结构化体素网格表示量化原始点云数据，然后使用二维或三维CNN检测三维对象，而[20]以多帧作为输入，同时生成三维检测、跟踪和运动预测。另外，没有量化点云，[23]直接采用原始点云作为输入，根据从二维检测和点网[24]得到的截锥区域定位三维对象。

基于单眼的三维物体检测。[3]着重于使用地面假设、形状先验、上下文特征和单眼图像的实例分割生成三维对象建议。[21]建议使用二维盒边和三维盒角之间的几何关系来估计三维盒。[30，1，22]通过预测规则形状车辆的一系列关键点，明确利用稀疏信息。三维对象姿态可以通过线框模板拟合进行约束。[27]提出了一种端到端的多层次融合方法，通过将RGB图像和单目深度图连接起来检测三维物体。最近提出了一种逆向图形框架[14]来通过图形渲染和比较来预测三维物体姿态和实例级分割。然而，单目法不可避免地会缺乏精确的深度信息。

基于立体的3D物体检测。令人惊讶的是，只有少数作品利用立体视觉进行3D物体检测。 3DOP专注于通过将对象大小先前，地平面先验和深度信息（例如，自由空间，点云密度）编码成能量函数来生成3D提议。然后使用3D建议使用R-CNN方法回归对象姿势和2D框。将结构从运动（SfM）方法扩展到动态对象案例，并通过融合空间和时间信息连续跟踪3D对象和自我相机姿势。然而，上述方法都没有利用原始立体图像中的密集对象约束。

立体声R-CNN网络在本节中，我们将描述立体声R-CNN网络架构。与单帧检测器（如快速R-CNN [25]）相比，立体声R-CNN可以同时检测并关联左右图像的2D边界框，并进行微小修改。我们使用权重共享ResNet-101 [9]和FPN [19]作为我们的骨干网络来提取左右图像的一致特征。受益于我们的训练目标设计图2，没有额外的数据关联计算。

3.1。立体声RPN区域提议网络（RPN）[25]是基于滑动窗口的前景检测器。在特征提取之后，利用3×3卷积层来减少信道，然后使用两个兄弟全连接层来对对象进行分类，并对每个输入位置进行回归框偏移，其中锚定有预定义的多尺度框。与FPN [19]类似，我们通过评估多尺度特征图上的锚来修改金字塔特征的原始RPN。不同之处在于我们在每个刻度上连接左右特征映射，然后我们将连接的特征提供给立体声RPN网络。关键设计使我们的同时对象检测和关联是对象分类器和立体盒回归器的不同地面实况（GT）盒分配。如图2所示，我们将左右GT框的并集（称为联合GT框）指定为对象分类的目标。如果锚点与联盟GT框之一的交叉点（IoU）比率高于0.7，则为锚点分配正标签，如果其任何联合框的IoU低于0.3，则为负标签。受益于这种设计，正锚定倾向于包含左右物体区域。我们计算了目标联合GT框中包含的左右GT框的正锚的偏移量，然后分别为左右回归分配偏移量。立体回归函数有六个回归项：[Δu，Δw，Δu0，Δw0，Δv，Δh]，其中我们使用u，v来表示2D盒中心的水平和垂直坐标在图像空间中，w，h表示框的宽度和高度，上标（·）0表示右图中的对应项。请注意，我们对左右框使用相同的v，h偏移Δv，Δh，因为我们使用经过校正的立体图像。因此，我们在立体RPN回归器中有六个输出通道，而不是原始RPN实现中的四个。由于左右提议是从同一个锚点生成并共享对象性得分，因此它们可以一个接一个地自然关联。我们分别在左右RoI上使用非最大抑制（NMS）来减少冗余，然后从左右NMS中保留的条目中选择前2000个候选者进行训练。为了测试，我们只选择前300名候选人。

3.2。立体声R-CNN立体声回归。在立体声RPN之后，我们有相应的左右提议对。我们分别在适当的金字塔等级上对左右特征图应用RoI Align [8]。左右RoI特征被连接并馈送到两个连续的完全连接的层（每个层后面跟着ReLU层）以提取语义信息。我们使用四个子分支来分别预测对象类，立体边界框，尺寸和视角。框回归术语与Sect中定义的相同。 3.1。注意，视点角度不等于从裁剪图像RoI不可观察的物体取向。图3中示出了一个示例，其中我们使用θ来表示相对于相机框架的车辆方向，并且β来表示相对于相机中心的物体方位角。三辆车具有不同的方向，然而，它们的投影在裁剪的RoI图像上完全相同。因此，我们将视点角α回归定义为：α=θ+β。为了避免不连续性，训练目标是[sinα，cosα]对而不是原始角度值。利用立体盒和物体尺寸，可以直观地恢复深度信息，并且还可以通过将视点角度与3D位置之间的关系解耦来解决车辆方向。当对RoI进行采样时，如果左侧RoI与左侧GT框之间的最大IoU高于0.5，则我们将左右RoI对视为前景，同时右侧RoI与对应的右侧GT框之间的IoU也高于0.5。如果左RoI或右RoI的最大IoU位于[0.1,0.5）区间，则左右RoI对被视为背景。对于前景RoI对，我们通过计算左侧RoI与左侧GT框之间的偏移以及右侧RoI与对应的右侧GT框之间的偏移来分配回归目标。对于左右RoI，我们仍然使用相同的Δv，Δh。对于尺寸预测，我们简单地回归地面实况尺寸与预先设定的尺寸之间的偏差.

关键点预测。除了立体盒和视角之外，我们注意到在盒子中间投影的3D盒角可以为3D盒估计提供更严格的约束。如图4所示，我们定义了四个3D语义关键点，这些关键点指示3D边界框底部的四个角。只有一个3D语义关键点可以可见地投射到框中间（而不是左边或右边）。我们将此语义关键点的投影定义为透视关键点。我们展示了透视关键点如何在Sect中对3D盒子估计做出贡献。 4和表。 5.我们还预测了两个边界关键点，它们可以作为常规形状对象的实例掩码的简单替代。只有两个边界关键点之间的区域属于当前对象，并将用于进一步的密集对齐（参见第5节）。我们预测Mask R-CNN [8]中提出的关键点。只有左侧要素图用于关键点预测。我们将14×14 RoI对齐的特征映射馈送到六个连续的256-d 3×3卷积层，如图1所示，每个卷积层后面跟着一个ReLU层。使用2×2反卷积层将输出比例上采样到28×28。我们注意到只有关键点的u坐标提供除2D框之外的附加信息。为了放松任务，我们将6×28×28输出中的高度通道相加以产生6×28预测。因此，RoI功能中的每一列都将被聚合并有助于关键点预测。前四个通道表示将四个语义关键点中的每一个投影到相应的u位置的概率。另外两个通道分别表示每个u位于左右边界的概率。请注意，四个3D关键点中只有一个可以可见地投影到2D盒中间，因此softmax应用于4×28输出，以鼓励将一个独有的语义关键点投影到单个位置。该策略避免了透视关键点类型的可能混淆（对应于语义关键点中的哪一个）。对于左右边界关键点，我们分别在1×28输出上应用softmax。

在训练期间，我们将用于透视关键点预测的4×28 softmax输出的交叉熵损失最小化。只有4×28输出中的单个位置被标记为透视关键点目标。我们省略了在框中间没有可见地投射3D语义关键点的情况（例如，截断和正交投影情况）。对于边界关键点，我们独立地最小化两个1×28 softmax输出的交叉熵损失。根据GT框之间的遮挡关系，为每个前景RoI分配左右边界关键点。

4. 3D盒子估计在本节中，我们通过利用稀疏关键点和2D盒子信息来解决粗糙的3D边界框。 3D边界框的状态可以由x = {x，y，z，θ}表示，其分别表示3D中心位置和水平方向。给定左右2D框，透视关键点和回归尺寸，可以通过最小化2D框和关键点的重投影误差来解决3D框。如图5所示，我们从立体盒和透视关键点提取七个测量值：z = {ul，vt，ur，vb，u0 l，u0 r，up}，它们代表左，上，右，下边缘。左侧2D框，右侧2D框的左侧，右侧边，以及透视关键点的u坐标。每个测量由相机内在归一化以简化表示。给定透视关键点，可以推断出3D框角和2D框边之间的对应关系（参见图5中的虚线）。受[17]的启发，我们通过投影变换来制定3D-2D关系。