【3D目标检测】用于自动驾驶的多视图 3D 对象检测网络——论文阅读1

Bellamy_xxx

已于 2023-03-14 20:44:27 修改

阅读量499

点赞数

分类专栏：笔记文章标签：目标检测 3d 自动驾驶

于 2023-03-14 11:31:46 首次发布

本文链接：https://blog.csdn.net/qq_44992157/article/details/129518209

版权

笔记专栏收录该内容

17 篇文章 2 订阅

订阅专栏

MV3D网络提出了一种融合激光雷达点云和RGB图像的框架，用于高精度3D物体检测。通过3D提案网络从鸟瞰图生成3D候选框，然后使用多视图融合网络结合不同视图的特征进行定向3D框回归。在KITTI基准测试中，MV3D在3D定位和3D检测任务上表现出色，优于现有技术。

摘要由CSDN通过智能技术生成

摘要

目的：实现自动驾驶场景中的高精度 3D 物体检测；
贡献：提出了多视图 3D 网络 (Multi-View 3D Networks, MV3D)，这是一种将 LIDAR 点云和 RGB 图像作为输入并预测定向 3D 边界框的感官融合框架。（注：提出了一种框架，预测结果是含有车辆行驶方向的3D边界框）
方法：使用紧凑的多视图表示对稀疏 3D 点云进行编码。
细节：该网络由两个子网络组成：一个用于 3D 对象提议生成(Proposal)，提议网络从 3D 点云的鸟瞰图(BEV)表示中有效地生成 3D 候选框。另一个用于多视图特征融合(Feature-fusion)。
结果：在具有挑战性的 KITTI 基准测试中进行的实验表明，我们的方法在 3D 定位和 3D 检测任务上比最先进的方法高出约 25% 和 30% AP（两个任务：定位和检测）。此外，对于 2D 检测，我们的方法比在基于激光雷达的方法中获得的 AP的最新技术高 14.9%（2D检测只和纯激光雷达的进行了对比）。

Introduction

本文的重点是利用激光雷达和图像数据进行 3D 对象检测。我们的目标是对道路场景中的物体进行高精度 3D 定位和识别。

图片描述在第二节

多视图 3D 检测网络由两部分组成：3D 建议网络和基于区域的融合网络。 3D 提案网络利用点云的鸟瞰图表示来生成高精度的 3D 候选框。 3D object proposals 的好处是它可以投影到 3D 空间中的任何视图。多视图融合网络通过将 3D object proposals投影到多视图的特征图来提取区域特征。我们设计了一种深度融合方法，以实现来自不同视图的中间层的交互。结合下降路径训练和辅助损失，我们的方法显示出优于早期/晚期融合方案的性能。给定多视图特征表示，网络执行定向 3D 框回归，预测 3D 空间中对象的准确 3D 位置、大小和方向。

MV3D

MV3D 网络将 3D 点云和图像的多视图表示作为输入。它首先从LIDAR的鸟瞰图生成 3D 对象建议，并通过基于区域的表示深度融合多视图特征。融合的特征用于类别分类和定向 3D 框回归。

3D点云表示

现有工作通常将 3D LIDAR 点云编码为 3D 网格（Grid）或前视图（Front View map）。虽然 3D 网格表示保留了点云的大部分原始信息，但通常需要更复杂的计算来进行后续的特征提取。我们通过将 3D 点云投影到鸟瞰图和前视图来提出更紧凑的表示。
鸟瞰图表示。鸟瞰图表示由高度、强度和密度编码。

我们将投影点云离散化为分辨率为 0.1m 的二维网格。对于每个单元格：
高度特征被计算为单元格中点的最大高度。为了编码更详细的高度信息，将点云平均分为 M 个切片。为每个切片计算高度图，就获得 M 个高度图。
强度特征是每个单元格中具有最大高度的点的反射率值。
点云密度表示每个单元格中的点数。为了规范化特征，它的计算公式为
$min\left(1.0,\frac{log(N+1)}{log(64)}\right)$
其中 N 是单元格中的点数。
注意，强度和密度特征是针对整个点云计算的，而高度特征是针对 M 个切片计算的，因此鸟瞰图被编码为 (M +2) 通道特征。(M个高度特征，1个强度特征，1个密度特征)

前视图表示。前视图表示为鸟瞰图表示提供补充信息。由于 LIDAR 点云非常稀疏，将其投影到图像平面会产生稀疏的 2D 点图。相反，我们将其投影到圆柱平面以生成密集的前视图图。给定一个 3D 点 $p = (x, y, z)$ ，它在前视图地图中的坐标则为
$p_{fv} = (r, c)$
其中 $\lfloor atan2(y,x)/\Delta\theta \rfloor$ ， $\lfloor atan2(z,\sqrt{x^2+y^2})/\Delta\phi \rfloor$ ； $\Delta\theta$ 和 $\Delta\phi$ 分别是激光束的水平和垂直分辨率。我们使用三通道特征对前视图图进行编码，即高度、距离和强度。

3D Proposal Network

受区域提议网络 (RPN) 的启发，我们首先设计了一个网络来生成 3D 对象提议。我们使用鸟瞰图作为输入。在 3D 物体检测中，鸟瞰图比前视图（Front View map）或图像(RGB)平面有几个优势：

首先，物体在投射到鸟瞰图时会保持物理尺寸，因此尺寸变化很小，而在前视图（Front View map）或图像(RGB)平面中则不是这种情况。
其次，鸟瞰视图中的物体占据不同的空间，从而避免了遮挡问题。
第三，在道路场景中，由于物体通常位于地平面上并且垂直位置变化较小，因此鸟瞰图位置对于获得准确的 3D 边界框更为关键。
因此，使用显式鸟瞰图作为输入使得 3D 位置预测更加可行。(使用BEV提出区域建议框会更加准确）

实施细节：

给了一张鸟瞰图。该网络从一组 3D Prior boxes 生成 3D Proposal boxes。每个3D box 使用 $(x, y, z, l, w, h)$ 来参数化，它们是激光雷达坐标系中3D框的中心 $(x, y, z)$ 和大小 $(l, w, h)$ ，以米为单位。
对于每一个3D Prior boxes，通过离散化 $(x, y, l, w)$ ，可以得到对应的鸟瞰图中的anchor $x_{bv},y_{bv},l_{bv},w_{bv})$ 。
Prior boxes的提出：通过对训练集中的真实对象大小进行聚类，从而设计出N个3D先验框。在车辆检测的案例中，先验框的 $l$ 取值范围为 $(3.9 - 1.6)$ ， $w$ 取值范围为 $(1.0 - 0.6)$ ，高度 $h$ 设置为1.56m；通过将鸟瞰图中的anchor不停旋转90°（旋转四次），就可以获得 $N = 4$ 个先验框；在鸟瞰图中获得 $(x, y)$ ， $z$ 则可以根据相机高度和物体高度进行计算获得。
方向回归不在生成Proposal的过程中进行，而将其留给下一个预测阶段。
3D boxes 的方向被限制为 {0°, 90°}，这接近于大多数道路场景对象的实际方向。这种简化使得Proposal回归的训练更容易。
在0.1m的离散化分辨率下，鸟瞰图中的物体框仅占5∼40个像素。检测这种超小物体对于深度网络来说仍然是一个难题。一种可能的解决方案是使用更高分辨率的输入，然而，这将需要更多的计算。我们选择 [1] 中的特征图上采样。我们在提案网络的最后一个卷积层之后使用 2x 双线性上采样。在我们的实现中，前端卷积仅进行三个池化操作，即 8x 下采样。因此，结合 2x 反卷积，输入到提案网络的特征图相对于鸟瞰图输入进行了 4x 下采样。（？）
回归方式：类似于RPN，我们进行3D框回归的方式是通过回归到 $t=(\Delta x,\Delta y,\Delta z, \Delta l, \Delta w, \Delta h)$ 。其中， $(\Delta x,\Delta y,\Delta z)$ 是通过anchor尺寸归一化的中心偏移量； $(\Delta l, \Delta w, \Delta h)$ 计算为 $\Delta s =log\left(\frac{s_{GT}}{s_{anchor}}\right),s \in \left\{l,w,h\right\}$ 。我们使用多任务损失来同时对对象/背景 进行分类并进行 3D 框回归。特别是，我们对“objectness”损失使用类熵，对 3D 框回归损失使用 Smooth $l 1$ 。计算回归框损失时，背景anchor被忽略。在训练期间，我们计算anchors和真实鸟瞰图框之间的 IoU 重叠。如果重叠度高于 0.7，则认为锚是正的，如果重叠度低于 0.5，则认为锚是负的。中间有重叠的锚点将被忽略（非极大抑制）。
此外，由于 LIDAR 点云稀疏，导致许多空锚点，我们在训练和测试期间删除所有空锚点以减少计算量。这可以通过计算点占用图上的积分图像来实现（看anchors里点云的数量）。对于最后一个卷积特征图的每个位置的每个非空anchor，网络生成一个 3D 框。为了减少冗余，我们在鸟瞰图框上应用了非极大值抑制（NMS）。我们没有使用 3D NMS，因为物体应该在地平面上占据不同的空间。我们对 NMS 使用 0.7 的 IoU 阈值。训练时保留前 2000 个框，而在测试中，我们只使用 300 个框。

Region-based Fusion Network

我们设计了一个基于区域的融合网络，以有效地组合来自多个视图的特征，并共同对目标Proposal进行分类并进行定向 3D 框回归。

Multi-View ROI pooling。由于来自不同视图(三种，分别是鸟瞰图、前视图和RGB相机图)/模态（两种，分别是相机和激光雷达）的特征通常具有不同的分辨率，因此我们对每个视图使用 ROI pooling [9] 以获得相同长度的特征向量（解释了为什么要使用ROI Pooling，以及使用ROI Pooling后这些向量就具有相同的长度了）。使用生成的 3D Proposal，我们可以将它们投影到 3D 空间中的任何视图（投影的是Proposal，先生成Proposal才能投影和融合）。在我们的例子中，我们将它们投影到三个视图，即鸟瞰图 (BV)、前视图 (FV) 和图像平面 (RGB)。给定一个 3D Proposal $p_{3D}$ ，我们通过以下方式获得每个视图(view)的 ROI：
$ROI_v = T_{3D\rightarrow v}\left(p_{3D} \right), v\in \left\{BV,FV,RGB\right\}$
其中 $T_{3D\rightarrow v}$ 分别表示从激光雷达坐标系到鸟瞰图(BV)、前视图(FV)和图像(RGB)平面的变换函数。给定来自每个视图(view)的前端网络的输入特征图 $x$ ，我们通过 ROI Pooling 获得固定长度的特征 $f_v$ (此处就说明了，经过ROI Pooling后，三个视图拥有长度相同的特征向量)：
$f_v = R\left(x,ROI_v\right),v\in \left\{BV,FV,RGB\right\}$
深度融合。为了结合来自不同特征的信息，先前的工作通常使用早期融合或晚期融合。本文采用深度融合方法，分层融合多视图特征。

对于具有 L 层的网络，早期融合在输入阶段结合来自多个视图的特征 $f_v$ ：
$f_L = H_L\left(H_{L-1}\left(\cdots H_1\left(f_{BV}\oplus f_{FV} \oplus f_{RGB}\right)\right)\right)$
其中 $\left\{H_l,l=1,...,L\right\}$ 是特征转换函数， $\oplus$ 是连接操作（例如，串联、求和）。
相反，后期融合使用单独的子网络独立学习特征转换，并在预测阶段组合它们的输出：
$f_L = \left(H^{BV}_{L}\left(H^{BV} _{L-1} \left( \cdots H^{BV}_{1} \left(f_{BV}\right)\right)\right)\right) \oplus \left(H^{FV}_{L}\left(H^{FV} _{L-1} \left( \cdots H^{FV}_{1} \left(f_{FV}\right)\right)\right)\right) \oplus \left(H^{RGB}_{L}\left(H^{RGB} _{L-1} \left( \cdots H^{RGB}_{1} \left(f_{RGB}\right)\right)\right)\right)$
为了使不同视图的中间层特征（融合阶段的中间层）之间有更多的交互，我们设计了以下深度融合过程：
$f_0 = f_{BV} \oplus f_{FV} \oplus f_{RGB}$
$f_l = H^{BV}_{l} \left( f_{l-1}\right) \oplus H^{FV}_l \left(f_{l-1}\right) \oplus H^{RGB}_l \left( f_ {l-1}\right)，\forall l = 1, ...,L$
我们对深度融合的连接操作使用逐元素均值，因为它在与 droppath 训练相结合时更加灵活。

Oriented 3D Box Regression:

目的：鉴于多视图网络的融合特征，我们从 3D proposals 回归到 oriented 3D boxes。
方法：回归目标是 3D 框（oriented 3D boxes）的 8 个角： $\left(\Delta x_0, · · · , \Delta x_7, \Delta y_0, · · · , \Delta y_7, \Delta z_0, · · · , \Delta z_7\right)$ 。它们被编码为由Proposal框的对角线长度归一化的角偏移(？)。尽管这样的 24 维向量表示在表示 oriented 3D boxes 方面是多余的，但我们发现这种编码方法比中心和大小编码方法效果更好。

网络正则化：我们采用两种方法对基于区域的融合网络进行正则化：drop-path training 和 auxiliary losses。对于每次迭代，我们随机选择做全局丢弃路径或局部丢弃路径，概率为 50%。

如果选择全局丢弃路径，我们会以相等的概率从三个视图中选择一个视图。
如果选择局部丢弃路径，则输入到每个连接节点的路径将以 50% 的概率随机丢弃。我们确保为每个连接节点至少保留一个输入路径。为了进一步加强每个视图的表示能力，我们在网络中添加了辅助路径和损失（下图中绿色部分）。

可以看出，辅助路径与主网络具有相同的层数，且辅助路径中的每一层都与主网络路径中的相应层共享权重。我们（在主网络和辅助路径中）使用相同的多任务损失，即分类损失加上 3D 框回归损失，来反向传播每个辅助路径（这是在训练过程中）。我们对包括辅助损失在内的所有损失进行平均加权（训练损失两方面考虑，主网络和辅助路径一起平均）。辅助路径在推理过程中被移除（检测阶段不使用辅助路径）。

Implementation

网络架构。在我们的多视图网络中，每个视图都具有相同的架构。基础网络建立在 16 层 VGG 网络上，并进行了以下修改：

Channels 减少到原来网络的一半。
为了处理超小物体，我们使用特征近似来获得高分辨率特征图。特别是，我们在将最后一个卷积特征图馈送到 3D Proposal 网络之前插入一个 2x 双线性上采样层。同样，我们在 BV/FV/RGB 分支的 ROI 池化层之前插入一个 4x/4x/2x 上采样层。
我们删除了原始 VGG 网络中的第 4 个池化操作，因此我们网络的卷积部分进行了 8 倍下采样。此处放一个VGG16的网络做对比
在多视图融合网络中，除了原始的 $fc_6$ 和 $fc_7$ 层之外，我们还添加了一个额外的全连接层 $fc_8$ 。

我们通过从在 ImageNet 上预训练的 VGG-16 网络中采样权重来初始化参数(使用了预训练模型)。尽管我们的网络有三个分支，但参数数量约为 VGG-16 网络的 75%。在 Titan X GPU 上，一张图像的网络推理时间约为 0.36 秒。
2. 输入表示。在 KITTI 的情况下，它只为前视图（大约 90° 视野）中的对象提供注释，我们使用 [0, 70.4] × [-40, 40] m (x范围是0—70.4m, y范围是-40—40m)范围内的点云。当投影到图像平面时，我们还会删除超出图像边界的点。对于鸟瞰图，离散化分辨率设置为0.1m，因此鸟瞰图输入的尺寸为704×800( $(70.4 - 0) \times 10 \times (40 + 40) \times 10$ )。由于 KITTI 使用 64-beam Velodyne 激光扫描仪，我们可以获得 64×512 的前视点地图。 RGB 图像被放大，因此最短尺寸为 500。
3. 训练。该网络以端到端的方式进行训练。对于每个小批量，我们使用 1 张图像（batchsize=1）并采样 128 个 ROI，大致保持 25% 的 ROI 为正。我们使用 SGD 训练网络，学习率为 0.001，进行 100K 次迭代。然后我们将学习率降低到 0.0001 并训练另外 20K 次迭代。

Experiments

我们在具有挑战性的 KITTI 对象检测基准上评估我们的 MV3D 网络。该数据集提供了 7,481 张用于训练的图像和 7,518 张用于测试的图像。由于测试服务器只评估 2D 检测，我们将训练数据分为训练集和验证集，每个大约包含整个训练数据的一半。我们对验证集进行 3D 框评估。我们将实验重点放在汽车类别上，因为 KITTI 为我们基于深度网络的方法提供了足够的汽车实例。按照 KITTI 设置，我们对三种难度机制进行评估：简单、中等和困难。

指标。我们使用 3D box recall 作为度量来评估 3D object proposals。不同于 2D box recall，我们计算两个长方体的 IoU 重叠。请注意，长方体不必与轴对齐，即它们可以是定向的 3D 框。在我们的评估中，我们将 3D IoU 阈值分别设置为 0.25 和 0.5。对于最终的 3D 检测结果，我们使用两个指标来衡量 3D 定位和 3D 边界框检测的准确性。

对于 3D 定位，我们将 3D 框投影到地平面（即鸟瞰图）以获得定向鸟瞰图视角框。我们计算鸟瞰图框的平均精度 (APloc)。
对于 3D 边界框检测，我们还使用平均精度 (AP3D) 指标来评估完整的 3D 边界框。请注意，鸟瞰图框和 3D 框都是有方向的，因此在这两个指标中隐式考虑了对象方向。
我们还通过将 3D 框投影到图像平面来评估 2D 检测的性能。平均精度 (AP2D) 也用作度量标准。按照 KITTI 惯例，2D 框的 IoU 阈值设置为 0.7。

Baseline。由于这项工作针对 3D 目标检测，我们主要将我们的方法与基于 LIDAR 的方法 VeloFCN 、Vote3Deep 和 Vote3D 以及基于图像的方法 3DOP 和 Mono3D 进行比较。

为了公平比较，我们关注我们方法的两个变体，即使用鸟瞰图和前视图作为输入的纯基于激光雷达的变体（BV+FV），以及结合激光雷达和 RGB 数据的多模态变体（BV+ FV+RGB）(又控制变量了一次，即消融实验)。对于 3D 框评估，我们与 VeloFCN、3DOP 和 Mono3D 进行比较，因为它们提供了验证集上的结果。对于没有公开结果的Vote3Deep和Vote3D，我们只在测试集上做2D检测对比。

3D Proposal recall。我们使用 300 个 Proposal 将召回率绘制为 IoU 阈值的函数。我们的方法在所有 IoU 阈值上明显优于 3DOP [4] 和 Mono3D [3]。下图还显示了在 IoU 阈值分别为 0.25 和 0.5 的情况下，3D 召回率与Proposal数量的函数关系。仅使用 300 个建议，我们的方法在 IoU 阈值为 0.25 时获得 99.1% 的召回率，在 IoU 为 0.5 时获得 91% 的召回率。相比之下，当使用 0.5 的 IoU 时，3DOP 所能达到的最大召回率仅为 73.9%。较大的余量表明我们基于激光雷达的方法优于基于图像的方法。
3D Localization。我们使用 0.5 和 0.7 的 IoU 阈值进行 3D 定位评估。正如预期的那样，所有基于 LIDAR 的方法都比基于立体的方法 3DOP 和单目方法 Mono3D 表现更好。在基于 LIDAR 的方法中，我们的方法 (BV+FV) 在 IoU 阈值 0.5 下优于 VeloFCN ~25% APloc。当使用 IoU=0.7 作为标准时，我们的改进更大，在简单、中等和困难的条件下实现了 ~45% 的高 APloc。通过结合 RGB 图像，我们的方法得到了进一步改进。
3D 目标检测。对于 3D 重叠标准，我们关注基于激光雷达的方法的 3D IoU 为 0.5 和 0.7。由于这些 IoU 阈值对基于图像的方法相当严格，我们还使用 0.25 的 IoU 进行评估。当使用 0.5 的 IoU 时，我们的“BV+FV”方法获得的 AP3D 比 VeloFCN 高 30%，达到 87.65%中等设置的 AP3D。在 IoU=0.7 的条件下，我们的多模式方法在简单数据上仍然达到了 71.29% 的 AP3D。在中等设置下，使用 IoU=0.25 的 3DOP 可实现的最佳 AP3D 为 68.82%，而我们的方法使用 IoU=0.5 可实现 89.05% AP3D。
消融研究。

首先将我们的深度融合网络与早期/晚期融合方法进行比较。正如文献中常用的那样，连接操作在早期/晚期融合方案中通过连接来实例化。早期和晚期融合方法具有非常相似的性能。在不使用辅助损失的情况下，深度融合方法比早期和晚期融合方法实现了约 0.5% 的改进。添加辅助损失进一步将深度融合网络提高了 1% 左右。
为了研究来自不同视图的特征的贡献，我们尝试了鸟瞰图（BV）、前视图（FV）和 RGB 图像（RGB）的不同组合。 3D Proposal 网络对于所有变体都是相同的。如果仅使用单个视图作为输入，鸟瞰图特征表现最好，而前视图特征最差。将这两种观点中的任何一种结合起来总能比个别观点有所改进。这证明了我们的假设，即来自不同观点的特征是互补的。当融合所有三个视图的特征时，可以获得最佳的整体性能。

二维目标检测。我们最终评估了 KITTI 测试集上的二维检测性能。在基于 LIDAR 的方法中，我们的“BV+FV”方法在硬设置中优于最近提出的 Vote3Deep 方法 14.93% AP2D。总的来说，在二维检测方面，基于图像的方法通常比基于激光雷达的方法表现更好。这是因为基于图像的方法直接优化 2D 框，而基于 LIDAR 的方法优化 3D 框。请注意，尽管我们的方法优化了 3D 框，但与最先进的 2D 检测方法相比，它也获得了有竞争力的结果。
定性结果。与基于立体的方法 3DOP 和基于激光雷达的方法 VeloFCN 相比，我们的方法获得了更准确的物体 3D 位置、大小和方向。我们建议读者参阅补充材料以获得许多其他结果。

Conclusion

我们提出了一种用于道路场景中 3D 目标检测的多视图感官融合模型。

我们的模型同时利用了 LIDAR 点云和图像。
我们通过生成 3D Proposal 并将它们投影到多个视图以进行特征提取来对齐不同的模态。
提出了一种基于区域的融合网络来深度融合多视图信息并进行定向 3D 框回归。
我们的方法在 KITTI 基准的 3D 定位和 3D 检测任务上明显优于现有的基于 LIDAR 和基于图像的方法。与最先进的 2D 检测方法相比，我们从 3D 检测中获得的 2D 框结果也显示出具有竞争力的性能。