（CVPR 2017）Multi-View 3D Object Detection Network for Autonomous Driving

fish小余儿

已于 2022-11-02 22:35:34 修改

阅读量871

点赞数

分类专栏： 3D目标检测文章标签：算法计算机视觉自动驾驶 3d 人工智能

于 2022-03-25 17:08:28 首次发布

本文链接：https://blog.csdn.net/qq_25763027/article/details/123740591

版权

3D目标检测专栏收录该内容

15 篇文章 9 订阅

订阅专栏

摘要

本文针对自动驾驶场景中的高精度3D目标检测。我们提出了多视图3D网络(MV3D)，这是一种传感融合框架，将LIDAR点云和RGB图像作为输入并预测定向的3D边界框。我们使用紧凑的多视图表示对稀疏3D点云进行编码。该网络由两个子网络组成：一个用于3D目标proposal生成，另一个用于多视图特征融合。proposal网络从3D点云的鸟瞰图表示有效地生成 3D候选框。我们设计了一个深度融合方案来组合来自多个视图的区域特征，并实现不同路径的中间层之间的交互。在具有挑战性的KITTI基准上进行的实验表明，我们的方法在3D定位和3D检测任务上的性能优于现有技术约25%和30%AP。此外，对于2D检测，我们的方法在基于LIDAR的方法中的难样本上获得的AP比现有技术高10.3%。

1.简介

3D目标检测在自动驾驶汽车的视觉感知系统中发挥着重要作用。现代自动驾驶汽车通常配备多个传感器，例如激光雷达和摄像头。激光扫描仪具有准确深度信息的优势，而相机保留更详细的语义信息。 LIDAR点云与RGB图像的融合应该能够实现更高的性能和对自动驾驶汽车的安全性。

本文的重点是利用激光雷达和图像数据进行3D目标检测。我们的目标是对道路场景中的物体进行高精度的3D定位和识别。最近基于激光雷达的方法将3D窗口放置在3D体素网格中，以对点云进行评分[26，7]，或者在密集框预测方案中对前视点地图应用卷积网络[17]。基于图像的方法[4, 3]通常首先生成3D框proposal，然后使用Fast RCNN[10]pipeline执行基于区域的识别。基于LIDAR点云的方法通常可以实现更准确的 3D 位置，而基于图像的方法在2D框评估方面具有更高的准确度。 [11, 8]通过采用早期或晚期融合方案将激光雷达和图像结合起来进行2D检测。然而，对于更具挑战性的3D目标检测任务，需要精心设计的模型来利用多种模式的优势。

在本文中，我们提出了一种多视图3D目标检测网络(MV3D)，它以多模态数据作为输入，并预测3D空间中目标的完整3D范围。利用多模态信息的主要思想是进行基于区域的特征融合。我们首先提出了一种多视图编码方案，以获得稀疏3D点云的紧凑且有效的表示。如图1所示，多视图3D检测网络由两部分组成：3D Proposal网络和基于区域的融合网络。3D proposal网络利用点云的鸟瞰图表示来生成高度准确的3D候选框。3D目标proposal的好处是它可以投影到3D空间中的任何视图。多视图融合网络通过将3D proposal投影到来自多个视图的特征图来提取区域特征。我们设计了一种深度融合方法，以实现来自不同视图的中间层的交互。结合drop-path训练[15]和auxiliary损失，我们的方法显示出优于早/晚融合方案的卓越性能。给定多视图特征表示，网络执行定向3D框回归，预测3D空间中目标的准确3D位置、大小和方向。

我们在具有挑战性的KITTI[9]目标检测基准上评估了我们的3D proposal生成、3D定位、3D检测和2D检测的方法。实验表明，我们的3D proposal明显优于最近的3D proposal方法3DOP[4]和Mono3D[3]。特别地，在只有300个proposal的情况下，我们在交集/并集(IoU)阈值为0.25和0.5时分别获得了99.1%和91%的3D召回率。我们方法的基于激光雷达的变体在3D定位任务中实现了大约25%的准确度，在3D目标检测任务中实现了30%的3D平均精度（AP）。在KITTI的hard test set上进行2D检测，它的性能也比所有其他基于LIDAR的方法高出10.3%。当与图像相结合时，基于激光雷达的结果得到了进一步的改进。

2.相关工作

我们简要回顾了从点云和图像、多模态融合方法和3D目标proposal中进行3D目标检测的现有工作。

点云中的3D目标检测。 大多数现有方法使用体素网格表示对3D点云进行编码。滑动形状[22]和Vote3D[26]在用几何特征编码的3D网格上应用SVM分类器。最近提出的一些方法[23, 7, 16]通过3D卷积网络改进了特征表示，但是这需要昂贵的计算。除了3D体素表示，VeloFCN[17]将点云投影到前视图，获得2D点图。他们在2D点图上应用全卷积网络，并从卷积特征图密集预测3D框。[24,18,12]研究用于3D目标分类的点云的体积和多视图表示。在这项工作中，我们使用多视图特征图对3D点云进行编码，从而为多模式融合启用基于区域的表示。

图像中的3D目标检测。 3DVP[28]引入了3D体素模式并采用一组ACF检测器进行2D检测和3D姿态估计。3DOP[4]从立体图像重建深度，并使用能量最小化方法生成3D框proposals，这些proposals被输入到R-CNN[10]pipeline以进目标识别。虽然Mono3D[3]与3DOP共享相同的pipeline，但它从单目图像生成3D proposals。 [31, 32]使用3D线框模型介绍了目标的几何表示。为了结合时间信息，一些工作[6, 21]将运动和地面估计的结构结合起来，将2D 检测框提升到3D边界框。基于图像的方法通常依赖于准确的深度估计或地标检测。我们的工作展示了如何结合激光雷达点云来改进3D定位。

多模态融合 只有少数工作在自动驾驶的背景下利用多种形式的数据。[11]结合图像、深度和光流，使用混合专家（mixture-of-experts）框架进行2D行人检测。[8]在早期阶段融合RGB和深度图像，并训练用于2D检测的基于姿态的分类器。在本文中，我们设计了一种受FractalNet[15]和Deeply-Fused Net[27]启发的深度融合方法。在FractalNet中，一个基本模块被迭代重复，以构建一个具有指数增长路径的网络。类似地，[27]通过结合浅子网和深子网构建深度融合网络。我们的网络与它们不同，对每列使用相同的基础网络，并添加辅助路径和损失进行正则化。

图1：多视图3D目标检测网络(MV3D)：该网络以LIDAR点云的鸟瞰图和前视图以及图像作为输入。它首先从鸟瞰图生成3D目标proposals，并将它们投影到三个视图。深度融合网络用于组合通过ROI池化获得的每个视图的区域特征。融合特征用于联合预测目标类别并进行定向3D框回归。

3D目标Proposals 与2D目标proposals[25, 33, 2]类似，3D目标proposal方法生成一小组3D候选框，以覆盖3D空间中的大部分目标。为此，3DOP[4]在立体点云中设计了一些深度特征来对大量3D候选框进行评分。 Mono3D[3]利用地平面先验并利用一些分割特征从单个图像生成3D proposals。 3DOP和Mono3D都使用手工制作的功能。 Deep Sliding Shapes[23]利用了更强大的深度学习功能。然而，它在3D体素网格上运行，并使用计算量大的3D卷积。我们通过引入点云的鸟瞰图表示并使用2D卷积来生成准确的3D proposals.，提出了一种更有效的方法。

3.MV3D网络

MV3D网络将3D点云的多视图表示和图像作为输入。它首先从鸟瞰图生成3D目标proposals，并通过基于区域的表示深度融合多视图特征。融合特征用于类别分类和定向3D框回归。

3.1.3D点云表示

现有工作通常将3D LIDAR点云编码为3D网格[26, 7]或前视图[17]。虽然3D网格表示保留了点云的大部分原始信息，但它通常需要更复杂的计算来进行后续特征提取。我们通过将3D点云投影到鸟瞰图和前视图来提出更紧凑的表示。图2 可视化了点云表示。

图2：MV3D网络的输入特征。

鸟瞰图表示。 鸟瞰图表示由高度、强度和密度编码。我们将投影点云离散化为分辨率为0.1m的二维网格。对于每个单元格，高度特征被计算为单元格中点的最大高度。为了编码更详细的高度信息，点云被平均分为 $M$ 个切片。为每个切片计算一个高度图，因此我们获得 $M$ 个高度图。强度特征是每个单元格中具有最大高度的点的反射率值。点云密度表示每个单元格中的点数。为了标准化特征，它被计算为 $\min \left(1.0, \frac{\log (N+1)}{\log (64)}\right)$ ，其中 $N$ 是单元格中的点数。请注意，强度和密度特征是针对整个点云计算的，而高度特征是针对 $M$ 个切片计算的，因此总体而言，鸟瞰图被编码为 $(M + 2)$ 通道特征。

前视图表示。 前视图表示为鸟瞰图表示提供了补充信息。由于激光雷达点云非常稀疏，将其投影到图像平面会产生稀疏的2D点图。相反，我们将其投影到圆柱平面以生成密集的前视图，如[17]中所示。给定一个3D点 $p = (x, y, z)$ ，它在前视图中的坐标 $p_{f v}=(r, c)$ 可以使用
$\begin{aligned} c &=\lfloor\operatorname{atan} 2(y, x) / \Delta \theta]\rfloor \\ r &=\left\lfloor\operatorname{atan} 2\left(z, \sqrt{x^{2}+y^{2}}\right) / \Delta \phi\right\rfloor \end{aligned} \quad\quad \quad\quad(1)$
其中 $\Delta \theta$ 和 $\Delta \phi$ 分别是激光束的水平和垂直分辨率。我们用三通道特征对前视图进行编码，这些特征是高度、距离和强度，如图2所示。

3.2.3D Proposal网络

受区域Proposal网络（RPN）的启发，RPN已成为最先进的2D目标检测器[19]的关键组成部分，我们首先设计了一个网络来生成3D目标proposals。我们使用鸟瞰图作为输入。在3D目标检测中，鸟瞰图相对于前视图/图像平面有几个优点。首先，物体在投影到鸟瞰图时会保持物理尺寸，因此尺寸变化很小，而在前视图/图像平面中则不然。其次，鸟瞰中的物体占据不同的空间，从而避免了遮挡问题。第三，在道路场景中，由于物体通常位于地平面上并且垂直位置变化很小，因此鸟瞰位置对于获得准确的3D边界框更为关键。因此，使用明确的鸟瞰图作为输入使得3D位置预测更加可行。

给定一张鸟瞰图。网络从一组3D先验框生成3D框proposals。每个3D框由 $(x, y, z, l, w, h)$ 参数化，它们是激光雷达坐标系中3D框的中心和大小（以米为单位）。对于每个3D先验框，可以通过离散化 $(x, y, l, w)$ 得到对应的鸟瞰图anchor $\left(x_{b v}, y_{b v}, l_{b v}, w_{b v}\right)$ 。我们通过在训练集中对ground truth目标大小进行聚类来设计N个3D先验框。在汽车检测的情况下，先验框的 $(l, w)$ 取{(3.9, 1.6), (1.0, 0.6)}中的值，高度 $h$ 设置为1.56m。通过将鸟瞰图anchors旋转90度，我们得到 $N = 4$ 个先验框。 $(x, y)$ 是鸟瞰图特征图中的变化位置， $z$ 可以根据相机高度和物体高度计算。我们在proposal生成中不进行方向回归，而将其留给下一个预测阶段。 3D框的方向被限制在{0°, 90°}，这接近于大多数道路场景对象的实际方向。这种简化使proposal回归的训练更容易。

图3：不同融合方案的架构：我们在早期/晚期融合中使用连接操作实例化连接节点，并使用逐元素均值操作来实例化深度融合。

在0.1m的离散化分辨率下，鸟瞰图中的目标框仅占用5∼40个像素。检测这种超小的目标对于深度网络来说仍然是一个难题。一种可能的解决方案是使用更高分辨率的输入，然而，这将需要更多的计算。我们选择[1]中的特征图上采样。我们在proposal网络中的最后一个卷积层之后使用2x双线性上采样。在我们的实现中，前端卷积只进行三个池化操作，即8倍下采样。因此，结合2x反卷积，输入到proposal网络的特征图相对于鸟瞰图输入进行了4x下采样。

我们通过回归到 $\mathbf{t}=(\Delta x, \Delta y, \Delta z, \Delta l, \Delta w, \Delta h)$ 来进行3D框回归，类似于RPN[19]。 $(\Delta x, \Delta y, \Delta z)$ 是由anchor大小归一化的中心偏移量， $(\Delta l, \Delta w, \Delta h)$ 计算为 $\Delta s=\log \frac{s_{\mathrm{GT}}}{s_{\text {anchor }}}, s \in\{l, w, h\}$ 。我们使用多任务损失来同时对目标/背景进行分类并进行3D框回归。特别是，我们对“objectness”损失使用class-entropy，对3D框回归损失使用Smooth $\ell_{1}$ [10]。计算框回归损失时忽略背景anchors。在训练期间，我们计算anchors和ground truth鸟瞰图框之间的IoU重叠。如果一个anchor的重叠度高于 0.7，则认为anchor为正，如果重叠度低于0.5，则认为anchor为负。中间有重叠的锚点会被忽略。

图4：基于区域的融合网络的训练策略：在训练期间，添加底部的三个路径和损失以对网络进行正则化。辅助(auxiliary)层与主网络中的相应层共享权重。

由于LIDAR点云是稀疏的，这会导致许多空anchors，因此我们在训练和测试期间移除所有空anchors以减少计算量。这可以通过计算点占用图上的积分图像来实现。

对于最后一个卷积特征图的每个位置的每个非空anchor，网络生成一个3D框。为了减少冗余，我们在鸟瞰框上应用非最大抑制（NMS）。与[23]不同，我们没有使用3D NMS，因为物体应该在地平面上占据不同的空间。我们对NMS使用0.7的IoU阈值。训练时保留前2000个框，而在测试中，我们只使用300个框。

3.3.基于区域的融合网络

我们设计了一个基于区域的融合网络，以有效地组合来自多个视图的特征，共同对目标proposals进行分类，并进行定向3D框回归。

多视图ROI池化。由于来自不同视图/模态的特征通常具有不同的分辨率，我们对每个视图使用ROI池化[10]以获得相同长度的特征向量。鉴于生成的3D proposals，我们可以将它们投影到3D空间中的任何视图。在我们的例子中，我们将它们投影到三个视图，即鸟瞰图(BV)、前视图(FV)和图像平面(RGB)。给定一个 3D proposals $p_{3 \mathrm{D}}$ ，我们通过以下方式获得每个视图的ROI：

$\mathrm{ROI}_{v}=\mathbf{T}_{3 \mathrm{D} \rightarrow v}\left(p_{3 \mathrm{D}}\right), v \in\{\mathrm{BV}, \mathrm{FV}, \mathrm{RGB}\} \quad\quad \quad\quad(2)$

其中 $\mathbf{T}_{3 \mathrm{D} \rightarrow v}$ 分别表示从LIDAR坐标系到鸟瞰图、前视图和图像平面的转换函数。给定来自每个视图的前端网络的输入特征图 $x$ ，我们通过ROI池化获得固定长度的特征 $f_{v}$ ：

$f_{v}=\mathbf{R}\left(x, \mathrm{ROI}_{v}\right), v \in\{\mathrm{BV}, \mathrm{FV}, \mathrm{RGB}\} \quad\quad \quad\quad\quad\quad(3)$

深度融合。 为了结合来自不同特征的信息，先前的工作通常使用早融合[1]或晚融合[23, 13]。受[15, 27]的启发，我们采用深度融合方法，分层融合多视图特征。我们的深度融合网络和早/期融合网络的架构比较如图3所示。对于具有 $L$ 层的网络，早融合在输入阶段结合了来自多个视图的特征{ $f_{v}$ }：

$f_{L}=\mathbf{H}_{L}\left(\mathbf{H}_{L-1}\left(\cdots \mathbf{H}_{1}\left(f_{B V} \oplus f_{F V} \oplus f_{R G B}\right)\right)\right) \quad\quad \quad(4)$

$\left\{\mathbf{H}_{l}, l=1, \cdots, L\right\}$ 是特征变换函数，⊕是连接操作（例如，连接、求和）。相比之下，晚融合使用单独的子网络来独立学习特征变换，并在预测阶段组合它们的输出：

$\begin{aligned} f_{L}=&\left(\mathbf{H}_{L}^{B V}\left(\cdots \mathbf{H}_{1}^{B V}\left(f_{B V}\right)\right)\right) \oplus \\ &\left(\mathbf{H}_{L}^{F V}\left(\cdots \mathbf{H}_{1}^{F V}\left(f_{F V}\right)\right)\right) \oplus \\ &\left(\mathbf{H}_{L}^{R G B}\left(\cdots \mathbf{H}_{1}^{R G B}\left(f_{R G B}\right)\right)\right) \end{aligned} \quad\quad \quad\quad\quad\quad\quad\quad\quad (5)$

为了使来自不同视图的中间层的特征之间有更多的交互，我们设计了以下深度融合过程：

$\begin{aligned} f_{0}=& f_{B V} \oplus f_{F V} \oplus f_{R G B} \\ f_{l}=& \mathbf{H}_{l}^{B V}\left(f_{l-1}\right) \oplus \mathbf{H}_{l}^{F V}\left(f_{l-1}\right) \oplus \mathbf{H}_{l}^{R G B}\left(f_{l-1}\right), \\ & \forall l=1, \cdots, L \end{aligned} \quad\quad\quad\quad(6)$
我们使用逐元素均值进行深度融合的连接操作，因为它与droppath训练结合使用时更加灵活[15]。

定向3D框回归 鉴于多视图网络的融合特征，我们从3D proposals回归到有向3D框。特别是，回归目标是3D框的 8 个角： $\mathbf{t}= \left(\Delta x_{0}, \cdots, \Delta x_{7}, \Delta y_{0}, \cdots, \Delta y_{7}, \Delta z_{0}, \cdots, \Delta z_{7}\right)$ 。它们被编码为由proposal框的对角线长度归一化的角偏移量。尽管这样的24维向量表示在表示有方向的3D框时是多余的，但我们发现这种编码方法比中心和大小编码方法效果更好。请注意，我们的3D框回归不同于[23]，后者回归到轴对齐的3D框。在我们的模型中，可以从预测的3D框角来计算目标的方向。我们使用多任务损失来联合预测目标类别和定向3D框。与proposal network一样，类别损失使用交叉熵，3D框损失使用smooth $\ell_{1}$ 。在训练过程中，正/负ROI是根据鸟瞰图框的IoU重叠确定的。如果鸟瞰图IoU重叠大于0.5，则认为3D proposal是正的，否则认为是负的。在推理过程中，我们在3D边界框回归后对3D框应用NMS。我们将3D框投影到鸟瞰图以计算它们的IoU重叠。我们使用0.05的IoU阈值来去除多余的框，这样可以确保目标在鸟瞰图中不会占据相同的空间。

网络正则化 我们采用两种方法来规范基于区域的融合网络：drop-path training[15]和辅助（auxiliary）损失。对于每次迭代，我们随机选择做全局drop-path或局部drop-path，概率为50%。如果选择全局drop-path，我们以相等的概率从三个视图中选择一个视图。如果选择局部drop-path，则输入到每个连接节点的路径以50%的概率随机丢弃。我们确保为每个连接节点保留至少一个输入路径。为了进一步加强每个视图的表示能力，我们在网络中添加了辅助（auxiliary）路径和损失。如图4所示，辅助（auxiliary）路径与主网络具有相同的层数。辅助（auxiliary）路径中的每一层与主网络中的相应层共享权重。我们使用相同的多任务损失，即分类损失加上3D框回归损失，来反向传播每个辅助（auxiliary）路径。我们对包括辅助（auxiliary）损失在内的所有损失进行平均加权。辅助（auxiliary）路径在推理过程中被移除。

3.4.Implementation

网络架构。在我们的多视图网络中，每个视图都具有相同的架构。基础网络建立在16层VGG网络[20]之上，并进行了以下修改：

通道减少到原始网络的一半。
为了处理超小目标，我们使用特征近似来获得高分辨率特征图。特别是，我们在将最后一个卷积特征图输入到3D Proposal网络之前插入一个2x双线性上采样层。同样，我们在BV/FV/RGB分支的ROI池化层之前插入一个4x/4x/2x上采样层。
我们移除了原始VGG网络中的第4次池化操作，因此我们网络的卷积部分进行了8倍的下采样。
在多视图融合网络中，我们在原来的 $f c 6$ 和 $f c 7$ 之外增加了一个额外的全连接层 $f c 8$

我们通过对ImageNet上预训练的VGG-16网络的权重进行采样来初始化参数。尽管我们的网络有三个分支，但参数数量约为VGG-16网络的75%。在GeForce Titan X GPU上，一张图像的网络推理时间约为0.36秒。

输入表示。 在KITTI的情况下，它只为前视图（大约90°视野）中的目标提供注释，我们使用[0, 70.4] × [-40, 40]米范围内的点云。当投影到图像平面时，我们还删除了图像边界之外的点。对于鸟瞰图，离散化分辨率设置为0.1m，因此鸟瞰图输入的大小为704×800。由于KITTI使用64束Velodyne激光扫描仪，我们可以获得64×512的前视点图。RGB图像被放大，最短尺寸为500。

训练。 该网络以端到端的方式进行训练。对于每个小批量，我们使用1张图像并采样128个ROI，大致保持25%的ROI为正。我们使用SGD训练网络，学习率为0.001，迭代次数为100K。然后我们将学习率降低到0.0001并再训练20K次迭代。

原文链接：https://arxiv.org/abs/1611.07759

References

[1] Z. Cai, Q. Fan, R. Feris, and N. V asconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, 2016. 4, 5, 7

[2] J. Carreira and C. Sminchisescu. Cpmc: Automatic object segmentation using constrained parametric min-cuts. PAMI, 34(7):1312–1328, 2012. 3

[3] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun. Monocular 3d object detection for autonomous driving. In CVPR, 2016. 1, 2, 3, 6, 7

[4] X. Chen, K. Kundu, Y . Zhu, A. Berneshawi, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals for accurate object class detection. In NIPS, 2015. 1, 2, 3, 6, 7, 8

[5] X. Chen, K. Kundu, Y . Zhu, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals using stereo imagery for accurate object class detection. In PAMI, 2017. 6

[6] V . Dhiman, Q. H. Tran, J. J. Corso, and M. Chandraker. A continuous occlusion model for road scene understanding. In CVPR, pages 4331–4339, 2016. 2

[7] M. Engelcke, D. Rao, D. Zeng Wang, C. Hay Tong, and I. Posner. V ote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks. arXiv:1609.06666, 2016. 1, 2, 3, 7

[8] M. Enzweiler and D. M. Gavrila. A multilevel mixture-ofexperts framework for pedestrian classification. IEEE Transactions on Image Processing, 20(10):2967–2979, 2011. 1, 2

[9] A. Geiger, P . Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In CVPR, 2012. 1, 6, 8

[10] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 4

[11] A. Gonzalez, D. V azquez, A. Lopez, and J. Amores. Onboard object detection: Multicue, multimodal, and multiview random forest of local experts. In IEEE Transactions on Cybernetics, 2016. 1, 2

[12] V . Hegde and R. Zadeh. Fusionnet: 3d object classification using multiple data representations. CoRR, abs/1607.05695, 2016. 2

[13] J. Hoffman, S. Gupta, and T. Darrell. Learning with side information through modality hallucination. In CVPR, 2016. 5

[14] J. Hosang, R. Benenson, P . Dollár, and B. Schiele. What makes for effective detection proposals? PAMI, 2015. 6

[15] G. Larsson, M. Maire, and G. Shakhnarovich. Fractalnet: Ultra-deep neural networks without residuals. arXiv:1605.07648, 2016. 1, 2, 5

[16] B. Li. 3d fully convolutional network for vehicle detection in point cloud. IROS, 2017. 2, 7, 8

[17] B. Li, T. Zhang, and T. Xia. V ehicle detection from 3d lidar using fully convolutional network. In Robotics: Science and Systems, 2016. 1, 2, 3, 6, 7, 8

[18] C. R. Qi, M. N. H. Su, A. Dai, M. Yan, and L.Guibas. V olumetric and multi-view cnns for object classification on 3d data. In CVPR, 2016. 2

[19] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 3, 4, 7

[20] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. In arXiv:1409.1556, 2014. 6

[21] S. Song and M. Chandraker. Joint sfm and detection cues for monocular 3d localization in road scenes. In Computer Vision and Pattern Recognition, pages 3734–3742, 2015. 2 [22] S. Song and J. Xiao. Sliding shapes for 3d object detection in depth images. In ECCV. 2014. 2

[23] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In CVPR, 2016. 2, 3, 4, 5

[24] H. Su, S.Maji, E.Kalogerakis, and E. Learned-Miller. Multiview convolutional neural networks for 3d shape recognition. In ICCV, 2015. 2

[25] K. V an de Sande, J. Uijlings, T. Gevers, and A. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011. 3

[26] D. Z. Wang and I. Posner. V oting for voting in online point cloud object detection. In Proceedings of Robotics: Science and Systems, 2015. 1, 2, 3, 7

[27] J. Wang, Z. Wei, T. Zhang, and W. Zeng. Deeply-fused nets. arXiv:1605.07716, 2016. 2, 5

[28] Y . Xiang, W. Choi, Y . Lin, and S. Savarese. Data-driven 3d voxel patterns for object category recognition. In CVPR, 2015. 2

[29] Y . Xiang, W. Choi, Y . Lin, and S. Savarese. Subcategoryaware convolutional neural networks for object proposals and detection. In arXiv:1604.04693. 2016. 7

[30] F. Yang, W. Choi, and Y . Lin. Exploit all the layers: Fast and accurate cnn object detector with scale dependent pooling and cascaded rejection classifiers. In CVPR, 2016. 7

[31] M. Z. Zia, M. Stark, B. Schiele, and K. Schindler. Detailed 3d representations for object recognition and modeling. PAMI, 2013. 2

[32] M. Z. Zia, M. Stark, and K. Schindler. Are cars just 3d boxes? jointly estimating the 3d shape of multiple objects. In CVPR, pages 3678–3685, 2014. 2

[33] L. Zitnick and P . Dollár. Edge boxes: Locating object proposals from edges. In ECCV. 2014. 3

fish小余儿

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
（CVPR 2017）Multi-View 3D Object Detection Network for Autonomous Driving

摘要本文针对自动驾驶场景中的高精度3D目标检测。我们提出了多视图3D网络(MV3D)，这是一种传感融合框架，将LIDAR点云和RGB图像作为输入并预测定向的3D边界框。我们使用紧凑的多视图表示对稀疏3D点云进行编码。该网络由两个子网络组成：一个用于3D目标proposal生成，另一个用于多视图特征融合。proposal网络从3D点云的鸟瞰图表示有效地生成 3D候选框。我们设计了一个深度融合方案来组合来自多个视图的区域特征，并实现不同路径的中间层之间的交互。在具有挑战性的KITTI基准上进行的实验表明，我们
复制链接

扫一扫