MV3D:Multi-View 3D Object Detection Network for Autonomous Driving(翻译)

摘要

本文针对自动驾驶场景中的高精度3D对象检测。我们提出了多视点三维网络(MV3D),这是一个以激光雷达点云和RGB图像为输入,预测定向三维边界框的传感器融合框架。我们使用紧凑的多视图表示对稀疏的3D点云进行编码。该网络由两个子网络组成:一个用于生成三维目标建议,另一个用于多视图特征融合。建议网络从三维点云的鸟瞰图中有效地生成三维候选框。我们设计了一种深度融合方案来结合来自多个视图的区域级特性,并支持不同路径的中间层之间的交互。在具有挑战性的KITTI基准上进行的实验表明,我们的方法在3D定位和3D检测任务上的性能比最先进的方法分别高出约25%和30%。此外,对于二维检测,我们的方法在基于lidar的hard数据上比目前的方法高出10.3%。

1.介绍

三维目标检测在自动驾驶汽车的视觉感知系统中起着重要的作用。现代的自动驾驶汽车通常配备多个传感器,如激光雷达和摄像头。激光扫描仪具有深度信息准确的优点,而照相机则能保存更详细的语义信息。激光雷达点云与RGB图像的融合应该能够达到更高的性能和对自动驾驶汽车的安全性。
本文的研究重点是利用激光雷达和图像数据进行三维目标检测。我们的目标是在道路场景中对物体进行高精度的三维定位和识别。最近基于lidar的方法将3D窗口放置在3D体素网格中,对点云进行评分[26,7],或者在密集框预测方案[17]中对前视图点图应用卷积网络。基于图像的方法[4,3]通常首先生成3D框建议,然后使用Fast RCNN [10]管道执行基于区域的识别。基于LIDAR点云的方法通常可以获得更精确的3D位置,而基于图像的方法在2D框评估方面具有更高的精度。[11,8]通过采用早期或晚期融合方案将LIDAR和图像进行2D检测。但是,对于更具挑战性的3D对象检测任务,需要设计良好的模型来利用多种模态的优势。在本文中,我们提出了一种多视图3D对象检测网络(MV3D),该网络将多模式数据作为输入并预测3D空间中对象的完整3D范围。利用多模式信息的主要思想是执行基于区域的特征融合。我们首先提出一种多视图编码方案,以获得稀疏3D点云的紧凑有效表示。如图 1所示,多视图3D检测网络由两部分组成:3D提议网络和基于区域的融合网络。3D建议网络利用点云的鸟瞰图表示来生成高度精确的3D候选框。3D对象建议的好处是可以将其投影到3D空间中的任何视图。多视图融合网络通过将3D建议从多个视图投影到特征图来提取区域特征。我们设计了一种深度融合方法,以实现来自不同视图的中间层的交互。结合下降路径训练[15]和辅助损失,我们的方法显示出优于早期/晚期融合方案的性能。在多视图特征表示的前提下,网络将执行定向3D框回归,该回归可预测3D空间中对象的精确3D位置,大小和方向。我们在具有挑战性的KITTI[9]目标检测基准上评估了我们的3D方案生成、3D定位、3D检测和2D检测任务的方法。实验表明,我们的3D建议明显优于最近的3D建议方法3DOP [4]和Mono3D [3]。特别地,在只有300个提案的情况下,我们在交并比(IoU)阈值为0.25和0.5的情况下分别获得了99.1%和91%的3D召回率。基于激光雷达的方法在三维定位任务中的精度提高了25%,在三维目标检测任务中的平均精度提高了30%。在KITTI的hard测试集上进行2D检测时,它的性能也比所有其他基于LIDAR的方法高出10.3%AP。当与图像结合时,将比基于LIDAR的结果获得进一步的改进。
图 1:多视图3D对象检测网络(MV3D):该网络将LIDAR点云的鸟瞰图和正视图以及图像作为输入。它首先从鸟瞰图生成3D对象建议,然后将其投影到三个视图。深度融合网络用于为每个视图组合通过ROI池获得的区域性特征。融合的特征用于共同预测对象类别并进行定向的3D框回归。

2.相关工作

从点云和图像、多模态融合方法和3D目标建议三个方面简要回顾了3D目标检测的研究现状。
点云中的3D目标检测。 大多数现有方法都使用体素网格表示对3D点云进行编码。滑动形状[22]和Vote3D [26]在使用几何特征编码的3D网格上应用SVM分类器。一些最近提出的方法[23,7,16]通过3D卷积网络改进了特征表示,但是这需要昂贵的计算。除了3D体素表示之外,VeloFCN [17]将点云投影到正视图,从而获得2D点图。他们在2D点图上应用了完全卷积网络,并从卷积特征图中密集地预测了3D框。[24, 18, 12]研究点云的体积和多视图表示,用于三维对象分类。在这项工作中,我们使用多视图特征图对3D点云进行编码,从而实现基于区域的多模态融合表示。
图像中的3D对象检测。 3DVP [28]引入了3D体素模式,并采用了一组ACF检测器来进行2D检测和3D姿态估计。3DOP[4]从立体图像重建深度,并使用能量最小化的方法生成3D框建议,这些建议被输入到R-CNN[10]管道中进行对象识别。虽然Mono3D [3]与3DOP共享相同的管道,但它会从单目图像生成3D建议。 [31,32]介绍了使用3D线框模型的对象的详细几何图形表示。为了整合时间信息,一些工作[6,21]将运动和地面估计的结构结合起来,将2D检测框提升到3D边界框。基于图像的方法通常依赖于精确的深度估计或地标检测。我们的工作展示了如何整合LIDAR点云来改善3D定位。
多模态融合。 在自动驾驶的背景下,只有很少利用多种数据模式的研究。[11]使用专家混合物框架将图像,深度和光流进行组合,以进行2D行人检测。[8]在早期融合RGB和深度图像,并训练基于姿势的分类器进行2D检测。在本文中,我们设计了一种受FractalNet [15]和Deeply-Fused Net [27]启发的深度融合方法。在FractalNet中,一个基模块被迭代地重复来构建一个具有指数增长路径的网络。同样,[27]通过组合浅层和深层子网来构建深层融合网络。我们的网络与它们的区别

  • 7
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值