参加滴滴无人驾驶算法大赛,在多方面参考了几篇目标检测和多视角检测融合等文献,最终团队确定了一下两篇论文作为比赛的参考:
A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
Multi-View 3D Object Detection Network for Autonomous Driving
多尺度CNN在R-CNN中一直是研究的重点,这也是目前在不考虑运行时间的情况下准确率较高的改进模型。这次比赛由于不考虑实时性,所以在模型上主要以准确率为主,在两者中进行均衡的网络并不会作为基础模型,其中的tips可以作为后续的优化方案。
在Multi-View的研究上,本人是最近因为比赛才从2D目标检测转到3D目标检测上,所以内容以3D目标检测为主作为介绍。
这篇论文主要针对自主驾驶场景中的高精度三维目标检测。文章提出了多视图三维网络(mv3d),一个以激光点云与RGB图像作为输入去预测定向的三维bounding box的融合框架。论文编码稀疏的三维点云数据用紧凑的多视图表示。网络是由两个子网络组成:一个是三维目标区域提名网络,另一个用于多视图特征融合。区域提名网络从鸟瞰视图中生成有效地3D点云数据表示的3D侯选框。文章设计了一个深度融合方案,结合多视角的区域特征,并能够作用于不同路径的中间层之间。采用KITTI基准作为实验测试,测试表明,这个方法在三维定位任务、三维检测任务上优于目前最先进记录大约25%和30%的准确率。此外,对于2D检测,在激光雷达为基础的难例数据上,该方法比目前最领先的方法获得14.9%更高的准确率。
在文章中,提出了一个以多模态数据作为输入的多视图三维物体检测网络(mv3d),预测物体在三维空间中的全3D的程度。利用多模态信息的主要思想是完成区域特征融合。首先,文章提出了一个多视图的编码方案,以获得对稀疏3D点云更有效和紧凑的表达。如图1所示,多视图三维检测网络由两部分组成:三维区域提名网络和基于区域提名的融合网络。3D区域提名网络利用鸟瞰视角的点云表示去产生高度精确的3D候选框。3D物体区域提名的好处是,它可以在3D空间中被投影到任何视图中。多视图融合网络从多视角中通过投影3D区域来提取域特征到特征图上。我们设计了一个深度融合的方法能够作用于不同视角的中间层。结合下降路径训练[ 13 ]和辅助损失,该方法相比于早期/晚期融合方案表现出优异的成绩。根据多视图特征表示,在三维空间中,网络执行定向的3D框回归来预测物体准确的三维位置,大小和方向。