多视图3D目标检测学习笔记

最新推荐文章于 2024-08-02 18:09:17 发布

savant_ning

最新推荐文章于 2024-08-02 18:09:17 发布

阅读量1.8w

点赞数 3

本文链接：https://blog.csdn.net/savant_ning/article/details/69950588

版权

本文主要探讨了自动驾驶场景中的3D目标检测，重点介绍了基于多视图的深度学习模型——MV3D。MV3D网络利用激光点云和RGB图像，通过3D区域提名网络和多视图融合网络进行高精度三维目标检测。实验结果显示，该方法在3D定位和检测任务上优于现有技术，尤其在基于激光雷达的2D检测上表现突出。

摘要由CSDN通过智能技术生成

参加滴滴无人驾驶算法大赛，在多方面参考了几篇目标检测和多视角检测融合等文献，最终团队确定了一下两篇论文作为比赛的参考：

A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

Multi-View 3D Object Detection Network for Autonomous Driving

多尺度CNN在R-CNN中一直是研究的重点，这也是目前在不考虑运行时间的情况下准确率较高的改进模型。这次比赛由于不考虑实时性，所以在模型上主要以准确率为主，在两者中进行均衡的网络并不会作为基础模型，其中的tips可以作为后续的优化方案。

在Multi-View的研究上，本人是最近因为比赛才从2D目标检测转到3D目标检测上，所以内容以3D目标检测为主作为介绍。

这篇论文主要针对自主驾驶场景中的高精度三维目标检测。文章提出了多视图三维网络（mv3d），一个以激光点云与RGB图像作为输入去预测定向的三维bounding box的融合框架。论文编码稀疏的三维点云数据用紧凑的多视图表示。网络是由两个子网络组成：一个是三维目标区域提名网络，另一个用于多视图特征融合。区域提名网络从鸟瞰视图中生成有效地3D点云数据表示的3D侯选框。文章设计了一个深度融合方案，结合多视角的区域特征，并能够作用于不同路径的中间层之间。采用KITTI基准作为实验测试，测试表明，这个方法在三维定位任务、三维检测任务上优于目前最先进记录大约25%和30%的准确率。此外，对于2D检测，在激光雷达为基础的难例数据上，该方法比目前最领先的方法获得14.9%更高的准确率。

在文章中，提出了一个以多模态数据作为输入的多视图三维物体检测网络（mv3d），预测物体在三维空间中的全3D的程度。利用多模态信息的主要思想是完成区域特征融合。首先，文章提出了一个多视图的编码方案，以获得对稀疏3D点云更有效和紧凑的表达。如图1所示，多视图三维检测网络由两部分组成：三维区域提名网络和基于区域提名的融合网络。3D区域提名网络利用鸟瞰视角的点云表示去产生高度精确的3D候选框。3D物体区域提名的好处是，它可以在3D空间中被投影到任何视图中。多视图融合网络从多视角中通过投影3D区域来提取域特征到特征图上。我们设计了一个深度融合的方法能够作用于不同视角的中间层。结合下降路径训练[ 13 ]和辅助损失，该方法相比于早期/晚期融合方案表现出优异的成绩。根据多视图特征表示，在三维空间中，网络执行定向的3D框回归来预测物体准确的三维位置，大小和方向。