论文题目:Multi-View 3D Object Detection Network for Autonomous Driving
开源代码:https://github.com/leeyevi/MV3D_TF
MV3D-Net是2017年发表的一篇论文,它融合了视觉和雷达点云信息,同时,和以往基于voxel的方法不同,它只用了点云的俯视图和前视图,这样既能减少计算量,又不至于丧失过多的信息。随后生成3D候选区域,把特征和候选区域融合后输出最终的目标检测框。
一、相关工作及改进
该论文对相关工作做了比较清晰的总结,我们不妨把这部分原文贴在这里,算是对3D目标检测的算法有一个整体的了解。作者列出以上这些传统方法,也是为了显示自己提出的方法的优越性,针对这积累算法的缺点,作者也提出了相应的改进思路,这些思路就是的实现就是本文的核心内容。
1. 基于点云的3D目标检测
- 方法描述:将3D点云体素化,提取结构特征之后送入到SVM或者神经网络中进行分类,还有的使用了点云的前视图,包含2D点云图,使用了一个全链接的卷积网络作用在2D点云图上从而预测出3D的boxes。
- 尚存缺点:计算量太大
- 改进思路:3D点云编码为多视角的特征图,应用与基于区域的多模式表示。
2. 基于Images的3D目标检测
- 方法描述:通过3D体素模式(例如3DVP)运用一系列的ACF检测器去做2D的检测和3D姿态的估计。
- 尚存缺点:Image-based的方法通常都依赖于精确的深度估计或标记检测。
- 改进思路:融合雷达点云去提高3D localization的效果。
3. 多模态融合
- 方法描述:结合图像,深度,甚至光流应用于2D的行人检测。
- 尚存缺点:这方面工作太少,方法发展还不完善(作者这种描述