[LiteratureReview]Improving 3D Object Detection for Pedestrians with Virtual Multi-View Synthesis Orientation Estimation
出处:IROS2019
Paper:https://arxiv.org/pdf/1907.06777.pdf
Code:https://github.com/kujason/vmvs
Note:本篇论文的Literature Review中,只关注笔者感兴趣的部分内容。
Introduction
本文方法建立在RGB和lidar传感器上(生成场景点云以及每个点云的RGB),核心思想:为每个检测到的行人生成一组虚拟视图(论文中示例为3个,实际是11个),并在训练和推理过程中利用这些视图来产生准确的方向估计。
Related Work
**Multi-view Learning:**使用多个视图之前已被证明在允许神经网络学习形状和位姿信息方面是有效的; [30] 从 CAD 数据集中渲染物体周围的多个视图,然后根据每个视图的特征预测形状;[31]、[32]、[33]使用多个视图来确保投影一致性来学习形状和位姿信息;这些方法倾向于使用 CAD 模型,从背景中分割出感兴趣的对象,包含完整的 360° 形状信息,并允许从任何角度完美生成数据。
Reference:
-
[30]:Multi-view convolutional neural networks for 3d shape recognition. ICCV2015
-
[31]:Multi-view supervision for single-view reconstruction via differentiable ray consistency. CVPR2017
-
[32]:Multi-view consistency as supervisory signal for learning shape and pose prediction. CVPR2018
-
[33]:Capnet: Continuous approximation projection for 3d point cloud reconstruction using 2d supervision. arXiv2018
Methods
整体思路:作者开发了一个虚拟多视图渲染系统,以从图像和 LiDAR 输入中生成新颖的真实数据,生成多个额外的虚拟视角数据;这些生成的数据在训练和推理过程中都被合并到网络中;在推理时,这些额外的视角用于确定更准确的方向估计。
Conclusion
总结:这项工作提出了一种在与 RGB 数据融合的深度完成点云上生成虚拟视角的方法,该方法解决了从稀疏 LiDAR 数据中学习语义信息以及从少量位姿训练数据中学习的问题。