RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinement (速读)
论文地址:https://arxiv.org/pdf/1811.03818.pdf
代码地址:https://github.com/Kiwoo/RoarNet
官方介绍主页:https://sites.google.com/berkeley.edu/roarnet
KITTI 3D目标检测数据可视化参阅:https://blog.csdn.net/u011507206/article/details/88972892
本文所提RoarNet是一个两阶段的三维目标检测方法,所用数据包含2D images and 3D LiDAR;两个部分分别为:1)二维图像上目标检测获取Region和3D pose; 2)在原始的LIDAR上回归目标;2019年04月01日KITTI上排名第九(car),速度0.1秒;主要看看思想故选为速读;
目录
RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinement (速读)
Contributions
Related works
Methods
Experiments
1 Contributions
- 二位图像不但预测二维的建议区域还预测三维pose,这样在三维点云上会去除大部分的干扰;
- 三维目标框直接在三维点云上进行回归目标位置也算一个创新点吧;
- 这种方法能够在图像和雷达不是完全对其的情况下也有较好的检测结果;
2 Related works
- pose估计
- 三维目标检测主要有三种方法:
The first representation is using a 3D voxel grid The second is to project an point cloud onto one or more 2D planes The third one is to use the point clouds directly without any structured form.(本文方法包括上篇博客介绍的方法)
3 Methods
看图说话:
- 上面部分是第一阶段:图像生成目标建议区域和三维的pose;其中geometric agreement search用于3D位置的确定;
- 下半部分是第二阶段:其中左半部分是第二部分将每个区域对应的点云作为输入,预测以该目标相对于区域为中心的位置,两次迭代的完成目标置信分数(反应目标在该区域内的概率值)的确定;最高的分的区域送入下一步;这部分作用是确定目标在哪个区域中;
- 下本部分右半部分:预测了三维边界框回归所需的所有坐标,包括对象的位置、旋转和大小;这部分回归最后结果。
细节部分:
A. RoarNet 2D
- Geometric agreement search:单目预测3D pose七个维度(x、y、z、w、h、l、theta);具体看论文吧;
- Spatial scattering:用于降低LIDAR的候选区域范围;
B. RoarNet 3D
点云来优化三维目标区域,基础网络是PointNet;一对区域建议网络,一个位置回归网络;(其结构相同)
位置回归:
大小方向回归具体细节看论文吧
C. Training and prediction
4 ExpExperiments
其他不多说了,只看对比于3D object detector.