一种基于区域近似细化鲁棒的三维目标检测
文章网址:https://arxiv.org/pdf/1811.03818.pdf
摘要:
基础网络为Faster RCNN和PointNet。网络分为两个阶段。阶段一:用RoarNet_2D估计物体的三维姿态;阶段二: 对候选区域进行深度推断,以递归的方式得出最终的姿态。此网络用tensorflow实现,使用公开的预训练模型。
简介:
三维物体检测帮助理解物体在三维空间中的几何结构,这对预测物体将来的运动十分重要。二维目标的检测和实例分割已经表现的很卓越了,但在三维物体检测方面的文章却较少。这篇文章就是研究三维物体检测,从2D图像和3D点云预测3D的边界框。
3D Points to BEV/FV+CNN 的缺点:依赖于传感器融合来补偿3D点云投影到2D图像上数据的损失。传感器融合有需要高质量的机与激光雷达的同步,但这很难做到,因为两个传感器的工作频率不同。
Diss对象:F-PointNet(对传感器间同步质量很敏感)
RoarNet:RegiOn Approximation Refinement Network 帮助改进三维目标检测算法的性能和减少传感器同步所带来的问题。
灵感来自于(3D Bounding Box Estimation Using Deep Learning and Geometry,cvpr2017),RoarNet_2D从2D图像上估计目标的三维姿态,并获得可能的候选定位,来作为RoarNet_3D的输入。这种组合明显的减少了可能的3D 候选区域,要不然就需要在巨大的空间内搜索目标。获得3D候选区域的同时RoarNet_3D(一个两段式的检测网络)逐渐细化搜索区域,让训练过程变得高效。RoarNet_3D类似于Faster RCNN,做了一些小改动,让训练变得简单。
与F-PointNet的关键区别:RoarNet不用2D 边界框筛选点云。相反,RoarNet提取位于候选区域直立圆柱体内的全部点云,这样会使他们的模型对传感器同步更具有鲁棒性。
网络设计:
检测流程:
-
这个模型首先从2D图像中预测目标的2D边界框和3D姿态。对于每个2D检测目标,使用几何一致搜索来预测目标在三维空间中的位置。找到每个预测定位的中心,以此中心设置直立圆柱形体为推荐区域。计算边界框和姿态的预测误差,这里一个目标可能有多个候选区域。
-
每个候选区域只负责检测单个目标。将从每个候选区域内采样的点云作为输入,这个模型预测与候选区域中心相关的目标定位,递归地预测下一步的候选区域的位置。他们的模型还预测反映候选区域内目标概率的似物性评分。只有具有较高评分的候选区域才会进入下一步。
-
最后,这个模型在之前的预测位置放置新的候选区域。他们的模型预测3D边界框所需要的所有坐标,包括:位置、旋转、目标尺寸。实际当中,他们重复这一步,比一遍的检测效果更好。