论文地址:链接
https://arxiv.org/abs/2006.11275
Center-based 3D Object Detection and Tracking
基于中心点的3D目标检测和跟踪
介绍
提出CenterPoint框架,用于从激光雷达点云中进行3D目标检测和跟踪任务。
CenterPoint将目标表示为点,从而简化检测和跟踪过程:
在backbone构建输入点云的表示并flatten以后,首先使用关键点检测器(keypoint detector)检测对象的中心,并回归到其他属性,包括3D大小、3D方向和速度。在第二阶段使用对象上的其他点特征来细化这些估计。该方法使用标准3D点云编码器和几个卷积层来生成BEV的hotmap和其他密集回归输出。检测涉及局部峰值提取和细化,而跟踪则是一种最近距离匹配。
- 与2D目标检测相比,点云上的3D检测面临的挑战:点云稀疏(空间中的大部分区域未进行测量)、输出的三维框与全局坐标系未能很好对齐、3D对象有各种不同属性(大小、形状、纵横比)。
- 与Anchor-based的方法相比,在车辆转弯以后,很难将轴对齐的边界框拟合到旋转的对象上(c)。而center-based的模型通过旋转不变点精确地检测物体(d)。
基于中心点表示的优点:点没有固定方向;简化下游任务;基于点的特征可以设计出比以前速度更快的two-stage细化模块。
主要贡献
- 基于中心点的表示:CenterPoint使用基于中心点的表示法来表示目标,这简化了检测和跟踪过程。
- 两阶段细化:CenterPoint采用两阶段细化过程。第一阶段检测目标中心并回归到目标属性。第二阶段使用目标上的额外点特征来细化这些估计。
- 高效跟踪:CenterPoint预测目标在连续帧之间的相对偏移(速度),并以贪婪的方式连接目标,使跟踪过程比专门的3D跟踪器更快、更准确。
相关工作
2D目标检测:RCNN系列、YOLO、SSD、RetinaNet、CenterNet、CenterrTrack等
3D目标检测:Vote3Deep、VoxelNet、SECOND、PIXOR、PointPillars、MVF、Pillar-od、VoteNet。
基于空间栅格的方法(点云3D):
基于点的方法(点云3D):
2阶段3D目标检测:计算量大。而本文仅提取5个表面中心点来节约计算量。
3D目标跟踪:有许多2D的跟踪算法都可以直接拿来做3D跟踪,但是基于3D Kalman filters卡尔曼滤波的专用跟踪器仍具优势。而本文采用类似CenterTrack的跟踪算法,利用预测的中心点和速度方向来跟踪物体,更快更准。
CenterPoint
中心点热力图预测头:每个生成的热力图有K通道,对应K个类别。训练时,将3D框中心点投影到鸟瞰图中生成的2D高斯曲线,用focal loss计算损失。
回归头: 对每个点都回归出中心点偏移、中心点距离地面高度、3D尺寸、偏航旋转角(cos(α), sin(α))。训练时,只对中心点位置计算L1损失。
速度头和跟踪: 为了跟踪,要预测一个二维速度方向,训练时输入两个map-views,也是只计算目标中心点的L1损失。为了跟踪,需要预测一个二维的速度方向,故训练时用一个两通道的热力图作为监督,也是只计算目标中心点的L1损失。推断阶段,对每个当前帧都预测出目标的速度,故可以速度方向取反从而计算出上一帧此目标的位置,然后用贪心算法找到上一帧中离此位置离得最近的目标点(最近距离匹配)。连续3帧都没再被跟踪上的目标则丢弃,对于每个被跟踪到的目标,基于当前预测的速度更新轨迹。
到此所有的3D目标特性(大小、朝向、中心点、速度、高度等)都是用中心点特征计算,并没有包含足够的信息实现准确定位,比如激光打到车上只有车的一侧有点,车中心实际上是没点的,故考虑在第二阶段对3D框的位置精细化。
CenterPoint(two-stage)
上面是单阶段CenterPoint,两阶段CenterPoint就是在第二阶段提取出目标的4个边界中心点特征(长方体四个朝外的面),加上一个中心点特征共计5个点特征(所有的点特征都来源于第一阶段的计算输出),点特征连接起来输入到MLP中,预测各类别的置信度得分及精细化边界框。
实验
- 数据集:使用Waymo开放数据集和nuScenes数据集进行评估。
- 结果:CenterPoint在两个数据集上均实现了3D检测和跟踪的SOTA。
- 消融研究:
- 从基于锚点的表示切换到基于中心点的表示,可以显著提高检测精度。两阶段细化进一步提高了性能,而计算开销极小。
- 单阶段对比两阶段,在Waymo数据上两阶段CenterPoint相对单阶段CenterPoint有提升,但是在nuScenes数据上没有提升,分析原因可能是nuScenes数据集用的32线激光雷达,大约只有Waymo数据集中点数的1/6,这限制了在两阶段细化时的改进。