Yin, T., Zhou, X., & Krahenbuhl, P. (2021). Center-based 3D object detection and tracking. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 11784–11793. https://doi.org/10.1109/cvpr46437.2021.01161
这篇论文提出了一种将三维对象表示为点的方法,而不是通常使用点云中的三维框表示。这种表示模仿了经过深入研究的基于图像的二维边界框检测,但面临着额外的挑战。在三维世界中,对象不遵循任何特定的方向,而基于框的检测器难以枚举所有方向或将轴对齐边界框适应于旋转的对象。在本文中,我们提出了一种通过点表示、检测和跟踪三维对象的方法。我们的框架,CenterPoint,首先使用关键点检测器检测对象的中心,并回归到其他属性,包括三维大小、三维方向和速度。在第二阶段,它使用对象上的附加点特征来细化这些估计。在CenterPoint中,三维对象跟踪简化为贪婪的最近点匹配。由此产生的检测和跟踪算法简单、高效且有效。CenterPoint在nuScenes基准测试中取得了最先进的性能,对于单一模型,三维检测和跟踪分别达到了65.5的NDS和63.8的AMOTA。在Waymo Open Dataset上,CenterPoint在所有以前的单一模型方法中表现优异,并在所有仅使用激光雷达的提交中排名第一。代码和预训练模型可在 https://github.com/tianweiy/CenterPoint 找到。
图1:我们提出了一种基于中心的框架来表示、检测和跟踪对象。先前的基于锚点的方法使用相对于自车坐标的轴对齐锚点。当车辆在直道行驶时,基于锚点的方法(红色框)和我们的基于中心的方法(红色点)都能准确检测对象(顶部)。然而,在关键的左转弯情况下(底部),基于锚点的方法难以将轴对齐边界框适配到旋转的对象。我们的基于中心的模型通过旋转不变点准确检测对象。最好以彩色查看。
图2:我们的CenterPoint框架概览。我们依赖于一个标准的3D骨干网络,从激光雷达点云中提取地图视图特征表示。然后,一个2D卷积神经网络结构的检测头查找对象中心,并使用中心特征回归到完整的3D边界框。从这个框预测中,我们在估计的3D边界框的每个面的3D中心提取点特征,并将它们传递到MLP(多层感知机)以预测IoU引导的置信度分数和边界框回归精炼。最好以彩色查看。
Figure 3: CenterPoint在Waymo验证集上的定性结果示例。我们显示原始点云为蓝色,检测到的对象为绿色边界框,边界框内的激光雷达点为红色。最好在屏幕上查看。