CenterPoint: Center-based 3D Object Detection and Tracking 是一种基于中心点表示的3D物体检测与跟踪方法,提出了一种创新的检测框架,旨在通过在LiDAR点云中直接检测和跟踪物体的中心来提高检测效率和准确性。以下是该论文的关键方法总结,特别是其核心模块和公式。
1. 方法概述
CenterPoint采用中心点表示物体,并通过两个阶段进行检测和跟踪:
- 第一阶段:中心检测与回归:该阶段通过热图检测3D物体的中心位置,并回归其他物体属性(如3D大小、旋转、速度)。
- 第二阶段:精细化与置信度预测:在第一阶段的基础上,进一步提取更多特征并对3D框进行精细化。
2. 中心点表示
CenterPoint的核心思想是将3D物体表示为点,而不是传统的轴对齐的3D边界框。这样做的优势在于:
- 旋转不变性:与轴对齐的边界框相比,点没有固有的方向,因此能够减少搜索空间,并允许模型学习物体的旋转不变性。
- 简化的跟踪任务:中心点表示简化了跟踪任务。通过估算物体的速度,可以在连续帧之间进行简单的贪心匹配。
3. 模型结构
3.1 第一阶段:中心检测
-
热图预测:首先生成一个热图,标记每个物体的中心位置。通过回归3D物体的大小、位置修正(sub-voxel位置)、旋转角度(用 sin ( α ) \sin(\alpha) sin(α)和 cos ( α ) \cos(\alpha) cos(α)表示)和速度,获取物体的完整属性。
公式:
Y c = heatmap for center detection Y_{c} = \text{heatmap for center detection} Yc=heatmap for center detection
L c e n t e r = − ∑ i log ( Y ^ i ) (focal loss for center detection) L_{center} = - \sum_i \log(\hat{Y}_i) \quad \text{(focal loss for center detection)} Lcenter=−i∑log(Y^i)(focal loss for center detection) -
回归头:为每个物体的中心位置回归其3D尺寸( s ∈ R 3 s \in \mathbb{R}^3 s∈R3)、高度( h g h_g hg)和旋转角度($ \alpha \in \mathbb{R}^2 $)。
3.2 第二阶段:精细化与置信度预测
-
精细化:通过提取每个3D边界框面上的点特征(例如,顶面、底面等),并通过MLP(多层感知机)进一步进行精细化,改进边界框的位置和大小。
-
置信度预测:为每个预测的边界框计算一个置信度分数,该分数基于预测的框与真实框的IoU(交并比)来指导训练。IoU引导的置信度计算公式为:
I = min ( 1 , max ( 0 , 2 × I o U t − 0.5 ) ) I = \min(1, \max(0, 2 \times IoU_t - 0.5)) I=min(1,max(0,2×IoUt−0.5))然后,训练过程中通过二元交叉熵损失(binary cross-entropy loss)对置信度进行训练:
L score = − I t log ( I t ^ ) − ( 1 − I t ) log ( 1 − I t ^ ) L_{\text{score}} = -I_t \log(\hat{I_t}) - (1 - I_t) \log(1 - \hat{I_t}) Lscore=−Itlog(It^)−(1−It)log(1−It^)
4. 2D与3D信息融合
-
点特征提取:利用3D LiDAR数据通过体素化(Voxelization)等方法提取2D特征图(map-view),然后将其输入到2D卷积网络中进行物体中心的检测和属性回归。
-
两阶段精细化:使用第二阶段进一步改进预测结果。该阶段通过对来自3D空间的特征进行多维度聚合(例如顶面、底面、四个面等)来提升物体检测精度。
5. 跟踪算法
-
速度预测:CenterPoint通过预测物体在连续帧之间的相对速度来进行跟踪。
-
贪心匹配:基于物体中心点的匹配,将当前帧的物体与之前帧的物体进行最接近点的匹配。
跟踪匹配公式:
D ( p i , p j ) = ∣ ∣ p i − p j + v i Δ t ∣ ∣ 2 D(p_i, p_j) = ||p_i - p_j + v_i \Delta t||_2 D(pi,pj)=∣∣pi−pj+viΔt∣∣2其中, p i p_i pi和 p j p_j pj分别是当前帧和上一帧的物体中心位置, v i v_i vi是物体的预测速度, Δ t \Delta t Δt是时间差。
6. 实验结果
6.1 Waymo数据集
- 检测性能:在Waymo测试集上,CenterPoint模型的车辆检测mAPH为71.8,行人检测mAPH为66.4,超过了之前的方法。
- 跟踪性能:在3D跟踪任务中,CenterPoint的AMOTA为63.8,优于先前的所有方法。
6.2 nuScenes数据集
- 检测性能:在nuScenes测试集上,CenterPoint模型的mAP为58.0,NDS为65.5,超越了所有先前的方法。
- 跟踪性能:AMOTA为63.8,较之前的最佳方法提高了8.8个点。
7. 总结
CenterPoint框架提出了一种简洁而高效的中心点表示方法,通过两个阶段的检测和跟踪,在Waymo和nuScenes数据集上达到了最先进的性能。其中心点表示的旋转不变性和简化的物体跟踪算法使得该方法在实际应用中具有极高的效率和准确性。