论文总结--Center-based 3D Object Detection and Tracking

本文链接：https://blog.csdn.net/m0_60799447/article/details/143718213

CenterPoint: Center-based 3D Object Detection and Tracking 是一种基于中心点表示的3D物体检测与跟踪方法，提出了一种创新的检测框架，旨在通过在LiDAR点云中直接检测和跟踪物体的中心来提高检测效率和准确性。以下是该论文的关键方法总结，特别是其核心模块和公式。

1. 方法概述

CenterPoint采用中心点表示物体，并通过两个阶段进行检测和跟踪：

第一阶段：中心检测与回归：该阶段通过热图检测3D物体的中心位置，并回归其他物体属性（如3D大小、旋转、速度）。
第二阶段：精细化与置信度预测：在第一阶段的基础上，进一步提取更多特征并对3D框进行精细化。

2. 中心点表示

CenterPoint的核心思想是将3D物体表示为点，而不是传统的轴对齐的3D边界框。这样做的优势在于：

旋转不变性：与轴对齐的边界框相比，点没有固有的方向，因此能够减少搜索空间，并允许模型学习物体的旋转不变性。
简化的跟踪任务：中心点表示简化了跟踪任务。通过估算物体的速度，可以在连续帧之间进行简单的贪心匹配。

3. 模型结构

3.1 第一阶段：中心检测

热图预测：首先生成一个热图，标记每个物体的中心位置。通过回归3D物体的大小、位置修正（sub-voxel位置）、旋转角度（用 $\sin(\alpha)$ 和 $\cos(\alpha)$ 表示）和速度，获取物体的完整属性。

公式：
$Y_{c} = \text{heatmap for center detection}$
$L_{center} = - \sum_i \log(\hat{Y}_i) \quad \text{(focal loss for center detection)}$
回归头：为每个物体的中心位置回归其3D尺寸（ $\in \mathbb{R}^3$ ）、高度（ $h_g$ ）和旋转角度（$ \alpha \in \mathbb{R}^2 $）。

3.2 第二阶段：精细化与置信度预测

精细化：通过提取每个3D边界框面上的点特征（例如，顶面、底面等），并通过MLP（多层感知机）进一步进行精细化，改进边界框的位置和大小。
置信度预测：为每个预测的边界框计算一个置信度分数，该分数基于预测的框与真实框的IoU（交并比）来指导训练。IoU引导的置信度计算公式为：
$\min(1, \max(0, 2 \times IoU_t - 0.5))$

然后，训练过程中通过二元交叉熵损失（binary cross-entropy loss）对置信度进行训练：
$L_{\text{score}} = -I_t \log(\hat{I_t}) - (1 - I_t) \log(1 - \hat{I_t})$

4. 2D与3D信息融合

点特征提取：利用3D LiDAR数据通过体素化（Voxelization）等方法提取2D特征图（map-view），然后将其输入到2D卷积网络中进行物体中心的检测和属性回归。
两阶段精细化：使用第二阶段进一步改进预测结果。该阶段通过对来自3D空间的特征进行多维度聚合（例如顶面、底面、四个面等）来提升物体检测精度。

5. 跟踪算法

速度预测：CenterPoint通过预测物体在连续帧之间的相对速度来进行跟踪。
贪心匹配：基于物体中心点的匹配，将当前帧的物体与之前帧的物体进行最接近点的匹配。

跟踪匹配公式：
$D(p_i, p_j) = ||p_i - p_j + v_i \Delta t||_2$

其中， $p_i$ 和 $p_j$ 分别是当前帧和上一帧的物体中心位置， $v_i$ 是物体的预测速度， $\Delta t$ 是时间差。