进一步提升的端到端3D目标检测跟踪！Sparse4D v3论文精读

青衫弦语

已于 2025-04-18 17:52:23 修改

阅读量1.3k

点赞数 14

分类专栏：自动驾驶感知算法相关论文精读文章标签：目标检测目标跟踪人工智能深度学习自动驾驶计算机视觉机器学习

于 2025-02-11 16:08:47 首次发布

本文链接：https://blog.csdn.net/qq_45933056/article/details/145574201

版权

自动驾驶感知算法相关论文精读专栏收录该内容

12 篇文章

订阅专栏

论文地址：Sparse4D v3 Advancing End-to-End 3D Detection and Tracking

源代码：Sparse4D

Sparse4D v1:端到端3D目标检测跟踪！Sparse4D论文精读

Sparse4D v2:具有稀疏模型的循环时间融合！Sparse4D v2论文精读

**图 1：Sparse4D 框架的概述，输入多视角视频并输出所有帧的感知结果。**

**图 2：不同算法在 nuScenes 验证数据集上的推理效率（FPS）与感知性能（mAP）的关系。**

图 3：实例自注意力中注意力权重的可视化：1）第一行展示了普通自注意力中的注意力权重，其中红色圆圈内的行人与目标车辆（绿色框）显示出不期望的相关性。2）第二行展示了解耦注意力中的注意力权重，有效地解决了这一问题。

1 引言

在时序多视角感知研究领域，基于稀疏的算法取得了显著进展 [41, 6, 5, 43, 26, 27]，其感知性能已与基于密集鸟瞰图（BEV）的算法 [21, 13, 11, 19, 18, 35, 44, 8] 相当，同时具有以下优势：1）无需视图变换。这些稀疏方法消除了将图像空间转换为3D向量空间的需求。2）检测头的计算负载恒定，与感知距离和图像分辨率无关。3）更容易以端到端的方式整合下游任务。在本研究中，我们选择基于稀疏的算法 Sparse4Dv2 [26, 27] 作为实现改进的基线。该算法的整体结构如图 1 所示。图像编码器将多视角图像转换为多尺度特征图，而解码器块利用这些图像特征来细化实例并生成感知结果。

首先，我们观察到与基于密集的算法相比，基于稀疏的算法在收敛方面面临更大的挑战，这最终影响了它们的最终性能。这一问题已在2D检测领域 [17, 48, 53] 进行了深入研究，主要归因于采用一对一正样本匹配。这种匹配方法在训练初期不稳定，并且与多对一匹配相比，正样本数量有限，从而降低了解码器训练的效率。此外，Sparse4D 使用稀疏特征采样而不是全局交叉注意力，这进一步由于正样本稀少而阻碍了编码器的收敛。在 Sparse4Dv2 [27] 中，引入了密集深度监督，以部分缓解图像编码器面临的收敛问题。本文主要旨在通过关注解码器训练的稳定性来提升模型性能。我们将去噪任务作为辅助监督，并将2D单帧检测中的去噪技术扩展到3D时序检测中。它不仅确保了稳定的正样本匹配，还显著增加了正样本的数量。此外，我们引入了质量估计作为辅助监督任务。这使得输出的置信度分数更加合理，优化了检测结果排序的准确性，从而提高了评估指标。此外，我们增强了 Sparse4D 中实例自注意力和时序交叉注意力模块的结构，引入了解耦注意力机制，旨在减少在计算注意力权重时的特征干扰。如图 3 所示，当锚点嵌入和实例特征作为注意力计算的输入时，结果注意力权重中会出现异常值。这无法准确反映目标特征之间的相关性，导致无法聚合正确的特征。通过将加法替换为连接，我们显著减轻了这种异常现象的发生。这一改进与 Conditional DETR [33] 有相似之处。然而，关键区别在于我们强调查询之间的注意力，而 Conditional DETR 关注的是查询与图像特征之间的交叉注意力。此外，我们的方法采用了不同的编码方法。

最后，为了推进感知系统的端到端能力，我们探索将3D多目标跟踪任务整合到 Sparse4D 框架中，实现直接输出目标运动轨迹。与基于检测的跟踪方法不同，我们消除了数据关联和过滤的需求，将所有跟踪功能整合到检测器中。此外，与现有的联合检测和跟踪方法不同，我们的跟踪器无需修改训练过程或损失函数。它不需要提供跟踪的真值 ID，但实现了预定义的实例到跟踪回归。我们的跟踪实现最大限度地整合了检测器和跟踪器，无需修改检测器的训练过程，也无需额外的微调。我们的贡献可以总结如下：

（1）我们提出了 Sparse4D-v3，这是一个强大的3D感知框架，包含三个有效的策略：时序实例去噪、质量估计和解耦注意力。

（2）我们将 Sparse4D 扩展为一个端到端的跟踪模型。

（3）我们在 nuScenes 上验证了我们改进的有效性，实现了在检测和跟踪任务中的最新性能。

2 相关工作

2.1 端到端检测的改进

DETR [3] 利用 Transformer 架构 [38] 和一对一匹配的训练方法，消除了非极大值抑制（NMS）的需求，实现了端到端的目标检测。DETR 之后，出现了许多改进方法。Deformable DETR [51] 将全局注意力改为基于参考点的局部注意力，显著缩小了模型的训练搜索空间，加快了收敛速度，并且降低了注意力的计算复杂度，使得 DETR 框架能够使用高分辨率输入和多尺度特征。Conditional-DETR [33] 引入了条件交叉注意力，将查询中的内容和空间信息分开，并通过点积独立计算注意力权重，从而加速了模型的收敛。在此基础上，Anchor-DETR [42] 明确初始化参考点作为锚点，DAB-DETR [28] 进一步将边界框的尺寸纳入锚点的初始化和空间查询的编码中。此外，许多方法从训练匹配的角度出发，旨在提高 DETR 的收敛稳定性和检测性能。DN-DETR [17] 将带有噪声的真值编码为解码器的查询输入，并采用去噪任务进行辅助监督。在此基础上，DINO [48] 引入了带噪声的负样本，并提出了混合查询选择用于查询初始化，进一步提升了 DETR 框架的性能。Group-DETR [4] 在训练期间将查询复制成多个组，以提供更多的训练样本。Co-DETR [53] 在训练中引入了密集头，既全面训练了骨干网络，又利用密集头的输出作为查询来训练解码器。

DETR3D [41] 将可变形注意力应用于多视角3D检测，实现了带有空间特征融合的端到端3D检测。PETR 系列 [29, 30, 39] 引入了3D位置编码，利用全局注意力直接进行多视角特征融合，并进行了时间优化。Sparse4D 系列 [26, 27] 在实例特征解耦、多点特征采样、时间融合等方面对 DETR3D 进行了改进，从而提升了感知性能。

2.2 多目标跟踪

大多数多目标跟踪（MOT）方法采用基于检测的跟踪框架。它们依赖于检测器的输出来执行数据关联和轨迹滤波等后处理任务，导致流程复杂且需要调整众多超参数。这些方法未能充分利用神经网络的能力。为了将跟踪功能直接整合到检测器中，GCNet [25]、TransTrack [37] 和 TrackFormer [32] 利用了 DETR 框架。它们基于跟踪查询在帧间传递检测到的目标，显著减少了对后处理的依赖。MOTR [47] 将跟踪推进到完全端到端的过程。MOTRv3 [46] 解决了 MOTR 中检测查询训练的局限性，从而大幅提升了跟踪性能。MUTR3D [49] 将这种基于查询的跟踪框架应用于3D多目标跟踪领域。这些端到端跟踪方法有一些共同特点：（1）在训练期间，它们基于跟踪目标约束匹配，确保跟踪查询与真值 ID 之间的一致性匹配，并且只为检测查询匹配新目标。（2）它们使用高阈值传递时间特征，仅将高置信度的查询传递到下一帧。我们的方法与现有方法不同，我们无需修改检测器的训练或推理策略，也不需要跟踪的真值 ID。

3 Methodology

网络结构和推理流程如图 1 所示，与 Sparse4Dv2 [27] 一致。在本节中，我们将首先介绍两个辅助任务：时序实例去噪（Sec 3.1）和质量估计（Sec 3.2）。随后，我们将介绍对注意力模块的简单改进，即解耦注意力（Sec 3.3）。最后，我们将阐述如何利用 Sparse4D 实现3D多目标跟踪（Sec 3.4）。

**图 4：时序实例去噪的说明。** (a) 在训练阶段，实例包含两个部分：可学习的和带噪声的。带噪声的实例既包含时间相关的元素，也包含非时间相关的元素。对于带噪声的实例，我们采用预匹配方法来分配正样本和负样本——将锚点与真值进行匹配，而可学习的实例则与预测结果和真值进行匹配。在测试阶段，图中仅保留绿色的模块。 **(b) 使用注意力掩码来防止不同组之间的特征传播，其中灰色表示查询和键之间没有注意力，绿色表示相反。**

3.1 时序实例去噪

在2D检测中，引入去噪任务已被证明是提高模型收敛稳定性和检测性能的有效方法。在本文中，我们将2D单帧去噪扩展到3D时序去噪。在 Sparse4D 中，instances（称为queries）被解耦为隐式instance features和显式anchors。在训练过程中，我们初始化两组锚点。一组锚点在检测空间中均匀分布，使用 k-means 方法初始化，并作为可学习参数。另一组锚点是通过对真值添加噪声生成的，如公式（1）和（2）所示，特别针对3D检测任务设计。

这里， $\mathbb{Z}_{X}$ 表示 1 到 X 之间的整数集合。N 表示真值的数量，而 M 表示噪声实例的组数。在这种情况下，ΔA 表示随机噪声，其中 $\Delta A_{i,j,1}$ 和 $\Delta A_{i,j,2}$ 分别在范围 (−x,x) 和 (−2x,−x)∪(x,2x) 内遵循均匀随机分布。在 DINO-DETR [48] 中，将由 $\Delta A_{i,j,1}$ 生成的样本分类为正样本，而由 $\Delta A_{i,j,2}$ 生成的样本分类为负样本，但存在潜在的误分类风险，因为 $\Delta A_{i,j,2}$ 可能更接近真值。为了避免任何歧义，我们对每组 $A_{noise}$ 和 $A_{gt}$ 使用二分图匹配来确定正样本和负样本。

此外，我们将上述单帧噪声实例通过时间传播扩展，以更好地与稀疏递归训练过程对齐。在每一帧的训练中，我们随机选择 M′ 组噪声实例投影到下一帧。时间传播策略与非噪声实例一致——anchors经过自车位姿和速度补偿，而instance features作为后续帧特征的直接初始化。

重要的是，我们保持每组实例的相互独立性，噪声实例和正常实例之间没有特征交互。这与 DN-DETR [17] 不同，如图 4(b) 所示。这种方法确保在每组中，一个真值最多与一个正样本匹配，有效避免了任何潜在的歧义。

3.2 质量估计

现有的基于稀疏的方法主要估计正样本和负样本的分类置信度，以衡量与真值的对齐程度。优化目标是最大化所有正样本的分类置信度。然而，不同正样本之间的匹配质量存在显著差异。因此，分类置信度并不是评估预测边界框质量的理想指标。为了帮助网络理解正样本的质量，一方面加速收敛，另一方面合理化预测排名，我们引入了预测质量估计任务。对于3D检测任务，我们定义了两个质量指标：中心性（centerness）和偏航性（yawness），公式如下：

网络输出分类置信度的同时，也估计中心性和偏航性。它们各自的损失函数定义为交叉熵损失和 Focal Loss [24]，如以下公式所示：

3.3 Decoupled Attention

我们对 Sparse4Dv2 的anchor encoder、self-attention和时序cross-attention进行了简单改进。架构如图 5 。设计原则是将不同模态的特征以concat而不是add的方式组合。~~与 Conditional DETR [33] 相比存在一些差异。~~首先，我们在queries之间的attention而不是query与图像特征之间的cross-attention进行了改进；cross-attention仍然使用 Sparse4D 的deformable aggregation。此外，我们未在单头注意力层将位置嵌入与查询特征进行拼接，而是在多头注意力层进行外部调整修改，从而为神经网络提供更高的灵活性。(加了俩全连接层)

**图 5：**anchor encoder 和attention **的架构。我们独立地对**anchor **的多个组成部分进行高维特征编码，然后将它们**concatenate **起来。与原始的Sparse4D相比，这种方法有更低的计算和参数开销。E和F分别代表**anchor embedding 和instance feature 。

3.4 扩展到跟踪

在 Sparse4Dv2 框架中，时间建模采用递归形式，将前一帧的实例投影到当前帧作为输入。时间实例类似于基于查询的跟踪器中的跟踪查询，区别在于跟踪查询受到更高阈值的约束，代表高置信度的检测结果。相比之下，我们的时间实例数量众多，其中许多可能无法准确表示前一帧中的检测目标。

为了在 Sparse4Dv2 框架内从检测扩展到多目标跟踪，我们直接将实例从检测边界框重新定义为轨迹。轨迹包括一个 ID 和每帧的边界框。由于设置了大量冗余实例，许多实例可能未与精确目标关联，也没有分配明确的 ID。然而，它们仍然可以传播到下一帧。一旦实例的检测置信度超过阈值 T，则认为该实例锁定了目标并分配了 ID，该 ID 在时间传播过程中保持不变。因此，实现多目标跟踪就像对输出感知结果应用 ID 分配过程一样简单。跟踪期间的生命周期管理由 Sparse4Dv2 中的 top-k 策略无缝处理，无需额外修改。具体细节可参考算法 1。在我们的实验中，我们观察到经过训练的时间模型表现出出色的跟踪特性，无需使用跟踪约束进行微调。

4 实验

4.1 基准测试

为了验证 Sparse4Dv3 的有效性，我们采用了 nuScenes 基准测试，该数据集包含 1000 个场景，其中训练集、验证集和测试集的分布分别为 700、150 和 150 个场景。每个场景包含一个 20 秒的视频片段，帧率为 2 帧/秒（FPS），并包括 6 个视角的图像。除了 3D 边界框标签外，数据集还提供了车辆运动状态和相机参数的数据。对于检测性能评估，采用综合方法，考虑了诸如平均精度均值（mAP）、平移误差均值（mATE）、尺度误差均值（mASE）、方向误差均值（mAOE）、速度误差均值（mAVE）、属性误差均值（mAAE）以及 nuScenes 检测得分（NDS）等指标，其中 NDS 表示其他指标的加权平均值。对于跟踪模型评估，关键指标包括多目标跟踪准确率均值（AMOTA）、多目标跟踪精度均值（AMOTP）、召回率和 ID 切换次数（IDS）。具体细节可参考 [2, 15]。

4.2 实现细节

遵循 Sparse4Dv2 [27]，除非另有说明，我们的头部使用一个 6 层解码器，包含 900 个实例和 Nt=600 个时间实例，嵌入维度为 256。此外，它还包含 7 个固定关键点和 6 个可学习关键点。在算法 1 中，参数 T 和 S 分别设置为 0.25 和 0.6。去噪实例的组数 M 为 5，其中 3 组随机选择为时间去噪实例。

我们使用 AdamW 优化器训练模型 100 个周期，无需 CBGS [50]，并且无需对跟踪任务进行任何微调。与大多数方法 [35, 27, 39] 一样，我们采用顺序迭代方法进行训练。每个训练步骤从单帧输入数据和历史帧缓存的实例中获取数据。时间模型的训练时间和 GPU 内存消耗与单帧模型相似，使我们能够高效地训练时间模型。除了本文中介绍的时间实例去噪和质量估计任务外，我们还引入了密集深度回归 [27] 作为辅助任务，以增强模型训练的稳定性。

**表 1：nuScenes 验证数据集上的**3D **检测结果。† 表示使用来自 nuImages 数据集的预训练权重。**

**表 2：nuScenes 测试数据集上的**3D **检测结果。表中的所有 VoVNet-99 均使用来自 DD3D [34] 的权重进行初始化。**

4.3 主要结果

为了更好地控制变量，我们在验证数据集上进行了广泛的对比实验，结果如表 1 所示。在第一组实验中，我们使用 ResNet50 [9] 作为骨干网络，参数初始化来自在 ImageNet-1k [14] 上的监督训练。图像尺寸设置为 256×704。这些参数对 GPU 内存和训练时间的要求相对较低，便于实验迭代。在这种配置下，Sparse4Dv3 在 mAP 和 NDS 上分别提高了 3.0% 和 2.2%。在第二组实验中，使用 ResNet101 作为骨干网络，并将图像尺寸加倍至 512×1408，以评估模型在更大图像上的性能。Sparse4Dv3 在这种配置下也实现了最先进的性能，mAP 和 NDS 分别提高了 3.2% 和 2.9%。此外，与 Sparse4Dv2 相比，推理速度几乎保持不变。在 512×1408 的配置下，我们的推理速度仍然超过了使用全局注意力的 StreamPETR。

在测试集上进行3D检测。此外，我们在 nuScenes 测试数据集上评估了模型的性能，结果如表 2 所示。为了与大多数算法保持一致的配置，我们使用 VoVNet-99 [16] 作为骨干网络，使用来自 DD3D [34] 的预训练权重，并将图像尺寸设置为 640×1600。在测试数据集上，Sparse4Dv3 在两个指标上均实现了最优性能，mAP 和 NDS 分别提高了 1.3% 和 1.8%。重要的是，我们基于稀疏的算法在距离误差（mATE）性能上显著超过了基于密集鸟瞰图（BEV）的算法。这主要归因于我们采用的质量估计实现了置信度排序的稳定性，从而显著提高了 mATE。

3D多目标跟踪。我们直接使用 MOT3D 指标对模型进行评估，如表 1 和表 2 所示，无需额外微调。如表 3 所示，在验证评估集上，Sparse4Dv3 在所有跟踪指标上均显著优于现有方法，无论是端到端方法还是非端到端方法。与最先进的解决方案 DORT [22] 相比，在相同配置下，我们的 AMOTA 高出 6.6%（0.490 对比 0.424）。与端到端解决方案 DQTrack 相比，我们的 AMOTA 提高了 16.0%（0.567 对比 0.407），并且 ID 切换次数减少了 44.5%（557 对比 1003）。表 4 展示了在测试数据集上的评估结果，Sparse4Dv3 在 IDS、召回率、MOTAR、MOTA 和 MOTP 等指标上均实现了最先进的性能。

**表 3：nuScenes 验证数据集上的**3D **多目标跟踪结果。"E2E" 表示模型是否为端到端检测和跟踪模型。表中的 Sparse4Dv3 模型与表 1 中的相同。**

**表 4：nuScenes 测试数据集上的**3D **多目标跟踪结果。"E2E" 表示模型是否为端到端检测和跟踪模型。"QTrack-StP" 表示使用 StreamPETR 作为检测器的 QTrack。表中的 Sparse4Dv3 模型与表 2 中的相同。**

4.4 消融研究

我们进行了消融实验，以评估本文中的改进。在控制变量的情况下，我们逐步引入各个改进，结果如表 5 所示。具体来说，去噪在各个指标上均显示出显著的改进。单帧去噪和时间去噪分别使 mAP 提高了 0.8% 和 0.4%，NDS 提高了 0.9% 和 0.6%。解耦注意力主要提高了模型的 mAP 和 mAVE，分别提高了 1.1% 和 1.9%。中心性（centerness）与其设计意图一致，显著降低了距离误差 1.8%。然而，它对方向估计误差产生了负面影响，这一影响部分通过引入偏航性（yawness）得到缓解。两种质量估计的结合使 mAP 提高了 0.8%，mATE 提高了 2.8%，mAVE 提高了 1.9%。图 6（a）展示了 Sparse4Dv2 和 Sparse4Dv3 在训练过程中的损失和评估指标的训练曲线。可以看出，Sparse4Dv3 在最终收敛和收敛速度方面均显著优于 Sparse4Dv2。

我们进一步验证了中心性对模型性能影响的根本原因。我们相信，通过分类损失训练的置信度在一对一匹配中无法有效反映检测结果的质量。高置信度的边界框不一定更接近真值。引入中心性后，我们使用中心性乘以置信度作为每个检测结果的得分，从而使检测结果的排序更加准确。如图 6（b, c）所示，当未引入中心性时，模型在低召回率和高阈值（例如，召回率 ≤ 0.1 或阈值 ≥ 0.95）的情况下的精度仍然不高，并且平移误差相对较大。引入中心性显著缓解了这一现象。

**表 5：消融实验。在最后一行中，绿色字体表示指标的提升，红色字体表示相反。**

图 6：(a) Sparse4Dv2 和 v3 在训练过程中的评估指标和损失的比较。 (b, c) 在引入中心性（centerness）之前和之后，行人类别在精确率-召回率（Precision-Recall）和置信度-平移误差（Confidence-Translation error）方面的比较，使用平移误差=0.5米作为精确率和召回率的阈值。

表 6：使用未来帧和大型骨干网络的实验结果，其中图像尺寸设置为 640×1600。“Future” 表示使用的未来帧数量。TransFusion-L 和 -CL 分别指纯激光雷达模型和相机与激光雷达多模态模型。

4.5 云端性能提升

在云端系统中，通常有足够的计算能力来利用更大的计算资源以实现最佳性能。因此，我们采取了两项措施来进一步发挥 Sparse4D 的潜力，包括与未来帧的特征融合和使用更大、更好的预训练骨干网络。首先，我们采用了 Sparse4Dv1 [26] 中的多帧采样方法来融合未来帧的特征。通过引入未来 8 帧（2 FPS）的特征，模型性能显著提高，特别是 mAVE 降低了 5.67%，NDS 提高了 3.23%。此外，按照 StreamPETR [39] 中的方法，我们尝试使用 EVA02 [7] 作为骨干网络。EVA02 经过了广泛的预训练，其特征提取富含语义信息，具有更强的泛化能力，有助于模型分类。与 ResNet101 相比，EVA02-Large 使 mAP 提高了 5.98%。通过结合 EVA02 和未来帧，我们在 nuScenes 测试数据集上实现了 0.682 的 mAP、0.719 的 NDS 和 0.677 的 AMOTA。这一成就甚至在某些指标（NDS 和 mAVE）上超过了使用激光雷达的检测模型，例如 TransFusion [1]。

5 结论与展望

在本文中，我们首先提出了增强 Sparse4D 检测性能的方法，这些方法主要涵盖三个方面：时序实例去噪、质量估计和解耦注意力。随后，我们展示了将 Sparse4D 扩展为端到端跟踪模型的过程。我们在 nuScenes 数据集上的实验表明，这些改进显著提升了性能，使 Sparse4Dv3 在该领域处于领先地位。

基于 Sparse4D 框架，未来仍有巨大的研究潜力：

跟踪性能提升：我们对跟踪的尝试还处于初步阶段，跟踪性能还有很大的提升空间。
模型扩展：将 Sparse4D 扩展为仅使用激光雷达或多种模态的模型是一个有前景的方向。
下游任务集成：在端到端跟踪的基础上，可以进一步引入预测和规划等下游任务 [10]。
多任务融合：可以考虑将更多的感知任务（如在线建图 [23] 和2D交通标志及信号灯检测）整合到 Sparse4D 框架中，以提升其在自动驾驶场景中的综合应用能力。