Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

小兮风

已于 2024-07-07 21:28:38 修改

阅读量803

点赞数 5

分类专栏：论文阅读文章标签：人工智能论文阅读目标跟踪目标检测

于 2024-06-30 13:45:26 首次发布

本文链接：https://blog.csdn.net/qq_43190806/article/details/140079923

版权

Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

摘要

在自动驾驶感知系统中，三维检测和跟踪是两项基本任务。本文在Saprse4D框架的基础上，深入研究了这一领域。我们引入了两个辅助训练任务（时序实例去噪和质量估计），并提出解耦注意来进行结构改进，从而导致显著提高检测性能。此外，我们使用一种简单的方法将检测器扩展到一个跟踪器中，该方法在推理过程中分配实例ID，进一步突出了基于查询的算法的优势。在nuScenes基准测试上进行的大量实验验证了所提改进的有效性。以ResNet50为骨干，我们发现mAP、NDS和AMOTA分别提高了3.0%、2.2%和7.6%，分别达到46.9%、56.1%和49.0%。我们的最佳模型在nuScenes测试集上达到了71.9%的NDS和67.7%的AMOTA。代码发表在：GitHub
在这里插入图片描述
1.

简介

在时间多视角感知研究领域中，基于稀疏的算法已经取得了重大进展，达到与基于密集bevs的算法相当的感知性能，同时也提供了几个优势。
1. 自由视图转换。这些稀疏的方法消除了不必要讲将图像空间转换为三维向量空间
2. 检测头计算量恒定，与感知距离和图像分辨率无关
3. 更易于实现通过端到端方式集成下游任务。
在这个研究中，我们选择了基于稀疏的算法Sparse4Dv2 作为我们改进的基准，
该算法的总体结构如图1所示
该图像编码器将多视角图像转换为多尺度的特征图，而解码器块则利用这些图像特征来细化实例并生成感知结果

首先，我们观察到，与基于密集的算法相比，基于稀疏的算法在收敛方面遇到了更大的挑战，最终影响了它们的最终性能。
这个问题已经在二维检测领域进行了彻底的研究，主要归因于使用一对一的正样本匹配。
这种匹配方法在训练的初始阶段是不稳定的，与一对多匹配相比，其正样本数量有限，从而降低了解码器训练的效率
此外，Sparse4D利用稀疏特征采样而不是全局交叉注意，由于正样本的稀缺，进一步阻碍了编码器的收敛。
在 Sparse4Dv2中，引入密集深度监督来部分缓解图像编码器所面临的收敛问题。
本文主要旨在通过关注解码器训练的稳定性来提高模型的性能。
我们将去噪任务作为辅助监督，并将去噪技术从二维单帧检测扩展到三维时序检测
它不仅保证了阳性样本的稳定匹配，而且显著增加了阳性样本的数量。
此外，我们还引入了质量估计的任务作为辅助监督
这使得输出置信度分数更加合理，改进了检测结果排名的准确性，从而产生更高的评估指标
此外，我们在 Sparse4D中增强了实例自注意和时间交叉注意模块的结构，引入一种解耦的注意机制，以减少注意权重计算过程中的特征干扰
如图3所示，锚点嵌入与实例特征相加作为注意计算的输入时，所得到的注意权值中存在离群值的实例。
这并不能准确地反映目标特征之间的相互关系，导致无法聚合正确的特征。
通过用 concatenation替换add，我们显著地减少了这种不正确现象的发生。
这种增强与Conditional DETR有相似之处
然而，关键的区别在于我们强调queries之间的注意，而不是 Conditional DETR，它集中于查询和图像特征之间的交叉注意。
此外，我们的方法涉及到一个独特的编码方法。

最后，为了提高感知系统的端到端能力，我们探索了将三维多目标跟踪任务集成到Sparse4D框架中，使目标运动轨迹能够直接输出。
不像通过检测来进行跟踪(TBD)的方法，我们消除了数据关联和滤波器的需要，将所有跟踪功能集成到检测器中.
此外，与现有的联合检测和跟踪方法不同，我们的跟踪器不需要修改训练过程或损失函数。
它不需要提供地面真实id，但实现了预定义的实例跟踪回归。
我们的跟踪实现最大限度地集成了检测器和跟踪器，不需要修改检测器的训练过程，也不需要进行额外的微调。我们的贡献可以总结如下：
1. 我们提出了Sparse4D-v3，一个有效的三维感知框架，具有三种有效的策略：时间实例去噪、质量估计和解耦注意。
2. 我们将Sparse4D扩展到一个端到端跟踪模型中。
3. 我们演示了我们在nuScenes上的改进的有效性，在检测和跟踪任务中都实现了最先进的性能。

Related Works

Improvements for End-to-End Detection
Multi-Object Track

Methodology

网络结构和推理pipeline如图1所示：
在本节中，我们将首先介绍两个辅助任务：
1. 时序实例去噪（第3.1节）
2. 质量估算（第3.2节）
3. 在此之后，我们对注意模块进行了一个直接的增强，称为解耦注意（第3.3节）。
4. 最后，我们概述了如何利用Sparse4D来实现3D MOT（第3.4节）。

Temporal Instance Denoising

在二维检测中，引入去噪任务被证明是提高模型收敛稳定性和检测性能的有效方法。
本文将基本的二维单帧去噪推广到三维时态去噪。
在Sparse4D中，实例（称为查询）被解耦为隐式实例特性和显式锚点
在训练过程中，我们初始化了两组锚点，
其中一组包括均匀分布在检测空间中的锚点，使用k-means方法进行初始化，而这些锚点都是可学习的参数。
另一组锚点是通过在地面真实值（GT）中添加噪声而产生的，如式（1,2）所示，这是专门为3D检测任务而定制的。
$\begin{aligned}A_{gt}&=\{(x,y,z,w,l,h,yaw,v_{xyz})_i\mid i\in\mathbb{Z}_N\}\\A_{noise}&=\{A_i+\Delta A_{i,j,k}\mid i\in\mathbb{Z}_N,j\in\mathbb{Z}_M,k\in\mathbb{Z}_2\}\end{aligned}$