Sparse4D v3来了!推进端到端3D检测和跟踪

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

>>点击进入→自动驾驶之心【3D目标检测】技术交流群

论文作者 | 汽车人

编辑 | 自动驾驶之心

原标题:Sparse4D v3 Advancing End-to-End 3D Detection and Tracking

论文链接:https://arxiv.org/pdf/2311.11722.pdf

代码链接:https://github.com/linxuewu/Sparse4D

作者单位:地平线

198b4d5610569eb235261fbf1a631d65.png

论文思路:

在自动驾驶感知系统中,3D检测和跟踪是两项基本任务。本文基于 Sparse4D 框架更深入地研究了该领域。本文引入了两个辅助训练任务(时序实例去噪-Temporal Instance Denoising和质量估计-Quality Estimation),并提出解耦注意力(decoupled attention)来进行结构改进,从而显着提高检测性能。此外,本文使用一种简单的方法将检测器扩展到跟踪器,该方法在推理过程中分配实例 ID,进一步突出了 query-based 算法的优势。在 nuScenes 基准上进行的大量实验验证了所提出的改进的有效性。以ResNet50为骨干,mAP、NDS和AMOTA分别提高了3.0%、2.2%和7.6%,分别达到46.9%、56.1%和49.0%。本文最好的模型在 nuScenes 测试集上实现了 71.9% NDS 和 67.7% AMOTA。

主要贡献:

本文提出了 Sparse4D-v3,这是一个强大的 3D 感知框架,具有三种有效的策略:时序实例去噪、质量估计和解耦注意力。

本文将 Sparse4D 扩展为端到端跟踪模型。

本文展示了 nuScenes 改进的有效性,在检测和跟踪任务中实现了最先进的性能。

网络设计:

首先,本文观察到与 dense-based 算法相比,sparse-based 算法在收敛方面遇到了更大的挑战,最终影响了它们的最终性能。这个问题已经在 2D 检测领域得到了彻底的研究[17,48,53],并且主要归因于一对一正样本匹配的使用。这种匹配方式在训练初期不稳定,而且与一对多匹配相比,正样本数量有限,从而降低了解码器训练的效率。此外,Sparse4D 使用稀疏特征采样而不是全局交叉注意力,由于正样本稀缺,这进一步阻碍了编码器收敛。在 Sparse4Dv2 [27] 中,引入了密集深度监督(dense depth supervision)来部分缓解图像编码器面临的这些收敛问题。本文主要旨在通过关注解码器训练的稳定性来增强模型性能。本文将去噪任务作为辅助监督,并将去噪技术(denoising techniques)从 2D 单帧检测扩展到 3D 时序检测。不仅保证了稳定的正样本匹配,而且显着增加了正样本的数量。此外,本文引入了质量评估(quality estimation)任务作为辅助监督。这使得输出的置信度分数更加合理,提高了检测结果排名的准确性,从而获得更高的评估指标。此外,本文增强了Sparse4D中实例自注意力(instance self-attention)和时序交叉注意力模块(temporal cross-attention modules)的结构,引入了一种解耦注意力机制(decoupled attention mechanism),旨在减少注意力权重计算过程中的特征干扰。如图 3 所示,当添加 anchor embedding 和实例特征作为注意力计算的输入时,所得注意力权重中存在异常值的实例。这无法准确反映目标特征之间的相互关联,导致无法聚合正确的特征。通过用 concatenation 代替 attention,本文显着减少了这种错误现象的发生。此增强功能与 Conditional DETR [33] 具有相似之处。然而,关键的区别在于本文强调 queries 之间的注意力,与 Conditional DETR 不同,其专注于 queries 和图像特征之间的交叉注意力。此外,本文的方法涉及独特的编码方法。

最后,为了提高感知系统的端到端能力,本文探索将3D多目标跟踪任务集成到Sparse4D框架中,从而能够直接输出目标运动轨迹。与 tracking-by-detection 方法不同,本文消除了数据关联和过滤的需要,将所有跟踪功能集成到检测器中。此外,与现有的联合检测和跟踪方法不同,本文的跟踪器不需要修改训练过程或损失函数。它不需要提供 ground truth IDs,但可以实现预定义的 instance-to-tracking 回归。本文的跟踪实现最大限度地集成了检测器和跟踪器,不需要修改检测器的训练过程,也不需要额外的微调。

ca55cbeac97e443dd8e25873284d0da9.png

图1:Sparse4D框架概述,输入多视图视频并输出所有帧的感知结果。

ffa17bd6d63b34e6648de509545a7afc.png

图 2:不同算法的 nuScenes 验证数据集上的推理效率 (FPS) - 感知性能 (mAP)。

d2e7a8b9ee245871b42975888f4eaf7d.png

图 3:实例自注意力中的注意力权重的可视化:1)第一行显示了普通自注意力中的注意力权重,其中红色圆圈中的行人显示出与目标车辆(绿色框)的意外相关性。2)第二行显示了解耦注意力中的注意力权重,有效解决了该问题。

8c8a57c2bd8932c1ad9efd3884548211.png

图 4:时序实例去噪的图示。(a) 在训练阶段,实例包含两个组成部分:可学习的和噪声的。噪声实例由时间和非时间元素组成。对于噪声实例,本文采用预匹配方法来分配正样本和负样本——将 anchors 与 ground truth 进行匹配,而可学习实例与预测和 ground truth 进行匹配。在测试阶段,仅保留图中的绿色块。(b) 采用 Attention mask 来防止 groups 之间的特征传播,其中灰色表示 queries 和 keys 之间没有注意力,绿色表示相反。

9ab5a7700ee7f3776a61f0b73d3d647d.png

图 5:anchor encoder 和注意力的架构。本文独立地对 anchor 的多个组件进行高维特征编码,然后将它们连接起来。与原始 Sparse4D 相比,这种方法可以降低计算和参数开销。E 和 F 分别表示 anchor embedding 和实例特征。

11b7ecceab79cbe33d73df1943c47743.png

实验结果:

456884deeff07aee12f5795323ea0b3f.png 49003ca910947cd894696e3f0f06bf98.png 89b70d93b3c51b9d916946fde8c0936c.png c0a023a65fb3c9858a772d5c21df73b6.png ef024f382fcaa4623ef846a2cadb8b66.png 8b1518f23a9a486c8031461ce661d0be.png 39f0b4d7b94aabc8804073b063c93a04.png

总结:

本文首先提出了增强 Sparse4D 检测性能的方法。这一增强主要包括三个方面:时序实例去噪、质量估计和解耦注意力。随后,本文说明了将 Sparse4D 扩展为端到端跟踪模型的过程。本文在 nuScenes 上的实验表明,这些增强功能显着提高了性能,使 Sparse4Dv3 处于该领域的前沿。

引用:

Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking. ArXiv. /abs/2311.11722

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署协同感知语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

03f1e0133dd9910b6b1bcf8c192ba0c0.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

82ea635f791c65561aa478ce5b6f73d3.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

d33c679d42b52a530b633beb8b196ffb.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

558c9cc9571fd580d32ccf4a30c084c9.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值