稀疏检测的神！SparseDet：特征聚合玩明白了，爆拉VoxelNeXt！

自动驾驶之心

于 2024-07-23 07:31:04 发布

阅读量157

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247619370&idx=2&sn=3c3c0b90e98263f313b5d4a00fc0970e&chksm=cfec8680a50005b0ea8d182d78dbaf6f6ba5e6d1abae71da18c807978e67e6ba19eae121574e&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享北京交通大学&清华&地平线等最新的工作SparseDet！大幅超越了VoxelNeXt，简单来说四个字：又快又好。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『3D目标检测』技术交流群

论文作者 | Lin Liu等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

基于激光雷达的稀疏3D目标检测因其计算效率优势在自动驾驶应用中起着至关重要的作用。现有的方法要么使用单个中心体素的特征作为目标代理，要么将前景点的聚合视为目标agent。然而，前者缺乏聚合上下文信息的能力，导致目标代理中的信息表达不足。后者依赖于多级流水线和辅助任务，降低了推理速度。为了在充分聚合上下文信息的同时保持稀疏框架的效率，在这项工作中，我们提出了SparseDet，它将稀疏查询设计为目标代理。它引入了两个关键模块，即局部多尺度特征聚合（LMFA）模块和全局特征聚合（GFA）模块，旨在充分捕获上下文信息，从而增强代理表示目标的能力。其中LMFA子模块通过坐标变换和使用最近邻关系来捕获目标级细节和局部上下文信息，实现稀疏关键体素在不同尺度上的特征融合，GFA子模块使用self-att来选择性地聚合整个场景中关键体素的特征，以捕获场景级上下文信息。在nuScenes和KITTI上的实验证明了我们方法的有效性。具体来说，在nuScene上，SparseDet以13.5 FPS的帧率超越VoxelNeXt 2.2% mAP，在KITTI上，它以17.9 FPS的帧率超越VoxelNelXt 1.12% AP3D。

为了在稀疏框架中有效地聚合上下文信息的同时实现高效的检测，在这项研究中，我们提出了一种简单有效的全稀疏3D目标检测框架SparseDet。SparseDet使用3D稀疏卷积网络从点云中提取特征，并将其转换为2D稀疏特征，以便通过检测n头进行进一步预测。如图2（c）所示，SparseDet将稀疏查询设计为目标代理，允许灵活和选择性地聚合点云以获得场景中的目标代理。与之前的稀疏聚合范式相比，首先，SparseDet将局部上下文信息的聚合扩展到多尺度特征空间，从而获得更丰富的局部信息。此外，与仅关注聚合前景点特征的现有方法相比，SparseDet可以聚合每个实例的场景级上下文，以促进场景和实例特征之间的潜在协作。最后，SparseDet不需要任何额外的辅助任务。

SPARSEDET详解

在本节中，我们提出了一种简单高效的基于激光雷达的稀疏检测框架SparseDet。图3展示了其结构，该结构遵循完全稀疏网络VoxelNeXt的流水线。但不同的是，为了充分聚合点云中的上下文信息以增强稀疏目标代理的信息表达能力，我们设计了两个子模块，LMFA（局部多尺度特征聚合）模块和GFA（全局特征聚合）模型。这两个模块旨在自适应地聚合点云上的多级上下文信息，并使SparseDet能够强烈增强目标代理的信息表示能力，从而以较低的计算成本提高3D检测的性能。

Local Multi-scale Feature Aggregation

大多数基于激光雷达的稀疏检测方法利用中心体素特征作为检测的目标代理。虽然使用中心特征作为目标代理可以提供准确的位置信息，但单个中心体素特征不足以完全捕获目标的全部信息。这严重削弱了目标代理的表达能力。因此，我们提出了LMFA模块来弥补这些缺点。在LMFA模块中，我们专注于学习目标周围的局部上下文信息，这有助于理解目标目标的形状、大小和相对位置等细节。如图4所示，我们通过K个最近邻（KNN）位置关系动态聚合关键体素的邻域信息，以增强其特征表示能力。然后，聚合的关键体素特征将用于初始化稀疏目标查询。值得注意的是，考虑到3D目标尺度的分布差异，我们将LMFA扩展到多尺度空间。因此，LMFA主要由两个步骤组成，稀疏关键体素选择和不同尺度体素特征的融合。

1）稀疏关键体素选择：首先，我们将点云体素化，并将其输入到3D稀疏卷积骨干网络中。参考VoxelNeXt，我们在3D稀疏骨干网络中添加了两个额外的下采样层。这一步有两个关键目的。首先，它通过额外的下采样过程构建多尺度特征空间，以促进LMFA模块中的后续特征聚合。其次，通过额外的采样和高度压缩操作，我们可以将体素特征放置在空白的目标中心，以更准确地构建邻域关系。通过上述操作，原始稀疏3D卷积骨干从{Fs1、Fs2、Fs3、Fs4}转换为{Fs1，Fs2，Fs3，Fs4，Fs5{Fs6}，特征步长为{1,2,4,8,16,32}。然后，我们将Fs5和Fs6变换到Fs4的特征空间，并将Fs4、Fs5和Fs 6连接在一起以获得FF融合。然后，我们对FFusion、Fs4、Fs5和Fs6进行高压缩，以获得。具体来说，遵循VoxelNeXt，我们替换地平面上的所有体素特征，并在相同的位置对其进行求和。

为了选择关键体素，我们使用heatmap操作，该操作基于稀疏体素特征F2D预测Cls类的体素得分Score。我们将最靠近目标中心的体素指定为阳性样本，并使用Focal Loss进行监督。这意味着得分较高的体素属于前景的概率较高。随后，我们将top-分数操作应用于，以获得Nkey稀疏体素候选。这里，被设置为默认值500。

2）不同尺度体素特征的融合：在本节中，我们构建了一个K近邻图，以获取不同尺度下稀疏候选体素的邻域信息，从而获得更全面的局部上下文，解决了稀疏特征信息表示能力不足的问题。

在稀疏关键体素选择之后，我们得到了稀疏体素的特征，记为。相应的坐标位置索引被定义为Ikey，形状为（，2），表示2D位置索引。我们首先将体素在S4尺度上的位置坐标（表示为Is4）分别除以2和4，将其转换为{S5，S6}的低分辨率体素空间。然后，我们将相应的空间坐标索引保存为Is5、Is6。给定Nkey稀疏体素在不同尺度空间中的位置坐标信息，我们的目标是为每个关键体素找到K个最近的体素。的值随着缩放空间的变化而减半，这可以使用以下公式确定。

为了提高LMFA的效率，我们采用KD树算法来获得特定尺度Si下每个关键体素的邻居的索引。环视的邻域体素具有特征。然后，利用MLP来聚合相邻体素特征的特征，这是通过以下公式实现：

给定稀疏体素的编码多尺度特征，一种朴素的融合方法是将多尺度特征连接起来形成一个特征。然而，我们观察到，一些目标检测更多地依赖于来自特定尺度的信息，而不是来自所有尺度的信息。例如，低分辨率特征映射了关于小目标的漆信息。因此，与小目标相关的关键体素应该更有效地仅从高分辨率特征图中收集信息。

我们建议使用可学习的比例权重来自动选择每个关键体素Fkey的比例，如下所示

通过这种比例选择机制，与每个关键体素最相关的比例被柔和地选择，而来自其他比例的视觉特征被抑制。然后，我们根据Fkey的位置索引将Fkey放入中，得到增强的。我们的自适应融合的整个过程如图5所示。

Global Feature Aggregation

LMFA模块旨在通过使用最近邻位置关系动态聚合关键体素的邻域信息来学习目标周围的局部上下文信息。

尽管邻域体素特征的融合增强了前景稀疏体素特征表达能力，但LMFA模块在处理稀疏检测场景时仍然存在局限性。1）对于大目标，使用单个聚合稀疏体素作为目标检测的代理仍然会丢失信息，因为目标代理应该包含整个目标的信息，而不仅仅是局部区域的信息。2）LMFA忽略了整个场景和实例特征之间的潜在协作。例如，场景中的假阴性目标可以通过与共享相似语义信息的实例交互来增强其特征，从而得到潜在的纠正。因此，我们提出了GFA（全局特征聚合）模块，通过学习整个场景的全局结构和语义信息，进一步解决了LMFA模块的局限性。这使得SparseDet能够以局部和全局的方式利用目标的上下文信息来消除歧义，从而提高检测精度。

实验

1）LMFA和GFA模块的影响：本节讨论了在基线detectorsVoxelNeXt上进行的消融实验的结果，以评估SparseDet中每个组件的性能。表VI和表VII分别报告了KITTI和nuScenes 14子集的结果。表VI显示了KITTI上AP3D和APBEV的初始AP评分，分别为78.44%和87.10%。如表六所示，LMFA和GFA模块显著提高了硬级KITTI任务的性能，AP3D和APBEV分别提高了4.27%和3.35%。所有的改进都没有显著增加模型的参数或降低推理速度。

如表七所示，当使用LMFA模块时，SparseDet实现了出色的性能提升，这表明有效地聚合上下文信息可以更好地增强稀疏特征的表示能力，从而提高稀疏3D目标检测器的性能。这促进了场景和实例特征之间的协作，从而产生了更丰富、更准确的目标表示。当LMFA和GFA结合时，这种增强效果进一步增强，导致mAP改善2.4%，NDS改善1.3%。总之，我们的消融实验表明，SparseDet在具有挑战性的数据集上有效地提高了基线的性能。研究结果强调了上下文信息聚合在稀疏检测框架中的重要性，并为设计有效的聚合策略提供了宝贵的见解。

2）M数量的影响：选择相邻体素特征，以增强关键位置的特征表示，是LMFA模块的关键组成部分。在本节中，我们将讨论相邻体素数量M的选择及其相应的有效性。因此，我们为超参数M（相邻体素的数量）配置了不同的值，包括4、8、16和32。如表八所示，M值的变化对模型的性能没有显著影响。值得注意的是，当M设置为8时，我们的SparseDet模型达到了最高的mAP，而将M设置为16则可获得最佳的NDS性能。考虑到整体模型性能、推理时间、训练记忆和模型参数，我们最终将M设置为8作为默认值。

3）Nkey数量的影响：如表IX所示，我们对nuScenes验证数据集中LMFA模块内关键体素Nkey的数量进行了消融研究。我们在500、1000、1500和2000之间配置超参数Nkey的值。综上所述，随着Nkey值的增加，SparseDet的性能相应有不同程度的提高。从表中可以看出，模型的性能对Nkey的变化没有表现出很强的敏感性。虽然简单地增加Nkey的值可以提高模型的性能，但这是以降低推理速度为代价的。在权衡了模型的准确性和推理延迟后，我们最终选择500作为Nkey的默认值。

4）数量的影响：如表X所示，我们对nuScenes验证集GFA模块中的超参数NK，V进行了消融研究。我们在6000、8000、10000和12000之间配置超参数的值。值得注意的是，当的值设置为12000时，SparseDet的mAP和NDS得分最高，但推理速度最低。在权衡了模型的准确性和推理延迟后，我们最终将NK，V设置为10000作为默认值。

5）模型在不同距离下的性能：与dense检测器相比，稀疏检测器的一个关键优势是它们能够扩展模型的远程检测能力，而不会显著增加推理延迟。因此，对远距离目标的稳定检测是评估稀疏检测器性能的关键指标。为了更好地了解我们的SparseDet在长距离下的卓越性能，我们在表XI和表XII中提供了不同距离范围的性能指标。具体来说，与VoxelNeXt相比，我们的指标显示出更显著的改善，特别是在20-40m和40m-inf的距离范围内。例如，在KITTI 40m-inf下的3D检测中，我们的SparseDet将AP3D提高了9.28%。在40m-inf的BEV检测中，我们的SparseDet将APBEV提高了9.40%。在nuScenes数据集上，在40m-inf的检测中，我们的SparseDet在mAP和NDS上分别提高了4.1%和3.6%。这些结果清楚地反映了我们的SparseDet模型在远程检测方面的优势。

在图6中，与VoxelNeXt相比，我们以KITTI中汽车类0-70.4m的检测范围为例，说明了我们的SparseDet在远程/远距离目标检测方面的优越性。根据该图，我们的SparseDet有一个假阳性结果，但没有遗漏实例。其中，VoxelNeXt存在远距离目标丢失的问题。这可以归因于Our SparseDet充分利用了点云中的多尺度上下文语义信息，这对于稀疏点云中的远程目标至关重要，因为这些目标通常因缺乏信息而较弱。总体而言，我们的方法在远程目标检测的精度方面有了显著提高。

结论

在这项工作中，我们提出了SparseDet，这是一个简单有效的全稀疏3D目标检测框架。具体来说，基于VoxelNeXt，我们设计了一个高效的稀疏检测框架，更合理地使用实例级和场景级点云上下文信息。这显著增强了目标代理的表达能力，从而大大提高了稀疏检测器的检测性能。综合实验结果表明，与KITTI和nuScenes数据集上的基线相比，SparseDet显著提高了性能。我们希望我们的工作能够为自动驾驶的稀疏检测器提供新的见解。

目前，稀疏3D检测器的研究工作还不足以满足多模态3D检测等其他方向的需求。这使得3D稀疏框架的比较方法受到限制。然而，对于现实世界的应用程序，模型的延迟非常重要。因此，对全稀疏快速detectors的研究需要更多的关注和重点。

参考

[1] SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频