SparseFusion：用于多传感器3D目标检测的多模态融合稀疏表示-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料！

作者｜Garfield

编辑｜自动驾驶之心

自动驾驶汽车依赖于多个传感器，例如激光雷达和摄像头，以感知周围环境。激光雷达传感器通过具有xyz坐标空间中的点的点云提供准确的三维场景占用信息，而摄像头通过在RGB颜色空间中具有像素的图像提供丰富的语义信息。然而，由于激光雷达传感器使用360度旋转捕获点云，而摄像头从透视视角捕获图像而没有深度感，因此两个传感器获取的同一物理场景的表现经常存在显著差异。这妨碍了激光雷达和摄像头模态的有效和高效融合。为了解决这个挑战，提出了多传感器融合算法，用于找到多模态数据之间的对应关系，将它们转换和融合成一个统一的场景表示空间。

自动驾驶中的密集的representation，如鸟瞰图（BEV）、体积和点表示，通常用于表示3D场景。大多数先前的工作通过对齐低级数据或高级特征来融合不同的模态，以产生描述整个3D场景的密集特征，如图1b所示。然而，对于3D物体检测任务，这些密集表示是多余的，因为我们只关心占据3D空间一小部分的实例/物体。此外，噪声背景可能对物体检测性能有害，将不同的模态对齐到相同的空间是一个耗时的过程。例如，从多视图图像生成BEV特征需要在GPU上花费时间。

如上表所示，本文对每种LiDAR-相机融合方法进行了分类，包括使用的LiDAR候选和相机候选、用于将这些候选融合到统一空间的变换过程以及用于表示3D场景的融合输出。根据这些组件，我们将这些方法分为以下几类：

Dense+Sparse→Dense方法将图像中的稀疏区域建议与稠密的锥体点云对齐，并将它们融合到稠密的点空间中。
Dense+Dense→Dense方法将点云中的每个点特征与图像中对应的像素特征对齐，并使用点云/BEV特征等稠密特征表示3D场景。
Sparse+Dense→Sparse方法通过检测点云中的实例特征生成稀疏查询，然后使用稠密图像特征进行交叉注意力。
Dense+Dense→Sparse方法使用结合来自每种模态的稠密特征的查询来预测物体。
Sparse+Sparse→Sparse（本文方法）从每种模态中提取稀疏实例特征，并直接融合它们以获取用于检测的最终稀疏实例特征。

根据这个表，我们可能会好奇一个问题：现有 LiDAR 相机 3D 目标检测方法的四个重要组成部分是什么，为什么寻找密集候选目标和生成密集表示时会产生噪声且效率低下？现有的LiDAR-摄像头三维物体检测方法的四个重要组成部分是LiDAR和摄像头候选框、变换和融合输出。现有的方法要么找到密集候选框，要么生成场景的密集表示。然而，寻找密集候选框和生成密集表示是有噪声和低效的，因为物体仅占场景的一小部分。本文中所提出的SparseFusion方法独家使用稀疏候选框和稀疏表示来解决这个问题。

相比之下，稀疏表示更有效率，基于它们的方法在多传感器3D检测方面取得了最先进的性能。这些方法使用目标查询来表示场景中的实例/物体，并与原始图像和点云特征进行交互。然而，大多数先前的工作没有考虑从不同模态得到的特征之间的显著领域差距。查询可能从一个模态中收集信息，该模态与另一个模态存在较大的分布偏移，使得具有大间隔的模态之间的迭代交互不够优化。最近的工作缓解了这个问题。然而，此方法所执行的计算量随着特征维度的增加呈二次增长，因此效率较低。我们通过识别四个关键组件将先前的工作分为四个组，并在表1中概述了这些组中方法的进一步讨论。本文提出一种新的方法，SparseFusion（图1c），可以同时利用稀疏候选和产生稀疏表示，实现高效和有效的3D物体检测。SparseFusion是第一个仅使用稀疏候选和稀疏融合输出进行3D检测的LiDAR-摄像头融合方法。我们强调了两种模态之间的一个关键共同点：代表同一3D场景的图像和点云将包含大部分相同的实例/物体。为了利用这种共性，我们在两个并行分支中对每个模态的输入执行3D物体检测。然后，每个分支的实例特征被投影到统一的3D空间中。由于实例级特征是同一场景中相同目标的稀疏表示，我们能够使用轻量级注意力模块以软方式融合它们。这种并行检测策略允许LiDAR和相机分支分别利用点云和图像表示的独特优势。然而，每个单模态检测器的缺点可能会在融合阶段导致负传递。例如，点云检测器可能由于缺乏详细的语义信息而难以区分站立的人和树干，而图像检测器则难以由于缺乏准确的深度信息而在3D空间中定位物体。为了缓解负传递的问题，我们引入了一种新颖的跨模态信息传递方法，旨在弥补缺陷。

3. 方法

对于多传感器3D检测问题，本文提出了一种名为SparseFusion的新型方法，它仅使用稀疏candidates和representations。该方法通过在LiDAR和相机分支中使用特定于模态的物体检测来获取每种模态的稀疏候选。相机分支生成的实例级特征被转换到LiDAR分支生成的实例级特征的LiDAR空间中。通过轻量级的自注意力模块，将多模态候选融合到统一的3D空间中。为了减轻模态之间的负面传递效应，本文提出了新颖的语义和几何跨模态传递模块，这些模块在特定于模态的检测器之前应用。

3.1 Sparse Representation Fusion

Sparse Representation Fusion的步骤包括：

利用LiDAR和摄像头模态中并行检测器的输出作为融合的稀疏候选框：将LiDAR和摄像头模态中并行检测器的输出作为融合的稀疏候选框的过程包括利用LiDAR和摄像头模态中并行检测器的输出作为融合的稀疏候选框。具体而言，SparseFusion利用LiDAR和摄像头模态中并行检测器的输出作为融合的稀疏候选框。然后，这些稀疏候选框通过轻量级自注意力模块转换为统一的三维空间。这样可以在统一的三维空间中融合多模态候选框。为了减轻模态之间的负面转移，应用了新颖的语义和几何跨模态转移模块，这些模块应用在模态特定的检测器之前。
通过分离物体表示将摄像头候选框转换为LiDAR坐标空间：将摄像头候选框转换为LiDAR坐标空间并分离物体表示的过程，包括将摄像头候选框转换为LiDAR坐标空间并分离物体表示。这样做是为了确保两种模态的候选框都表示相同的LiDAR坐标空间中的边界框和视角不变的类别。该过程包括对摄像头候选框的分布进行建模，并将其转换为LiDAR坐标空间。这是通过对每个物体在BEV平面上与位置embedding指示的参考点之间的中心offset进行回归来实现的。然后，生成的候选框与LiDAR候选框连接起来，形成一个统一的稀疏候选框集合，用于融合。
通过轻量级自注意力模块在统一的三维空间中融合多模态候选框:通过轻量级自注意力模块在统一的三维空间中融合多模态候选框的过程包括将LiDAR和摄像头候选框连接起来，并将它们输入自注意力模块。自注意力模块学习候选框之间的关系，并生成一组融合的实例特征。通过使用MLP将XY框中心在BEV上进行编码，将一个学习得到的位置嵌入添加到实例特征中。最后，将LiDAR视角预测头连接到融合的实例特征上，以预测目标类别和3D LiDAR视角边界框作为最终结果。
在模态特定的检测器之前应用新颖的语义和几何跨模态转移模块，以减轻模态之间的负面转移:为了减轻模态之间的负迁移，在特定模态检测器之前应用了新的语义和几何跨模态迁移模块。这些模块旨在以一种保留被检测目标的语义和几何属性的方式在模态之间传输信息。语义传输模块旨在在模态之间传输高级语义信息，而几何传输模块旨在传输低级几何信息。通过在模态特定检测器之前应用这些传输模块，减少了模态之间的负传输，从而提高了检测性能。

3.2 Cross-Modality Information Transfer

跨模态信息传输是在不同传感器模态（例如 LiDAR 和相机）之间传输信息的过程，以提高 3D 目标检测的准确性。在 SparseFusion 中，在模态特定检测器之前应用新颖的语义和几何跨模态传输模块，以减轻模态之间的负迁移。语义传输模块在模态之间传输高级语义信息，而几何传输模块传输低级几何信息。通过应用这些传输模块，减少了模态之间的负传输，从而提高了检测性能。

3.3 Objective Function

目标函数是在训练 3D 目标检测模型期间优化的数学函数。在 SparseFusion 中，目标函数是分类和回归损失的组合。分类损失是使用焦点损失函数计算的，该函数旨在解决目标检测中的类不平衡问题。回归损失是使用平滑的 L1 损失函数计算的，与 L2 损失函数相比，它对异常值的敏感度较低。使用带有学习率计划的随机梯度下降 (SGD) 优化整体目标函数。其形式如下：

焦点

其中分别是激光雷达和相机模态的类别热图的密集预测；, 是相应的ground truth。

4. 实验

对于数据集和metrics，本文在nuScenes数据集上评估提出的的方法。这是一个具有挑战性的三维物体检测数据集，包括700/150/150个用于train/validation/test的场景。它提供了使用32束LiDAR和多视角相机采集的点云和六张图像。对来自10个不同类别的目标进行了1.4百万个注释的三维边界框。我们使用nuScenes检测分数(NDS)和平均精度(mAP)指标来评估性能。最终的mAP在BEV上距离阈值0.5m、1m、2m和4m上跨越10个类别进行平均。NDS是mAP和其他真正的正样本指标（包括mATE，mASE，mAOE，mAVE和mAAE）的加权平均值。

在SparseFusion中，作者通过分离高维边界框表示来实现有效的模态转换。这是因为在多传感器三维检测中，不同的模态通常具有不同的数据结构和特征，直接融合它们的原始数据往往很困难。通过分离高维边界框表示，我们可以提取在模态之间共享的公共特征，并将它们用于融合。因此，SparseFusion在nuScenes基准测试中实现了最先进的性能，同时也具有最快的速度，甚至超过了具有更强骨干网络的方法。SparseFusion显著提高了仅使用LiDAR的基线模型TransFusion-L，在测试集上的NDS和mAP分别提高了3.6%和6.3%，这要归功于额外使用了摄像头输入。SparseFusion在验证集和测试集上均创造了新的最先进水平，超过了使用更强骨干网络的先前方法。值得注意的是，SparseFusion在实现1.8倍加速（5.6 FPS vs. 3.1 FPS）的同时，比最近的最先进水平提高了0.4%的NDS和1.0%的mAP，这是非常显著的成果。

根据可视化的角度，在融合阶段的实例级特征交互中，橙色框表示在BEV空间中经过融合阶段高置信度检测到的目标实例。蓝色和绿色的点分别表示LiDAR和相机分支中的所有实例。橙色框与蓝色/绿色点之间用蓝色/绿色线连接。线的深浅和粗细表示注意力强度。可以发现提出方法的优越性。

5. 讨论

SparseFusion与现有的多传感器三维检测方法不同，它专门使用稀疏候选框和稀疏表示，而现有方法要么找到密集的候选框，要么产生场景的密集表示。SparseFusion利用LiDAR和摄像头模态中并行检测器的输出作为融合的稀疏候选框。摄像头候选框通过分离物体表示转换为LiDAR坐标空间，然后通过轻量级自注意力模块在统一的三维空间中融合多模态候选框。为了减轻模态之间的负面转移，应用了新颖的语义和几何跨模态转移模块，这些模块应用在模态特定的检测器之前。SparseFusion在nuScenes基准测试中实现了最先进的性能，同时运行速度最快，甚至超过了具有更强backbone的方法。

该论文确实没有明确提到SparseFusion方法的具体限制。但是，像任何研究工作一样，实施或应用该方法时可能会出现限制或挑战。关于未来的研究方向，该论文建议通过探索更有效的方法来结合来自不同模态的稀疏表示来改进所提出的方法的性能。这表明所提出的方法可能仍有改进和进一步改进的空间，未来的研究可以集中于解决这些问题。此外，该论文还建议将所提出的方法扩展到处理更复杂的场景和更多的物体，这可能是另一个潜在的研究方向。

6. 结论

SparseFusion是一种新颖的多传感器三维检测方法，利用了很少被探索的融合稀疏表示的策略。SparseFusion通过并行的三维物体检测器分别从每种模态提取实例级特征，并将实例级特征视为模态特定的候选框。然后，我们将候选框转换为统一的三维空间，并使用轻量级注意力模块融合候选框。广泛的实验证明，SparseFusion在nuScenes基准测试中实现了最先进的性能，并具有最快的推理速度。我们希望SparseFusion将成为进一步研究这一领域的强大而高效的baseline。

视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！