真正的多模态学习？北航&小米新作MV2DFusion！

最新推荐文章于 2024-08-19 14:42:59 发布

自动驾驶之心

最新推荐文章于 2024-08-19 14:42:59 发布

阅读量359

点赞数 3

文章标签：学习

本文链接：https://blog.csdn.net/CV_Autobot/article/details/141339795

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享北航&小米名为MV2DFusion的多模态检测框架。全面利用模态特定的目标语义，实现了全面的多模态检测！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『BEV感知』技术交流群

论文作者 | Zitian Wang等

编辑 | 自动驾驶之心

内容速览

提出了一个名为MV2DFusion的多模态检测框架，全面利用模态特定的目标语义，实现了全面的多模态检测。在nuScenes和Argoverse 2数据集上验证了框架的有效性和效率。
该框架能够灵活地与任何模态检测器配合使用，可以根据部署环境选择最合适的检测模型，以实现更好的性能。
由于融合策略的稀疏性，框架在远程场景中提供了一个可行的解决方案。

论文信息

题目：MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection
作者：Zitian Wang, Zehao Huang, Yulu Gao, Naiyan Wang, Si Liu
机构：北京航空航天大学人工智能研究所和小米汽车
原文链接：https://arxiv.org/pdf/2408.05945v1

摘要

随着自动驾驶车辆的发展，对稳定精确的三维目标检测系统的需求日益增长。尽管相机和激光雷达（LiDAR）传感器各自具有其独特的优势——例如相机能提供丰富的纹理信息，而激光雷达则能提供精确的三维空间数据——但过分依赖单一的传感模态常常会遇到性能上的局限。本文提出了一个名为MV2DFusion的多模态检测框架，它通过一种先进的基于查询的融合机制，整合了两种传感器的优势。该框架引入了图像查询生成器来对齐图像特有的属性，并通过点云查询生成器，有效地结合了不同模态下目标的特定语义，避免了对单一模态的偏好。基于这些宝贵的目标语义，能够实现基于稀疏表示的融合过程，确保在多样化的场景中都能进行高效且准确的目标检测。作者所提出的框架在灵活性方面表现出色，能够与任何基于图像和点云的检测器集成，显示出其适应性以及未来发展潜力。在nuScenes和Argoverse2数据集上的广泛评估结果表明，MV2DFusion在多模态3D检测方面达到了最先进的性能，特别是在长距离检测场景中表现突出。

文章简介

自动驾驶车辆的发展极大地推动了对三维目标检测技术的需求。不同的传感器，如相机和激光雷达（LiDAR），基于其成像原理的不同，能够捕获现实世界中物体的不同特征。这些不同模态的固有特性使它们能够从不同的视角区分物体。例如，物体在图像中以富含纹理的像素区域呈现，而在点云中则以一组3D点的形式呈现。近年来，无论是基于相机的检测还是基于激光雷达的检测，都取得了显著的进展。然而，依赖单一传感模态的检测方法存在其固有的局限性。图像缺乏深度信息，无法指示物体的三维位置；而点云则缺少丰富的语义信息，且在捕捉远距离物体时因稀疏性而受限。

为了充分发挥两种传感模态的优势，研究者们提出了多模态融合方法，旨在结合两种模态的优势。当前的多模态融合方法主要分为两大类：特征级融合和提议级融合。特征级融合方法通过构建统一的特征空间，提取不同模态的特征以形成多模态特征体。例如，DeepFusion和AutoAlign利用点云特征查询图像特征，增强了点云特征的表示。BEVFusion将图像和点云特征转换到鸟瞰图（BEV）空间并进行融合。CMT不构建统一的特征空间，而是采用统一的注意力机制来聚合图像和点云特征。尽管特征级融合方法在目标识别和定位方面表现出直观的优势，但它们并未完全挖掘原始模态数据中嵌入的目标先验信息，有时甚至会在融合过程中损害强烈的模态特定语义信息。

与此相对，提议级融合方法利用特定于模态的提议，以最大限度地利用模态数据。例如，F-PointNet将检测到的图像边界框转换为截头锥体，以便从点云中提取物体。FSF和SparseFusion首先分别从图像和点云中生成提议，然后将它们统一为基于点云的实例表示，以进行多模态交互。然而，在这些方法中，表示往往会偏向于某一模态，如在FSF中相机提议主导了多模态融合过程，而在SparseFusion中，图像提议实质上被转换为与点云提议相同的表示。

为应对这些挑战，本文提出了一个名为MV2DFusion的多模态检测框架。该框架扩展了MV2D以纳入多模态检测，采用目标即查询的设计，便于自然地扩展到多模态环境。作者重新设计了图像查询生成器，使其更贴合图像模态的特性，引入了不确定性感知的图像查询，以保留图像中的目标语义，并继承了丰富的投影视图语义。通过引入点云查询生成器，作者还能够获取来自点云的目标语义，并将其与图像查询结合。然后，通过注意力机制进行融合过程，从而轻松地整合来自两种模态的信息。

本文提出的框架设计精心，充分利用了模态特定的目标语义，不受特定表示空间的限制。此外，它还允许集成任何类型的图像检测器和点云检测器，展示了框架的通用性和扩展性。得益于融合策略的稀疏性，作者的框架也适用于远程场景，避免了内存消耗和计算成本的二次增长。通过最小的修改，该框架还可以轻松地结合基于查询的方法，有效利用历史信息，如StreamPETR。作者在nuScenes和Argoverse 2等大规模三维检测基准上评估了作者提出的方法，实现了最先进的性能。

作者的贡献可以概括为：

提出了一个框架，全面利用模态特定的目标语义，实现了全面的多模态检测。在nuScenes和Argoverse 2数据集上验证了框架的有效性和效率。
该框架能够灵活地与任何模态检测器配合使用，可以根据部署环境选择最合适的检测模型，以实现更好的性能。
由于融合策略的稀疏性，框架在远程场景中提供了一个可行的解决方案。

总结来说，作者的方法在多模态三维检测方面取得了进步，提供了一个既稳健又多功能的解决方案，充分利用了相机和激光雷达两种传感模态的优势。

详解MV2DFusion

概述

图 1 展示了 MV2DFusion 的整体流程。该模型接收个多视角图像和点云数据作为输入，并通过独立的图像和点云网络主干提取各自的特征。利用这些特征，模型分别应用 2D 图像检测器和 3D 点云检测器，得到各自的检测结果。然后，基于这些特征和检测结果，生成图像查询和点云查询，这些查询随后输入到融合解码器中。在解码器中，查询会整合两种模态的信息，进而生成 3D 预测结果。以下各节将详细描述每个部分的详细信息和设计原则。

图1. 提出的MV2DFusion框架结构。该模型接收多视图图像和点云作为输入，通过独立的图像和点云主干网络提取模态特征。同时，应用基于图像的2D检测器和基于点云的3D检测器于这些特征上，得到各自的检测结果。然后，根据模态特征和检测结果，由各自的查询生成器生成图像查询和点云查询。最终，这些查询和特征输入到融合解码器中，在查询更新后整合两种模态的信息，形成3D预测。

利用模态特定的目标语义

作者设计了一种融合策略，它能够在不偏向任何单一模态的情况下，挖掘并融合不同模态中的原始信息。具体来说，作者不是在 3D 空间中直接表示和融合整个场景，而是通过提取并融合各自模态的目标语义来进行多模态 3D 检测。这种策略不仅保留了每种模态的独特优势，而且通过稀疏性降低了计算成本和内存使用。

来自模态特定专家的目标提议

首先，作者分别对图像和点云模态采用独立的网络主干进行特征提取。图像模态通过带有特征金字塔网络（FPN）的图像主干网络，从多视角图像中提取出特征集合。这些特征集合捕捉了图像中丰富的纹理信息，为2D检测任务奠定了基础。对于点云模态，点云主干网络则提取点云数据的体素特征，这些特征直接反映了物体在三维空间中的几何形状和分布。在特征提取阶段，图像分支和点云分支独立运作，没有进行信息交互，这样做的目的是为了保留每种模态信息的独特性质。

基于这些特征，作者进一步利用模态特定的检测专家来识别和生成目标提议。在图像分支中，作者可以使用任意结构的2D检测器，包括基于锚点或无锚点的检测器，以及两阶段或一阶段的检测策略。这些检测器为每张图像生成一组2D边界框集合，每个边界框由其在图像上的坐标定义。而在点云分支中，作者采用稀疏检测器直接在体素上操作，这些检测器能够处理稀疏的三维数据，并生成一组3D边界框，每个边界框由其在三维空间中的位置和尺寸定义。

通过这种独立且互补的方法，作者能够有效地整合来自不同模态的信息，为多模态3D检测任务提供了丰富的特征表示和精确的目标提议。这种策略不仅保留了每种模态的独特优势，而且通过稀疏性降低了计算成本和内存使用，为实现高效和准确的3D检测提供了可能。

从专家系统中提取目标级语义

尽管两种检测结果都为识别目标提供了宝贵的线索，但它们的表现形式本质上是不同的。基于点云的3D检测在3D空间中呈现，而基于图像的2D检测则在投影的2D空间中呈现。这种巨大的领域差异导致直接融合这些信息变得困难。在本文中，作者提出从检测结果中提取目标级语义信息，而不是直接融合原始的检测结果。

由于点云通常沿着目标表面分布，它们擅长准确捕捉目标的形状和姿态。但与点云不同，图像中无法直接推断出目标的3D姿态。相反，目标在图像平面中的分布可以作为3D定位的线索，考虑到投影原理。另一方面，图像像素可以描述具有丰富纹理的目标，即使在远处点云可能无法捕捉到目标的地方。

考虑到这些不同的特点，作者采用目标查询的形式来编码每种模态的目标级语义，然后可以无缝集成多模态信息。在现代基于变换器的检测框架中，每个目标查询通常由两部分组成：内容部分和位置部分。在获得基于图像的检测结果和基于点云的检测结果后，作者根据边界框和相应的模态特征构建目标查询。作者将在以下部分详细描述每种模态的目标查询生成过程。

点云目标查询的生成

在基于点云的3D检测中，检测结果直接在三维空间中给出，为此作者采用了表示目标实际位置的中心点作为查询的位置部分。对于查询的内容部分，作者融合了外观和几何特征。点云查询由以下公式定义：

点云查询生成器的详细过程如图2所示。

图2. 点云查询生成器的说明图。为简化起见，省略了一些上标和下标。

外观特征的具体形式依赖于所使用的检测器类型。例如，在基于中心点的检测器中，外观特征是每个体素网格内的值；在两阶段检测器中，则是感兴趣区域（RoI）特征。在作者的实现里，使用的是一个稀疏点云的3D检测器，因此外观特征即为体素特征，这些特征直接用于生成预测结果。几何特征则被视为目标的物理属性，例如大小和航向角，这些在检测结果中有明确的表示。内容部分的计算公式如下：

这里的表示正弦位置编码，它负责将低维向量转换成高维特征以便于处理。

图像目标查询的生成

生成图像查询的一种直观方法是使用基于图像的3D检测器，并将检测到的目标实例转换为图像查询。这样，作者可以方便地获得与点云查询格式一致的图像查询，从而促进多模态之间的信息融合。然而，由于不同模态之间的固有差异，强制它们采用相同的查询格式可能会影响性能。特别是，从图像中估计深度存在一定的不确定性，这可能会导致3D预测出现较大的误差，进而影响图像查询的特征质量和定位准确性。为了解决这个问题，作者引入了一种新颖的基于2D检测的不确定性感知图像查询。

对于第个摄像机视图生成的查询，其内容部分是包含了几何信息的兴趣区域（RoI）外观特征。至于位置部分，作者不采用以往工作中的估计目标中心，而是保留图像中深度估计的不确定性。具体来说，作者通过概率分布而非确定值来表示查询位置。这些分布通过分类分布来建模，包括个采样位置及其对应的概率。

第个摄像机视图的图像查询表示为。所有摄像机视图的图像查询聚合为：

采用这种不确定性感知的图像查询表示，作者可以对目标位置做出初步估计，并减轻由相机到世界坐标系投影带来的误差。具体的处理流程如图3所示。

图3. 图像查询生成器的说明图。为简化起见，省略了一些上标和下标。

给定第个图像的2D检测结果和图像特征图，图像查询生成器首先通过RoI-Align提取RoI目标外观特征：

此外，作者还引入了相机内参矩阵以补充RoI-Align过程中丢失的几何信息。原始的相机内参矩阵表示为：

然后，作者定义从相机坐标系到第个2D边界框的投影的等效相机内参矩阵：

其中，。

图像查询的内容部分由外观特征和几何信息参数化：

至于位置部分，作者在预定义的深度范围内均匀采样得到深度集合。然后预测一组2D采样位置和相应的概率：

通过2D采样位置和深度值，作者可以得到3D采样位置，通过相机到世界坐标系的投影。

注意，基于分布的编码格式虽然与LSS有相似之处，但它实际上并没有将查询特征分布到3D空间中。这种编码方式不仅节省了计算资源和内存，而且在深度预测不准确时提高了模型的鲁棒性。此外，它还为后续进一步细化位置提供了机会，这将在后续部分进行讨论。

融合模态信息

本节介绍如何融合不同模态的信息以提升检测性能。作者借鉴了检测变换器（Detection Transformer, DETR）的思想，采用解码器结构进行模态信息融合和结果预测。该解码器包含L层，每层由自注意力模块、交叉注意力模块、层归一化、前馈网络和查询校准层组成。作者将点云查询和图像查询结合作为解码器的输入。初始输入查询表示为，经过第l层后的查询表示为。

以下是各模块的详细描述：

自注意力机制

如公式（1）和公式（3）所述，模态查询具有不同的表达形式，即和。为使它们能够与标准的自注意力层兼容，作者保留了内容部分，并把位置部分转换成一致的表示形式。作者采用了位置编码(Positional Encoding, PE)方法和不确定性感知位置编码(Uncertainty-Aware Positional Encoding, U-PE)方法，分别为每种模态生成了位置编码和：

在位置编码（PE）中，是从中心点生成的：

其中 SinPos 表示正弦位置编码。在不确定性感知位置编码（U-PE）中，作者先将转换成基础位置编码，然后通过门控操作将概率分布融合进中：

这里的 Flat() 是指展平操作，表示元素级的乘法，σ 是 Sigmoid 函数。根据多头注意力（Multi-Head Attention, MHA）的标准表示，自注意力可以表达为：

其中是和连接起来的位置编码，是内容编码。这个公式可以简化表示为：

跨模态注意力

尽管在自注意力层中仅通过查询间的信息交换已经能够得到相当不错的预测结果，实验表明，在变换器解码器中加入跨模态注意力层可以进一步带来性能上的提升，尽管这会使得模型的复杂度增加。跨模态注意力层的核心目标是整合各自模态特有的有用特征，以此来更新查询，这一过程在图4中有所展示。

图4. 交叉注意力层的演示。点云查询和图像查询聚合多模态特征以获取有用信息。这两种查询在与特征交互之前各自经过处理。

对于图像特征的处理，作者采用了基于投影的可变形注意力机制。具体操作是，首先确定每个查询的锚点。对于点云查询，其锚点直接对应于它们的三维空间位置。而图像查询的锚点是根据概率分布对采样位置加权平均后得到的。对于第个图像查询，其锚点的计算公式为：

基于投影的可变形注意力的计算方法如下：

在这个公式中，注意力权重和偏移量是根据内容部分预测得到的。代表采样点的总数，表示从世界坐标系到相机坐标系的投影，而代表查询的模态（可以是图像或者点云）。对于点云特征，如果模型接受的是BEV（鸟瞰图）形式的点云特征，可以采用类似的可变形注意力操作来实现信息交换。在当前实现中，点云特征由稀疏体素构成，形成了一个完全稀疏的模型。在这种情况下，作者使用标准的多头注意力机制来聚合点云特征。通过柱状化（例如，沿高度方向进行平均池化）处理以生成内容部分。柱特征的位置编码根据BEV位置生成：

查询校准

通过参考其他查询和模态特征，每个查询能够对其代表的目标做出更加精确的描述。由于不同模态的特性差异，作者认为图像查询的位置信息相对不够可靠，而点云查询的位置信息则更为准确。为此，作者在每个解码器层之后对图像查询进行校准，利用更新后的特征来精细化图像查询的位置，并减少由于不确定性带来的影响。在这个过程中，仅对概率分布进行细化，而保持采样位置不变。具体来说，最新的概率分布是通过在旧概率分布上进行残差加法得到的。细化操作在对数概率空间中而非概率空间中完成，这样可以更稳定地进行更新。这一过程可以用以下公式表示：

查询校准层的操作将会影响到位置编码以及锚点。

模型输出

经过最终解码层的处理，作者得到了目标查询，随后通过分类头和回归头对其进行处理，以产生模型的最终输出。具体来说，作者利用上下文特征来计算分类得分：

对于回归目标，作者关注的是目标的位置、尺寸、旋转以及在需要时的速度（包括坐标、表示的宽度、长度和高度，以及旋转角和速度向量）。回归过程基于上下文特征和锚点来实现：

其中，表示在回归公式中添加了一个零偏置项，以保持与原始锚点位置的一致性。

时序信息的利用

为了增强模型对时序信息的捕捉能力，作者采用了一种高效的基于查询的时序融合方法，该方法的计算成本极低。具体实施策略是，作者维护了一个大小为的历史查询队列来记录历史信息。在完成当前帧的预测任务后，作者将得分最高的个目标查询加入到中，使得这个队列能够反映过去帧的历史数据。历史查询队列随后被整合到自注意力层的处理中。首先，作者利用时间延迟、自我姿态以及速度对历史查询进行变换：

这里的是一个小型网络，负责对相关的时间信息进行编码。变换后的查询作为自注意力机制中的额外的键值对参与计算。因此，公式（16）中的自注意力计算更新为：

损失函数

在作者的MV2DFusion框架中，模态特定的查询生成器能够与任何类型的基于图像的2D检测器和基于激光雷达的3D检测器无缝配合。这些检测器可以无需任何结构或损失函数的修改即可集成进作者的模型。它们预先训练好，以提供动态查询的优良初始化，并可在训练阶段与作者的模型联合训练。在此，作者将基于图像的2D检测器的原始损失函数记作，基于激光雷达的3D检测器的原始损失函数记作。对于融合解码器层的输出，作者继承了DETR中目标分配和损失函数的设计理念。作者采用匈牙利算法[62]来进行标签的分配，并使用焦点损失进行目标分类，以及L1损失进行边界框回归。最终的3D目标检测损失可以表示为：

除了目标检测的标准损失之外，作者还为图像查询生成器引入了额外的辅助监督，以改进深度估计。对于第幅图像预测的2D边界框以及从真实3D边界框投影得到的2D边界框，作者首先计算它们之间的成对交并比(IoU)矩阵，定义为。如果2D区域成功地与目标匹配，那么由图像查询生成器输出的深度分布将受到目标深度的辅助损失的监督：

这里的CELoss代表交叉熵损失。MV2DFusion的总体损失函数整合了上述所有损失，表示为：

各种损失项的权重是根据经验设定的，用以平衡它们在总损失中的相对重要性。

实验分析

数据集

nuScenes

作者在 nuScenes 数据集上开展实验，该数据集包含1000个场景。每个场景均配备由6个摄像头捕获的RGB图像，实现了360度的水平视场，同时结合了激光雷达数据。数据集中涵盖了10个不同类别的140万个3D边界框。作者依据数据集提供的评价指标进行性能评估，包括平均精度均值（mAP）和nuScenes检测分数（NDS）。

Argoverse2

作者在 Argoverse 2（AV2）数据集上进行了大量远程检测实验，以证明作者模型在远程检测任务上的优势。AV2是一个大规模数据集，感知范围可达200米，区域大小为400米×400米。该数据集共包含1000个序列，其中700个用于训练，150个用于验证，150个用于测试。每个序列通过7个高分辨率摄像头以20Hz的频率和1个激光雷达传感器以10Hz的频率记录。AV2在评估中除了使用平均精度（mAP）指标外，还采用了综合检测分数（CDS），该分数综合了AP和定位误差。

实现细节

MV2DFusion 默认使用 Faster R-CNN 结合 ResNet-50 作为基于图像的2D检测器，以及 FSDv2 作为基于点云的3D检测器。在基于图像的2D检测中，作者限制每张图像最多检测60个目标，而在基于点云的3D检测中，允许最多检测200个目标。作者保留了模态检测器的原始流程和超参数，以凸显作者方法的通用性。融合解码器共包含6层。所有实验在8个 Nvidia RTX-3090 GPU 上进行。所有模型均采用 AdamW 优化器进行训练，权重衰减设为0.01，并采用余弦退火策略，初始学习率设为。默认批量大小为16。

在 nuScenes 验证集上的实验中，输入图像分辨率设为1600×640，体素尺寸为(0.2, 0.2, 0.2)。作者使用了 nuImages 的预训练权重用于基于图像的检测器，以及 nuScenes 的预训练权重用于基于点云的检测器。为了防止过拟合，作者将基于点云的检测器冻结。整个模型在 nuScenes 训练集上训练了24个周期。在 nuScenes 测试集上的实验中，作者将基于图像的检测器更换为 Cascade R-CNN 结合 ConvNeXt-L，并在 nuScenes 训练集和验证集上训练整个模型48个周期，以获得更好的性能。

对于 AV2 数据集，输入图像分辨率设为1536×1184，体素尺寸为(0.2, 0.2, 0.2)。作者使用了 nuImages 的预训练权重用于基于图像的检测器，以及 AV2 的预训练权重用于基于点云的检测器。整个模型在 AV2 训练集上训练了6个周期。

与现有方法的比较

作者将 MV2DFusion 与其它最先进方法进行了比较。在 nuScenes 测试集和验证集上的结果分别展示在表1和表2中，而 AV2 验证集上的结果展示在表3中。

表1. nuScenes测试集上的性能对比。"-E"表示模型集成和测试时增强。作者的模型以灰色标出，加粗表示最佳性能。

表2. nuScenes验证集上的性能对比。作者的模型以灰色标出，加粗表示最佳性能。

表3. AV2验证集上的性能对比。†表示SparseFusion 的实现。"C"表示输入模态为相机，"L"表示输入模态为激光雷达，"CL"表示输入模态为相机和激光雷达。作者的模型以灰色标出，加粗表示最佳性能。

在 nuScenes 测试集上，作者的单模型方法达到了76.7%的 NDS 和 74.5%的 mAP，超越了所有先前的方法。与 FusionFormer相比，作者在 NDS 上提高了 1.6%，在 mAP 上提高了 1.9%。此外，与稀疏结构的 SparseFusion相比，作者在 NDS 上提高了 2.9%，在 mAP 上提高了 2.5%。在模型集成的情况下，作者的模型达到了 78.8%的 NDS 和 74.5%的 mAP，位列所有解决方案之首。这些结果展示了作者的模型在多模态3D检测性能上的显著优势。

在 nuScenes 验证集上，作者的模型使用 ResNet-50 作为主干网络，达到了 74.7%的 NDS 和 72.8%的 mAP。当使用 ConvNeXt-L作为主干网络时，性能提升到了 75.4%的 NDS 和 73.9%的 mAP。值得注意的是，即使使用了较弱的 ResNet-50主干网络，作者的模型也已经超越了当前的最先进水平。

在 AV2 数据集上，作者的方法达到了 48.6%的 mAP 和 39.5%的 CDS，显著超过了先前的方法。与基于激光雷达的最先进方法 FSDv2相比，作者的模型在 mAP 上提高了 10.6%，在 CDS 上提高了 9.3%。与多模态方法 SparseFusion相比，作者的性能提升了 8.8%的 mAP 和 8.5%的 CDS，并且在 mATE、mASE 和 mAOE 指标上也有显著的改进，证明了作者的方法在远程场景中的优越性能。

消融研究

本节中，作者在 nuScenes 验证集和 AV2 验证集上对 MV2DFusion 进行了消融研究。实验默认在 nuScenes 数据集上进行，除非另有说明。

图像分支的灵活性

MV2DFusion 兼容任何类型的2D和3D检测器。为了验证图像分支的灵活性，作者在表4中展示了不同检测器、不同图像分辨率和不同主干网络的实验结果。作者测试了三种2D检测器，包括单阶段检测器 YOLOX、双阶段检测器 Faster R-CNN和多阶段检测器 Cascade R-CNN。#2 至 #4 行展示了不同2D检测器的实验结果，证明了作者的框架能够适应不同类型的2D检测器。此外，通过比较 #1 和 #2 行，可以观察到更大的图像分辨率可以带来性能上的提升。从 #4 行和 #5 行的比较中可以看出，使用更强大的图像主干网络可以进一步提升性能，这表明在多模态环境中利用图像信息的重要性。

表4. 图像分支灵活性的消融研究。

激光雷达分支的灵活性

在表5中，作者比较了不同激光雷达检测器在模型分支上的表现。作者实验了包括两个稀疏检测器 FSDv2和 VoxelNeXt，以及一个密集BEV检测器 TransFusion-L在内的主流基于点云的3D检测器。实验结果表明，这些不同的激光雷达检测器都能很好地适应作者的框架，其中 FSDv2和 TransFusion-L的表现略优。为了与作者提出的稀疏融合策略相适应，作者选择 FSDv2 作为默认的基于点云的检测器。

表5. 激光雷达分支灵活性的消融研究。

模态鲁棒性消融研究

模态鲁棒性是融合方法在模态传感器失效时维持性能的关键特性。在表6中，作者验证了模型的模态鲁棒性。#1 行列出了在训练和评估中同时使用激光雷达和相机时的结果，这是作者的默认设置。#2 和 #3 行展示了在评估中缺少一种模态传感器的情况下的结果，尽管模型是使用两种模态训练的。相比之下，#4 和 #5 行展示了在训练和评估中使用相同模态传感器的情况下的结果。#2 和 #3 行的性能与 #4 和 #5 行相比有显著下降，这表明在传感器失效时存在较大风险。为了缓解这个问题，作者可以在训练中混合使用不同模态，即随机从[相机、激光雷达、相机和激光雷达]中选择输入模态，概率分别为[0.2, 0.1, 0.7]。如 #6 和 #7 行所示，在这种情况下，即使缺少激光雷达或相机传感器，模型仍然能够保持合理的性能。这些结果表明，通过增加单模态训练样本，可以有效地提高模态鲁棒性。将 #8 行与 #1 行进行比较，混合模态训练也在多模态场景中略微提升了性能。

表6. 模态鲁棒性的消融研究。"C"表示相机作为输入模态，"L"表示激光雷达作为输入模态，"CL"表示相机和激光雷达同时作为输入模态。

模态查询的消融研究

在本消融研究中，作者探讨了模态查询的不同表述方式对于模型性能的影响，结果详见表7。作者首先检验了在nuScenes和AV2数据集上，查询表述方式如何影响模型的表现。在图像查询中，作者沿用了MV2D中的点表达方式，即每个图像查询通过一个估算出的3D中心点来表示。在nuScenes数据集上，分布表达方式相较于点表达方式在NDS上提升了0.4%，在mAP上提升了0.3%，如表中的#1和#4行所示。而在AV2数据集上，分布表达方式的优势更加明显，CDS提升了2.2%，mAP提升了2.4%，如#5和#6行所示。这种性能上的显著提升可以归因于在长距离感知任务中，图像深度估计的困难性增加，此时点表达方式可能带来较大的误差。

表7. 模态查询的消融研究。"distribution"表示查询通过概率分布制定，"point"表示查询通过3D中心点制定。

此外，作者还评估了仅使用单一模态查询（即只有点云或只有图像查询）时的性能。结果表明，与使用两种模态查询相比，仅使用单一模态查询会导致性能下降，如表中的#1至#3行所示。这一发现证实了不同模态查询在提升整体检测性能方面的重要作用。通过这些消融实验，作者得出结论，有效的模态查询设计对于多模态3D检测框架的性能至关重要，而合理的模态融合策略可以显著提升模型对不同感知任务的适应性和鲁棒性。

解码器结构的消融研究

在本部分消融研究中，作者探讨了解码器结构对模型性能的影响，详细结果见表10。作者首先在#1至#4行中考察了不同层数的解码器对结果的效应。观察结果表明，总体上随着解码器层数的增加，模型的准确度也随之提升。但当比较3层与6层解码器时，性能的增加相对较少，这暗示了在超过3层之后，额外的层数对性能提升的贡献有所降低。

表10. 解码器结构的消融研究。

作者还评估了解码器中跨注意力层的作用，如#4行与#5行所示。移除跨注意力层会导致模型的NDS性能下降0.7%，mAP性能下降1.3%，这一发现强调了跨注意力层在增强解码器性能方面的重要性。尽管如此，即使在没有跨注意力层的情况下，模型依然能够维持74.0%的NDS和71.5%的mAP，这表明即使仅依赖于查询级别融合，作者的框架也能够实现可观的性能，从而证明了多模态查询设计的效率和鲁棒性。

历史信息的消融研究

在表11中，作者展示了历史信息对模型结果影响的消融研究。第1行结果未考虑历史信息。当作者纳入前6帧的历史信息时（第2行），NDS和mAP分别显著提升了1.6%和1.7%。第2行与第3行的对比揭示了增加历史查询数量可以进一步提升性能。特别是，扩展到12帧的历史信息，能够带来额外的0.2% NDS和0.3% mAP的性能增益，这表明模型能够从更丰富的历史信息中获益。

表11. 历史信息的消融研究。

内存成本比较

在表8中，作者对比了在nuScenes和AV2数据集上，作者的方法与传统的特征级融合方法BEVFusion的内存消耗情况。为了更全面地展示作者方法的效率，作者还实现了采用BEVPool V2技术的BEVFusion版本，该技术能显著加快视图变换过程。所有统计数据都是基于验证集的平均值。

表8. 不同数据集上内存成本的比较。

作者的模型在点云分支中仅产生稀疏的柱状特征，相较于BEVFusion的密集BEV网格特征，其特征规模更小。具体来说，与使用BEVPool V2技术的BEVFusion相比，作者的模型内存需求仅为其一半左右。在AV2这样的长距离数据集上，作者的柱状特征规模远小于BEVFusion的密集BEV特征规模。在保持相同分辨率的情况下，BEVFusion的内存消耗超过了24.5GB，而采用BEVPool V2的BEVFusion需要23.4GB的内存。相比之下，作者的模型仅需8.2GB的内存，大约是BEVFusion采用BEVPool V2版本内存成本的35%。这些结果证明了作者稀疏融合策略在内存消耗上的巨大优势。

推理速度测试

在表9中，作者评估了在两种不同配置下的推理速度：一种是nuScenes数据集的小分辨率图像和短感知范围，另一种是AV2数据集的大分辨率图像和长感知范围。测试的FPS是在批量大小为1的情况下进行的，并基于验证集的平均值。在nuScenes数据集上，尽管作者的模型与采用BEVPool V2的BEVFusion在点范围和图像分辨率上相近，作者的推理速度仍快于BEVFusion 25%（5.5 FPS对比4.4 FPS）。在资源需求更高的AV2数据集上，作者的稀疏模型显示出更显著的速度优势，在这种长距离感知场景中，作者的FPS是BEVFusion*的两倍（2.0 FPS对比0.9 FPS）。

表9. 不同数据集上推理速度的比较。

定性结果

作者通过图5展示了查询的可视化，以直观地理解模态特定的目标语义的互补性。真实目标以位于其中心的红色三角形表示。点云查询以蓝色圆圈表示，位于每个目标的中心点。图像查询以橙色线段表示，线段的位置指示采样位置，颜色的饱和度反映了概率分布。可视化结果表明，尽管在3D空间中查询较为稀疏，但它们仍然倾向于围绕物体分布，使得能够准确识别物体。此外，这些查询展示了它们在定位物体方面的不同能力：图像查询能够识别一些由于点云稀疏而未能检测到的物体（例如，在较远距离处）。同时，点云查询包含的3D信息有助于在拥挤场景中准确定位和区分物体，即使在图像查询难以实现这一点时。

图5. 模态查询的可视化。真实目标以位于其中心的红色三角形表示，点云查询以位于中心点的蓝色圆圈表示，图像查询以橙色线段表示，线段位置指示采样位置，颜色饱和度反映概率分布。

为了验证作者的查询校准设计，作者计算了图像查询位置与匹配的真值（Ground Truths）之间的均方误差（MSE），如图6所示。观察到随着解码器层的深入，MSE逐渐减小，这表明作者的查询校准能够逐步细化图像查询的位置。

图6. 计算图像查询与匹配的真实目标（GTs）之间的均方误差（MSE）。特别地，作者排除了所有点云查询，并在图像查询和GTs之间进行一对一匹配以计算MSE。

此外，作者在图7中展示了在nuScenes验证集上的预测结果可视化。可以看出，MV2DFusion能够检测到包括行人、车辆、障碍物、交通锥等在内的多种物体。

图7. nuScenes验证集上的预测结果可视化。

结论

本文提出了MV2DFusion，这是一个先进且高效的多模态目标检测框架。继承了前作MV2D将目标视为查询的核心理念，MV2DFusion进一步引入了针对不同模态特性设计的目标检测器，用以生成针对性的目标查询。随后，框架利用一个交叉注意力解码器，整合了来自激光雷达和图像数据的特征，以预测最终的检测结果。这种设计不仅保证了与多种图像及激光雷达检测器的兼容性，还因其融合过程的稀疏性，使得模型能够适应长距离的检测任务。作者在nuScenes和Argoverse 2等多个数据集上对框架进行了广泛的验证，证明了其相较于当前最先进方法的卓越性能。作者期望MV2DFusion的设计能够为多模态目标检测框架在学术研究和实际应用中的进一步发展做出贡献。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
真正的多模态学习？北航&小米新作MV2DFusion！

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线今天自动驾驶之心为大家分享北航&小米名为MV2DFusion的多模态检测框架。全面利用模态特定的目标语义，实现了全面的多模态检测！如果您有相关工作需要分享，请在文末联系我们！自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询>>点击进入→自动驾驶之心『B...
复制链接

扫一扫