2023最新综述！自动驾驶中的多模态3D目标检测（特征表示/对齐/融合）

最新推荐文章于 2024-11-28 15:37:50 发布

自动驾驶之心

最新推荐文章于 2024-11-28 15:37:50 发布

阅读量3.7k

点赞数 3

文章标签：目标检测自动驾驶 3d 计算机视觉人工智能

本文链接：https://blog.csdn.net/CV_Autobot/article/details/130592289

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【多传感器融合】技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述！

自动驾驶车辆需要持续的环境感知以获得障碍物的分布，从而实现安全驾驶。具体来说，3D目标检测是一个至关重要的功能模块，因为它可以同时预测周围物体的类别、位置和大小。一般来说，自动驾驶汽车配备了多个传感器，包括摄像头和激光雷达。单模态方法的检测性能不令人满意，这一事实促使利用多模态作为输入来补偿单传感器故障。尽管存在许多多模态融合检测算法，但仍缺乏对这些方法的全面深入分析，以阐明如何有效地融合多模态数据。因此，本文综述了融合检测方法的最新进展。首先介绍了多模态3D检测的广泛背景，并确定了广泛使用的数据集的特征及其评估指标。其次从特征表示、对齐和融合三个方面对所有融合方法进行了分类和分析，而不是传统的前、特征和后融合的分类方法，这揭示了这些融合方法是如何以本质的方式实现的。第三深入比较了它们的优缺点，并比较了它们在主流数据集中的性能。最后进一步总结了当前的挑战和研究趋势，以充分发挥多模态3D检测的潜力。

图2是著名的多模态工作的时序概览。本综述的全面介绍如图3所示。同时论文概述了该领域的进展，并全面比较了最先进的方法。

这项工作的主要贡献可以总结如下：

本文第一篇全面回顾自动驾驶多模态3D检测的综述，而不是将其视为3D检测中的一个微不足道的子集；
本文提出了一种多模态3D检测的分类法，该分类法超过了传统的前、特征和后融合范式，由表示、对齐和融合三个方面组成；
本文介绍了多模态3D检测的最新进展；
论文在几个公开的数据集上全面比较了现有的方法，并提供了深入的分析。

背景

本节介绍了3D检测的一般背景以及单模态和多模态3D检测之间的关系。此外还介绍了常见的数据集和评估指标。

3D目标检测

问题定义：3D目标检测致力于预测三维场景中目标的属性，包括位置、大小、类别等。通常，它可以表示为：

传感器：在3D物体检测中，表I中显示了几种流行的传感器，包括单目相机、双目相机、激光雷达和雷达。同时也比较了优势和劣势。

摄像头捕获具有丰富颜色和纹理财产的图像，具有帧速率高和成本可忽略不计的优点。然而，它缺乏深度信息，并且容易受到光照的影响。另一方面，点云是由LiDAR或RADAR采集的数据，它是一个海量的点云集合，表示目标的空间分布和同一空间参考系统中目标表面的光谱属性。激光雷达为目标检测提供高精度、高密度、高分辨率的点云数据。然而，它的获取需要大量的计算资源，并且对不利的天气条件很敏感。雷达可以在不受环境条件影响的大范围内测量点云数据，并检测移动物体。然而它的测量精度和物体分辨率相对较低，并且可能受到反射干涉的影响。

单模态：在自动驾驶中，利用单个传感器进行检测是不令人满意的。具体来说，单模态具有固有的缺陷，这导致了3D场景中环境感知不足。例如，基于相机的3D检测器实现低精度性能，因为图像不能提供足够的深度信息。尽管基于激光雷达的方法克服了深度信息差的问题，但它们也存在激光雷达的缺陷，如分辨率低、稀疏、纹理差等。

多模态：多模态3D检测提出集成多个传感器，结合多种模态的优势来实现更好的性能。与单模态相比，它可以充分利用多模态的优势（例如来自点云的深度信息、来自图像的纹理信息），这为自动驾驶感知带来了巨大的潜力和增强。然而这也带来了许多问题和挑战。例如，多模态3D检测的先驱MV3D[52]努力将两种模态的数据组合在一起，但忽略了异构模态的差距。同时，异质性差距是多模式学习中的一个关键挑战。

常见的数据集如表2所示：

特征表示

随着具有不同特性的各种传感器在多模态设置中感知3D环境，数据表示成为融合来自不同传感器的信息的关键设计选择。在自动驾驶场景中，输入数据主要由图像和激光雷达点云组成。然而为了更好地利用不同的数据模态，提出了更多的数据融合表示。

在多模态学习中，数据表示是决定建模任务输入最关键阶段的重要部分。为此，论文回顾了多模态3D检测中的流行表示，如表所III和图4所示。为了帮助理解现有方法的广度，论文将它们分为两种类型：统一表示和原始表示。统一表示方法旨在将异构数据转换为同源格式，并且可以说构建起来更具挑战性，因为它们需要为异构构建特定空间的能力。未经任何预处理的原始表示是指用于预测的直接异构数据。

统一表示

统一表示旨在以一致的格式处理异构数据（或特征），从而缩小异构差距。根据表示类型，这些方法可以分为三类：基于混合、基于3D和基于BEV。

基于混合表示：基于混合的方法旨在以同质格式组合异构信息，例如，通过将3D点云转换为2D表示（与图像相同）。基于混合的方法从两个方面解决了多模态检测问题：设计能够应对异质性的新表示和选择适当的学习视角。作为一项开创性的工作，MV3D[52]代表了两种不同视点的原始点，即范围视图和俯视图。具体而言，MV3D提出了一种用于前视图（类似于范围视图）和桥眼视图的编码方法，该方法包含高度、密度和强度。通过这种方式，可以将3D表示转换为2D伪图像，从而允许网络使用2D卷积来提取几何细节。许多作品都遵循了这一设计理念。

基于双目：与表示密集分布在2D空间中的基于混合的方法不同，基于双目的方法旨在通过将2D表示转换为3D来融合3D空间中的异构表示。有几项工作[58]提出将图像从2D空间转换为伪点云，该伪点云同时包含几何和纹理信息。由于这种生成伪点云的方式需要每个像素的深度信息，因此基于双目的方法总是利用深度估计模型，例如深度补全。SFD[58]提出了一种用于组合原始体素和伪点云特征的基本流水线，这消除了数据表示之间的原始异构间隙。

基于BEV：BEV表示在3D感知中被广泛使用，因为它具有很强的解释性，有利于扩展传感器模态和利用下游任务。BEV表示可以解决自动驾驶场景中存在的具有挑战性的问题，例如车辆遮挡、稀疏表示。对于点云，更改视点很容易。相比之下，更改相机的视点需要费力的参数和变换策略。得益于纯视觉BEV工作[96]–[98]的进步，促进了基于BEV方法的发展。[60]提出的模型实现了高效的摄像机到BEV的转换和BEV表示的有效语义合并。

原始表示

统一多模态表示的一种替代方案是Raw表示，其目的是不进行超模态表示翻译或编码，以保留最大可用信息。

由于大多数高性能单模态检测器都以点云为主，为了扩展这一优势，几种多模态方法建议结合其他模态的原始表示，例如相机，来装饰点云。例如，[104]提出的模型提出了一种新的范式，该范式用语义分割任务的语义得分来装饰原始点云。这种额外的多模态优势得益于用于原始表示的强大的2D视觉任务，例如2D检测或2D语义分割。为了充分利用原始表示，F-PointNet[54]使用2D原始表示和2D检测来缩小3D表示的范围，从而产生用于预测的准确前景信息。许多作品都遵循了这种设计范式。尽管这种方式可以缓解特征之间的差距，但它们不能在特征级别充分利用异构数据中的原始信息。

已经提出了几种方法来利用简单特征提取器来利用完整的原始表示。PointFusion[99]利用简单的主干，PointNet[27]用于3D，ResNet[128]用于2D，直接从原始表示中提取特征。[101]紧随其后。[108]提出了一种基于pillar的编码方法，将原始表示转换为pillar表示，并使用[30]处理pillar特征。与先前的基元特征提取器[109]不同，[129]提出使用编码器-解码器结构来增强异构表示的交互和融合。由于原始2D表示的优越性，允许更多2D辅助任务的变体。[112]对图像分支中的原始图像使用2D检测，这实现了ROI池化（感兴趣区域池化）的2D和3D检测。在多模态方法中，结合了简单主干及其变体的不同特征的特征融合越来越普遍。这主要是因为原始表示可以保存来自原始传感器的更多信息，并且它们的表示更适合于多模态推理。

结论和讨论

本文确定了3D检测中的两大类多模态表示，统一表示和原始表示。统一表示将多模态数据（或特征）投影到统一的格式（或空间）中，并解决表示或格式的错位问题。它已被广泛用于流行的3D检测器，并大大提高了性能和有效性，尤其是在基于BEV的范例中。另一方面，原始表示不需要对原始表示进行转换，以保留最大的原始信息。通常，它为原始特征引入辅助任务，例如语义分割和辅助目标检测。表IV总结了它们的优缺点。最后3D检测中的多模式表示正在开发中，我们可能会在未来看到更高效的表示。

特征对齐

多模态融合的输入数据具有不同形式的特征表示，通常是异构的。因此，构建数据与不同模态之间的对应关系成为重要的一步。论文建议将这一步骤概括为对齐，因为如果直接使用来自不同模态的未对齐特征，很可能会降低多模态数据的增益，甚至适得其反。因此，考虑特征对齐来构建不同模态数据之间的对应关系是至关重要的。

多模态特征对齐是指构建不同模态数据特征之间的对应关系。在多模态3D检测中，点云（如图4所示）数据提供了准确的几何信息和深度信息，但由于其固有的稀疏和不规则分布特征，点云缺乏分辨率和纹理信息。相反，图像（如图4所示）包含细粒度的纹理和颜色信息，但缺乏深度信息。通过神经网络从两个异构数据中提取的特征是异构的，对齐两个异构模态的特征是非常具有挑战性的。

激光雷达和相机之间的对应关系由投影矩阵[130]，[131]实现，该矩阵由内外参组成，用于将3D世界坐标空间转换为2D图像坐标。多个工作利用标定参数来找到3D和2D之间的对应关系，以实现特征对齐。这种方法是有效的，但它破坏了图像的语义信息。为了更好地解决这个问题，许多研究人员采用深度学习技术来实现特征对齐。基于这些考虑，论文将特征对齐方法分为两类：1）基于投影的方法和2）基于模型的方法，如图5和表五所示。

基于投影的特征对齐

先前的工作主要利用相机投影矩阵以确定性的方式对齐图像和点云特征，这是高效和快速的，并且可以通过投影矩阵保持位置一致性。基于投影的方法大致可以分为全局投影和局部投影，如图6所示。

全局投影：全局投影是指将实例分割网络处理的图像特征或将图像转换为BEV作为输入，将点云投影到处理后的图像上，并将其输入到3D主干中进行进一步处理。

例如，流行的检测方法，如PointPainting[104]和PI-RCNN[105]，融合了图像分支中的图像特征和原始激光雷达点云中的语义特征，以通过基于图像的语义分割来增强点云。具体来说，图像通过分割网络获得像素级语义标签，然后point-to-pixel投影将语义标签附加到3D点云。Complexer yolo、和FusionPainting[111]也遵循这一范式。MVP[110]借鉴了PointPainting的思想，首先使用图像实例分割，并通过投影矩阵建立实例分割掩模和点云之间的对齐关系，但不同的是MVP对每个范围内的像素进行随机采样，与点云一致点投影上的像素由最近邻连接，连接上激光点云的深度取当前像素的深度。然后将这些点投影回激光坐标系，以获得虚拟激光雷达点。MvxNet[101]不使用PointNet[27]网络来提取点云特征，而是将原始LiDAR点云预处理为体素，以进一步使用更先进的单模3D对象检测的主干，并通过附着在体素上的投影方法传递相应像素的图像特征向量。该方法将ROI图像特征向量附加到激光雷达点云中每个体素的密集特征向量。

Contfuse[91]、BEVFusion[60]和3D-CVF[23]这三种方法统一地表达了两种模态的数据。通过投影将图像特征转换为BEV表示，并与点云BEV表示对齐。在Contfuse中，通过MLP学习将图像特征投影到BEV空间中。首先，在图像中找到每个像素的K个邻域点云，然后将投影矩阵传递到3D空间，然后将其投影到图像中。特征像素和目标像素的坐标偏移被输入到MLP中。获得了目标点云的图像特征。然后将其与BEV特征图进行融合，形成密集的特征图。受LSS[134]算法的启发，BEVFusion通过将相机图像转换为3D ego-car坐标并使用BEV编码器模块，将3D ego-car坐标转换为BEV表示。3D-CVF[23]通过自校准投影将2D相机特征转换为平滑的空间特征图，与BEV中的雷达特征具有最大的对应性。该特征图也属于BEV。

局部投影：局部投影使用2D检测来从图像中提取知识，以缩小3D点云中的候选目标区域，将图像知识转移到点云，并最终将增强的点云输入到基于LiDAR的3D检测器。

Frustum PointNet[54]提出了一种具有预测的前向和后向截断径向距离的截头体，将2D框扩展到3D。首先，图像通过2D检测器，以在感兴趣的目标周围生成2D边界框。然后，使用标定参数将2D框内的目标投影到3D截头体中。将3D截头体中的信息应用于激光雷达点云，以对齐图像和点云。一些作品，如Frustum ConvNet[56]、Faraway Frustum[57]、Frustum PointPillars[55]和Roarnet[100]都遵循了这种设置。在此基础上，进行了相应的创新。具体来说，Frustum ConvNet将逐点云聚合为逐截头体的特征向量。这些特征向量被组合到一个特征图中，以使用它们的全卷积网络（FCN），该网络在空间上融合了截头体特征向量，并支持3D空间中定向盒的端到端和连续估计。Frustum PointPillars采用pillar来加快计算速度。

MV3D[52]通过投影将激光雷达点云转换为BEV和前视图（FV）以生成proposal，然后融合BEV、FV和图像特征以预测最终的3D边界框。在此过程中，利用3D提案网络生成高精度的3D候选框，并将3D提案投影到多个视图中的特征图中，以实现两种模态之间的特征对齐。AVOD[53]也采用了同样的想法，但与MV3D不同，AVOD去除了FV，并提出了一个更细粒度的区域方案。

PointAugmenting[115]不使用从图像实例分割网络获得的特征，而是使用目标检测网络的特征图。这主要是由于分割注释过于昂贵，而2D注释很容易实现。SFD[58]提出了一种使用伪点云的方法，点云分支处理原始点云以生成感兴趣的ROI区域。投影矩阵用于将点云投影到图像上，以生成具有颜色的伪点云，从而实现两个数据的特征对齐。最后，通过生成的ROI来减少点云的搜索范围。

基于模型的特征对齐

与以前使用相机投影矩阵对齐两种数据的方法不同，最近的一些多模态3D检测方法提出通过主要使用注意力的学习方法来对齐相机图像和点云。例如，AutoAlign[117]和Deepfusion[119]都采用了交叉注意力机制来实现两种模态的特征对齐。它们将体素分别转换为查询q和相机特征、关键点k和值v。对于每个查询（即体素单元），在query和key之间执行内积，以获得包含体素与其所有对应相机特征之间的相关性的矩阵。采用softmax算子进行归一化，然后用包含相机信息的值v对其进行聚合和加权。为了减少计算量，AutoAlignV2[118]受到可变形DETR[135]的启发，提出了跨域变形CAFA操作。DeformCAFA使用可变形的交叉注意李机制，其中q和k仍然采用AutoAlign中的设置。v有一个新的变化。首先，使用投影矩阵来查询与体素特征相对应的图像特征。然后，通过MLP学习偏移，并提取与偏移相对应的图像特征作为值v。交叉注意力使每个体素能够感知整个图像，从而实现两种模态的特征对齐。Transfusion[121]中使用了两个Transformer解码器。第一解码器层利用目标查询的稀疏集合来从激光雷达特征生成初始边界框。第二种自适应地将目标查询与与空间和上下文关系相关联的有用图像特征相融合。

结论和讨论

应用相机投影矩阵来对齐图像和点云是有效的。尽管特征的聚合是在精细像素级别上进行的，但点云是稀疏的，图像是密集的。使用投影矩阵来找到激光雷达点和图像像素之间的对应关系。点云特征通过这种硬关联以粗粒度的方式聚集图像信息，这可能会破坏图像中的语义信息。例如，一辆汽车在点云中有100个点，而该汽车在相应的图像中可能有数千个像素。通过投影矩阵将每个点投影到图像平面上。尽管特征对齐是在每像素级别，但由于点云的稀疏性，图像特征仍然可能丢失上下文的语义信息。通过软关联机制，该方法使用交叉注意力机制来找到激光雷达点和图像像素之间的对应关系。它可以动态地关注图像中的像素级信息。每个点云的特征查询整个图像，使点云特征能够以细粒度的方式聚合图像信息，以获得像素级的语义对齐图。尽管这种方法可以更好地获得图像中的语义信息，但由于使用了注意力机制，图像中的每个像素都会被匹配，并且模型计算量大，耗时多。AutoAlignV2[118]使用DeformCAFA模块来减少查询图像特征的数量和计算量。

特征融合

本文总结了多模态3D检测的融合方法，这一直被认为是多模态方法中最重要的部分。基于这些融合方法，可以更好地达到增强3D检测的目的。目前，用于多模态3D检测的最主要的融合方法由互补表示，即一种模态到另一种模态的增强。经过分析发现，多模态方法主要是图像特征与点云特征的特征互补。在3D检测领域，点云的检测精度远高于图像的检测精度，如图8所示。图像中缺乏深度信息导致3D检测的精度低。同时，图像信息具有丰富的语义信息，可以作为点云信息的数据补充。

目前的多模态互补方法是通过不同的融合方法来实现的。主要区别在于在多模态3D检测融合过程中是否需要学习。为了帮助理解现有的融合方法，论文将其分为两类：学习不可知论和基于学习的。学习不可知方法对特征执行算术运算和拼接运算。这些方法操作简单，易于计算，但不具有良好的可扩展性和鲁棒性。基于学习的方法利用注意力来融合特征，这相对复杂并增加了参数的数量。然而，基于学习的方法可以关注高权重的重要信息，而忽略低权重的无关信息，因此具有更高的可扩展性和鲁棒性。多模态3D检测融合方法概述如图7和表六所示。

学习不可知论融合

传统的融合方法侧重于对特征进行算术运算和级联运算。学习不可知方法是使用特征运算和连接的融合方法之一。学习不可知方法有两种主要类型：元素运算（求和、平均）和串联。

元素操作：元素运算利用算术运算来处理相同维度的特征（求和、平均）。元素操作易于并行操作。它将这两个特征组合成一个合成向量。它具有计算简单、操作方便的优点。同时，计算不同通道的平均值或求和会增加点云特征的信息，但特征维数不会增加。只有每个维度下的信息量会增加。信息量的增加可以提高检测精度。

在早期的工作中，MV3D[52]是这种方法的先驱，它使用均值方法来融合三种不同视图的特征。特征融合过程易于操作，并简化了融合过程的计算。AVOD[53]使用MV3D[52]作为基线，通过元素平均值从两个视图的特征图中生成新的融合特征。它继承了MV3D融合过程中计算量小的优点。通过这种方式，可以有效地融合相同形状的特征图。通过这种方式，可以有效地融合相同形状的特征图。ContFuse[91]通过传感器坐标对应关系来关联特征，并使用逐元素求和来逐元素组合相同维度的特征图，以融合不同的模态信息。在最近的研究中，元素融合仅被少数方法所采用。这主要是因为逐元素不能准确地获得正确的前景信息，并且通常携带噪声。SCANet[93]和MMF[103]也采用元素操作。然而，与先前的研究不同，MMF[103]利用多个任务来帮助检测和融合骨干中的特征。Focals Conv[124]提出了一种轻量级融合模块，该模块使用语义分割网络提取图像特征，并利用元素求和来聚合图像特征和体素特征。

拼接：特征拼接是将变换后的多模态特征转换为相同的特征向量大小，然后将图像特征向量与点云特征向量进行拼接。级联融合方法的概述如图9所示。与按元素操作不同，级联操作是对通道的合并，这比按元素操作的计算更密集。但它避免了由直接元素操作引起的信息丢失。同时，级联操作不受通道数量的限制。特别地，它在多模式3D检测方法中更受欢迎。PointFusion[99]是将拼接操作应用于多模态3D检测的先驱。PointFusion方法是将逐点特征和图像特征连接起来，以保留每个模态的最大信息。VoxelNet[19]将单模态输入扩展到多模态输入，从而能够进一步提高性能。MVX-Net[101]和SEGVoxelNet[25]使用串联操作来将对应的图像特征补充到3D点的坐标。与逐元素运算不同，级联运算可以在更大程度上保留模态信息，并且具有较浅的信息损失。PointPainting[104]方法通过语义分割网络获得像素分割分数。该方法使用串联操作来融合分割的分数以完成点云，从而保留点云信息和分割的分数。在融合方法的研究中，这些先前的多模态方法一直在尝试，可以发现拼接操作简单，可以保留更多的特征信息。

基于学习的融合

2020年，DETR将神经网络与注意力相结合，用于检测任务。DETR使整个网络能够实现端到端的目标检测，大大简化了检测流水线。后来的DETR3D将注意力应用于3D检测。随着注意力的发展，跨模态注意力可以为多模态方法提供一种新的融合方式。基于学习的方法学习权重分布，其中输入数据或特征图的不同部分具有不同的权重。根据权重的不同，高权重用于保留重要信息，而低权重则忽略不相关的信息。基于学习的融合方法具有更好的鲁棒性。

DETR是一种用于注意力应用目标检测的里程碑式算法。同年，一些方法也试图在融合方法中关注多模态3D对象检测，如3D-CVF[23]、MVAF-Net[106]、MAFF-Net等。3D-CVF提出了一种自适应门控融合网络，它产生了显著简化3×3卷积层和S形函数的注意力。注意力映射将投影的图像特征补充为点云特征。这种类型的融合可以更好地集中要融合的有用信息，使融合方法变得可学习。MVAF-Net的MVFF部分建议与APF模块相结合，使用注意力机制自适应地融合多任务特征。MAFF-Net模型提出了点云注意力融合（PAF）模块。PAF使用一个图像特征和两个注意力特征的融合来融合每个3D点，以实现自适应融合特征。由于相机传感器容易受到光照、遮挡和其他因素的影响，在这些影响下，在将图像特征补充为点云特征的过程中引入了干扰信息。为了解决这个问题，EPNet[109]使用注意力方法自适应地估计用于融合的图像的重要性。

随着注意力的发展，在多模态3D检测领域出现了许多注意力融合方法，如FusionPainting、AutoAlign、AutoAlign V2、DeepFusion、CAT Det、BEVFusion[59]、BEVFFusion[60]。这些模型利用注意力融合来融合具有高权重的关键信息和具有低权重的冗余信息。这显著提高了融合效率，并防止干扰信息影响检测效率。

讨论和结论

本章讨论了多模态融合方法，并将数据融合分为学习不可知和基于学习的两类。学习不可知论主要由两个操作组成，即逐元素和级联操作，以自适应地估计图像对融合的重要性。多模态融合是一个广泛研究的课题。在这个领域已经提出了许多解决方案，每种方案都有优点和缺点。学习不可知论方法适用于较小的数据集，而基于学习的方法提供了更好的鲁棒性。尽管取得了这些进展，但多模态融合仍然面临以下挑战：

数据信息在特征变换中具有不同程度的信息丢失；
目前的融合方法使用图像特征来补充点云特征，并且图像特征在使用点云基线时会出现问题，例如域间隙；
学习不可知论方法需要根据信息的重要性来考虑融合问题；
基于学习的方法具有许多参数，需要考虑参数数量优化问题。

挑战和趋势

尽管已经有了许多融合方法，但由于对准确性、鲁棒性和实时性的要求，自动驾驶中的图像和点云融合算法面临着许多挑战。此外，与点云和图像的数据对齐仍在广泛探索中，远未成熟。本节讨论了多模态3D检测的挑战和趋势。

数据噪声：如何有效地融合多模态信息一直是多模态学习的主要挑战。对于各种传感器，来自不同模态的数据之间存在信息差距，导致信息不同步。这个问题在特征融合中引入了显著的噪声，这对信息表示学习造成了危害。例如，由于融合过程中不同维度的ROI的存在，两阶段检测器导致图像中背景特征的结合。最近的一些工作[59]，[60]利用BEV表示来统一不同的异构模态，这为解决这个问题提供了一个新的视角，值得进一步探索。
开放源代码数据集中的感受野有限：传感器覆盖不足对多模态检测的性能不利。最近，越来越多的多模态作品将注意力集中在nuScenes[79]上，因为它具有出色的感知范围（点云和相机都是360度）。出色的感知范围有助于多模态学习，尤其是在自动驾驶感知任务中。利用具有良好传感范围的传感器，如nuScenes[79]和Waymo[80]，可能会提高多模式检测系统的覆盖率，并提高其在复杂环境中的性能，这可能为解决开源数据集中接收场有限的问题提供了一个可能的思路。
紧凑表示：紧凑表示包含更多的信息，但数据比例较少。尽管现有工作试图将稀疏的3D表示编码为二维表示，但在编码过程中存在显著的信息损失。距离图像的投影可能导致多个点落入同一像素，从而导致信息丢失。最近，Waymo开放数据集提供了高分辨率范围图像，但只有少量工作对其进行了检查。高质量的表示仍然是一个悬而未决的挑战。也许可以使用先进的编码技术来实现更紧凑的3D表示，例如使用基于深度学习的自动编码器和生成对抗性网络来表示3D特征。
信息丢失：如何最大限度地保留多模态信息一直是多模态3D检测的关键挑战之一。来自多种模态的信息的融合可能导致信息的丢失。例如，在融合阶段，当图像被补充到点云特征时，图像语义信息丢失。这导致融合过程不能更好地利用图像特征信息，导致模型性能次优。多模态学习中的最先进模型[109]、[117]可能被证明有利于3D检测中的传感器融合，并且可以探索新的融合方法和神经网络架构，以最大限度地保留多模态信息。
无标签数据：无标签数据在自动驾驶场景中普遍存在，无监督学习可以提供更稳健的表示学习，这在类似任务中已经得到了一定程度的研究，例如2D检测[145]-[153]。然而，在当前的多模态3D检测中，没有令人信服的无监督表示研究。特别是在多模态研究领域，对多模态表征进行更好的无监督学习是一个具有挑战性的研究课题。在未来的研究中，无监督学习表征的困难将围绕多模态差异来同时表征多模态数据。
计算复杂度高：多模态三维物体检测的一个重要挑战是在自动驾驶场景中快速实时地检测物体。由于多模态方法需要处理多个信息，这导致参数和计算量增加，训练时间和推理时间更长，应用程序无法满足实时性能。最近的多模态方法也考虑了实时性，例如，在nuScenes数据集上的MVP[110]、BEVFusion[59]实验已经使用FPS作为模型评估指标。如表七所示。为了缓解高计算复杂性的问题，鼓励未来的工作探索模型修剪和量化技术。这些技术旨在简化模型结构并减少模型参数，以实现高效的模型部署，这需要在自动驾驶场景中进行进一步研究。
长尾效应：如何解决性能变化引起的长尾效应是多模态三维物体检测的重要挑战之一。在自动驾驶领域，大多数模型都需要检测汽车，但其他物体，如行人，也是必不可少的检测要求。如表八所示，自动驾驶场景有很多类别。在检测汽车方面有效的模型在检测行人方面可能效率低下，例如，SFD[58]。这导致类别检测不均匀。在未来的工作中，可能会探索使用损失函数和采样策略作为解决上述问题的潜在解决方案。
跨模态数据增强：数据增强是在3D检测中获得有竞争力的结果的关键部分，但数据增强主要应用于单模态方法，很少在多模态场景中考虑。由于点云和图像是两种异构数据，很难实现跨模态同步增强，这将导致严重的跨模态失准。将gt-aug应用于点云和相机数据而不失真是困难的。在某些方法中，只增强点云部分，而忽略图像部分。还有一些方法可以保持原始图像不变，并在点云中进行反向变换，以达到图像与点云对应的目的。点云增强[115]提出了一种更复杂的跨模态数据增强方法，但在图像分支上使用额外的掩码注释，并且容易产生噪声。这些方法都不能很好地解决跨模态数据增强的同步问题。解决这一挑战的一个潜在解决方案是通过表示重建，将异构数据转换为统一的表示，并实现同时的数据扩充。
时间同步：时间同步是多模态3D检测中的一个关键问题。由于不同传感器的采样率、工作模式和采集速度的差异，传感器采集的数据之间存在时间偏差，导致多模态数据的错位，进而影响多模态3D检测的准确性和效率。首先，在不同传感器的时间戳中可能存在误差。即使使用硬件进行定时同步，也很难完全保证传感器时间戳的一致性。这种方法可能需要昂贵的设备。可以使用软件同步方法，如时间戳插值方法、基于卡尔曼滤波器的时间同步算法、基于深度学习的时间同步方法等。其次，传感器数据具有帧丢失或延迟，这也影响了多模态三维物体检测的准确性。解决这个问题的想法是使用缓存机制来处理延迟或丢失的数据，并使用数据插值或外推方法来填补数据的空白部分。多模态3D检测中的时间同步是一个复杂的问题，需要使用各种技术手段来解决。

结论

本文全面回顾和分析了多模态3D检测的各个方面。论文首先分析了多模态3D检测出现的原因，介绍了现有的数据集和评估指标，并对数据集进行了综合比较。并提出了一种用于多模态3D检测的新分类方法。具体地，从数据表示、特征对齐和特征融合三个角度分析了现有的方法。从不同角度详细回顾了分类方法的优缺点。最后总结了近年来的发展趋势、当前的挑战和问题，并展望了多模态3D检测的未来研究方向。

参考

[1] Multi-modal 3D Object Detection in Autonomous Driving: A Survey and Taxonomy

视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！