最新多模态传感器融合的自动驾驶感知综述！

最新推荐文章于 2025-03-21 13:13:19 发布

自动驾驶之心

最新推荐文章于 2025-03-21 13:13:19 发布

阅读量1k

点赞数

文章标签：自动驾驶人工智能机器学习计算机视觉数码相机

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247544463&idx=3&sn=292a0b3e26631ef03d3d9ef6568fabee&chksm=ceb80346f9cf8a50b867f66972ffa75b3d41e3864848bc94a2d9d028f23a3608ff5e8a499480&scene=126&sessionid=0

版权

作者 | eyesighting 编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/632153829

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【多传感器融合】技术交流群

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料！

论文信息

题目：Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

名称：多模态传感器融合的自动驾驶感知综述

论文：Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

论文摘要

多模态融合是自动驾驶系统感知的一项基本任务，最近引起了许多研究人员的兴趣。然而，由于原始数据嘈杂、信息未充分利用以及多模态传感器的错位，实现相当好的性能并非易事。在本文中，我们对自动驾驶中现有的基于多模态的感知任务方法进行了文献综述。一般来说，我们进行了详细的分析，包括50多篇论文，这些论文利用包括激光雷达和相机在内的感知传感器来解决对象检测和语义分割任务。与传统的融合模型分类方法不同，我们提出了一种创新的方法，从融合阶段的角度，通过更合理的分类法将融合模型分为两大类和四小类。此外，我们深入研究了当前的融合方法，重点关注剩余的问题，并对潜在的研究机会展开了讨论。总之，我们希望在本文中为自动驾驶感知任务提出一种新的多模态融合方法分类，并在未来引发对基于融合技术的思考。

1.介绍

感知是自动驾驶汽车的一个重要模块[26，44，71]。这些任务包括但不限于2D/3D对象检测、语义分割、深度完成和预测，这些任务依赖于安装在车辆上的传感器来对环境中的原始数据进行采样。大多数现有方法[44]分别对激光雷达和相机捕获的点云和图像数据进行感知任务，显示出一些有希望的成果。

然而，单模态数据的感知存在固有缺陷[4，26]。例如，相机数据主要在前视图的较低位置拍摄[102]。在更复杂的场景中，对象可能会被遮挡，这给对象检测和语义分割带来了严峻的挑战。此外，受限于机械结构，激光雷达在不同距离上具有不同的分辨率[91]，并且容易受到青蛙和暴雨等极端天气的影响[4]。尽管当单独使用时，这两种模式的数据在各个领域都很出色[44]，但激光雷达和相机的互补性使组合在感知方面具有更好的性能[4，76，90]。

最近，用于自动驾驶感知任务的多模态融合方法进展迅速[15，77，81]，从更先进的跨模态特征表示和不同模态中更可靠的传感器，到更复杂、更稳健的深度学习模型和多模态融合技术。然而，只有少数文献综述[15，81]专注于多模态融合方法论本身的方法论，并且大多数文献遵循传统规则，将其分为早期融合、深度融合和晚期融合三大类，重点关注深度学习模型中融合特征的阶段，无论是数据级、特征级还是建议级。首先，这种分类法并没有对每个级别的特征表示做出明确的定义。其次，它表明激光雷达和相机这两个分支在处理过程中总是对称的，掩盖了激光雷达分支中的态势融合提议级特征和相机分支中的数据级特征[106]。总之，传统的分类法可能直观但原始，无法总结最近越来越多新兴的多模态融合方法，这阻碍了研究人员从系统的角度对其进行研究和分析。

在本文中，我们将简要回顾最近关于用于自动驾驶感知的多模态传感器融合的论文。我们提出了一种创新的方法，从融合阶段的角度，通过更合理的分类法将50多篇相关论文分为两大类和四小类。这项工作的主要贡献可以总结如下：我们提出了一种用于自动驾驶感知任务的多模态融合方法的创新分类，包括两大类，即强融合和弱融合，以及强融合中的四小类，即早期融合、深度融合、晚期融合和不对称融合，这由激光雷达分支和相机分支的特征表示明确定义。我们对激光雷达和相机分支的数据格式和表示进行了深入调查，并讨论了它们的不同特征。我们对剩余的问题进行了详细的分析，并介绍了多模态传感器融合方法的几个潜在研究方向，这可能对未来的研究工作有所启发。

本文由以下部分组成：在第2节中，我们简要介绍了自动驾驶中的感知任务，包括但不限于对象检测、语义分割，以及几种广泛使用的开放数据集和基准测试。在第3节中，我们总结了所有数据格式，作为下游模型的输入。与图像分支不同，激光雷达分支在作为输入的格式上有很多不同，包括不同的手动设计的特征和表示。然后，我们在第4节中详细描述了融合方法，这是一种创新且清晰的分类法，与传统方法相比，将当前的所有工作划分为两个主要类别和四个次要类别。在第5节中，我们深入分析了自动驾驶多模态传感器融合的一些遗留问题、研究机会和可能的未来工作，我们可以很容易地察觉到一些有见地的尝试，但仍有待解决。在第6节中，我们最后总结了本文的内容。

2.任务和公开赛

在本节中，我们将首先介绍自动驾驶中常见的感知任务。此外，还有一些广泛使用的开放基准数据集，我们将在这里对它们进行一窥。

2.1 多模态传感器融合感知任务

通常，一些任务可以被视为驱动感知任务，包括对象检测、语义分割、深度完成和预测等[26，71]。在这里，我们主要关注前两项任务，作为最集中的研究领域之一。此外，它们还涵盖了障碍物、红绿灯、交通标志的检测以及车道或自由空间的分割等任务。我们还简要介绍了一些剩余的任务。自动驾驶中感知任务的概述如图1所示。

目标检测：

对于自动驾驶汽车来说，了解周围的环境至关重要。无人车需要检测道路上静止和移动的障碍物，以确保安全驾驶。目标检测是一种传统的计算机视觉任务，广泛应用于自动驾驶系统[61108]。研究人员为障碍物检测（汽车、行人、骑自行车的人等）、红绿灯检测、交通标志检测等建立了这样的框架。一般来说，对象检测使用由参数表示的矩形或长方体来紧密绑定预定义类别的实例，如汽车或行人，这需要在定位和分类方面都很出色。由于缺乏深度通道，2D对象检测通常简单地表示为（x；y；h；w；c），而3D对象检测边界框通常表示为（x；y；z；h；w；l；；c）。

语义分割：

除了物体检测，许多自动驾驶感知任务都可以被公式化为语义分割。例如，自由空间检测[35，57/107]是许多自动驾驶系统的基本模块，这些系统将地面像素分为可驱动和不可驱动部分。一些车道检测[24，84]方法还使用多类语义分割掩码来表示道路上的不同车道。语义分割的本质是将输入数据的基本成分，如像素和3D点，聚类为包含特定语义信息的多个区域。具体而言，语义分割是指给定一组数据，例如图像像素DI＝fd1；d2；：：：；dng或LiDAR 3D点云DL＝fd1；d2；：：：；dng和一组预定的候选标签Y＝fy1；y2；y3；：：：；ykg，我们使用一个模型为每个像素或点di分配k个语义标签中选定的一个或所有语义标签的概率。

其他感知任务除了上述物体检测和语义分割外，自动驾驶中的感知任务包括对象分类[44]、深度完成和预测[26]。对象分类主要解决通过模型确定给定点云和图像的类别的问题。深度完成和预测任务专注于预测给定激光雷达点云和图像数据的图像中每个像素与观看者的距离。尽管这些任务可能受益于多模式信息，但融合模块在这些领域没有得到广泛讨论。因此，我们在本文中选择省略这两项任务。尽管本文没有涵盖许多其他感知任务，但大多数可以被视为对象检测或语义分割变体。因此，本文将重点放在这两项研究工作上。

2.2 公开赛和数据集

超过10个数据集[7，10，27，30，47，50，52，56，58，64，71，80，88，93，94，97，101]与自动驾驶感知有关。然而，通常只使用三个数据集，包括KITTI[26]、Waymo[71]和nuScenes[6]。在这里，我们总结了这些数据集的详细特征。如表1所示。

KITTI[26]开放基准数据集是自动驾驶中最常用的对象检测数据集之一，包含2D、3D和鸟瞰图检测任务。KITTI配备了四台高分辨率摄像机、一台Velodyne激光扫描仪和一个最先进的定位系统，收集了7481张训练图像和7518张测试图像以及相应的点云。只有三个物体被标记为汽车、行人和骑自行车的人，超过200k的3D物体注释按检测难度分为三类：容易、中等和难。对于KITTI对象检测任务，“平均精度”经常用于比较。此外，平均方向相似性还用于评估联合检测对象和估计其3D方向的性能。

作为自动驾驶基准测试中常用的最大开放数据集之一，Waymo[71]开放数据集由五个激光雷达传感器和五个高分辨率针孔相机收集。具体来说，有798个场景用于训练，202个场景用于验证，150个场景用于测试。每个场景持续20秒，并在车辆、骑自行车的人和行人中添加注释。为了评估3D对象检测任务，Waymo由四个指标组成：AP/L1、APH/L1、AP/L2、APH/L2。更具体地说，AP和APH表示两种不同的性能测量，而L1和L2包含具有不同检测难度的对象。至于APH，其计算方法与AP类似，但根据航向精度进行加权。

NuScenes[6]开放数据集包含1000个驾驶场景，其中700个用于训练，150个用于验证，150个进行测试。nuScenes配备了摄像头、激光雷达和雷达传感器，在每个关键帧中注释23个对象类别，包括不同类型的车辆、行人和其他人。NuScenes使用AP、TP进行检测性能评估。此外，它提出了一个创新的标量分数作为通过AP、TP隔离不同错误类型计算的nuScenes检测分数（NDS）。

3.激光雷达和图像的表示

深度学习模型仅限于输入的表示。为了实现该模型，我们需要在将数据输入模型之前，通过精心设计的特征提取器对原始数据进行预处理。因此，我们首先介绍了激光雷达和图像数据的表示，我们将在后面的部分讨论融合方法和模型。

至于图像分支，大多数现有方法保持与下游模块输入的原始数据相同的格式[81]。然而，激光雷达分支高度依赖于数据格式[44]，数据格式强调不同的特性，并对下游模型设计产生巨大影响。因此，我们将其总结为适合异构深度学习模型的基于点、基于体素和基于2D映射的点云数据格式。

3.1 图像表示

作为2D或3D对象检测和语义分割任务中最常用的数据采集传感器，单眼相机提供了丰富纹理信息的RGB图像[2，36，86]。具体地，对于作为（u；v）的每个图像像素，其具有作为F（u；v）=fR的多通道特征向量；GB、：：：g，通常包含在红色、蓝色、绿色通道或其他手动设计的特征中分解的相机捕获颜色作为灰度通道。然而，由于深度信息有限，难以用单眼相机提取，因此在3D空间中直接检测物体相对具有挑战性。因此，许多作品[11，43103]通过空间和时间空间使用双目或立体相机系统来利用附加信息进行3D对象检测，如深度估计、光流等。对于夜间或青蛙等极端驾驶环境，一些工作还使用门控或红外摄像头来提高鲁棒性[4]。

3.2 基于点的点云表示

至于3D感知传感器，激光雷达使用激光系统扫描环境并生成点云。它对世界坐标系中表示激光射线和不透明度表面的交点的点进行采样。一般来说，大多数激光雷达的原始数据是类似四元数的（x；y；z；r），其中r代表每个点的反射率。不同的纹理导致不同的反射率，这在几个任务中提供了额外的信息[31]。为了合并激光雷达数据，一些方法通过基于点的特征提取主干直接使用点[61，62]。然而，点的四元数表示存在冗余或速度缺陷。因此，许多研究人员[18，41，66108]试图在将点云输入到下游模块之前，将其转换为体素或2D投影。

3.3 基于体素的点云表示

一些工作利用3D CNN将3D空间离散化为3D体素，表示为Xv={x1，x2，x3…xn}，其中每个xi代表一个特征向量xi={si，vi}。si代表体素化长方体的中心，而vi代表一些基于统计的局部信息。局部密度是由局部体素中3D点的数量定义的常用特征[8，75]。局部4偏移通常被定义为点实字坐标和局部体素质心之间的偏移。其他可能包含局部线性和局部曲率[65，74]。最近的工作可能认为一种更合理的离散化方式是基于圆柱体的体素化[91]，但与上述基于点云的点云表示不同，基于体素的点云表达显著降低了非结构化点云的冗余度[41]。此外，由于能够利用3D稀疏卷积技术，感知任务不仅实现了更快的训练速度，还实现了更高的精度[18，41]。

3.4 基于二维映射的点云表示

一些工作没有提出新的网络结构，而是利用复杂的2D CNN主干对点云进行编码。具体而言，他们试图将激光雷达数据作为两种常见类型投影到图像空间中，包括相机平面图（CPM）和鸟瞰图（BEV）[41，96]。

CPM可以通过将每个3D点投影为（x，y，z）到相机坐标系中的（u，v）来获得。由于CPM具有与相机图像相同的格式，因此可以通过使用CPM作为附加通道来自然地融合它们。然而，由于激光雷达投影后的分辨率较低，CPM中许多像素的特征被破坏。因此，有人提出了一些方法来对特征图进行上采样，而其他方法则将其留空[39，49]。

与直接将激光雷达信息投影到前视图图像空间的CPM不同，BEV映射提供了从上方俯瞰的场景视图。它被用于检测和定位任务有两个原因。首先，与安装在挡风玻璃后面的摄像头不同，大多数激光雷达都位于车辆顶部，遮挡较少[26]。其次，所有物体都放置在BEV的地平面上，模型可以在长度和宽度不失真的情况下生成预测[26]。BEV可能有所不同。一些直接从高度、密度或强度转换为基于点或基于体素的特征[12]，而另一些则通过特征提取器模块学习柱中激光雷达信息的特征[41]。

4.融合方法论

在本节中，我们将回顾激光雷达相机数据的不同融合方法。从传统分类学的角度来看，所有多模态数据融合方法都可以方便地分为三种范式，包括数据级融合（早期融合）、特征级融合（深度融合）和对象级融合（后期融合）[15，23，81]。

数据级融合或早期融合方法通过空间对准直接融合不同模态的原始传感器数据。特征级融合或深度融合方法通过级联或逐元素相乘来混合特征空间中的跨模态数据。目标级融合方法将模型在每个模态中的预测结果结合起来，做出最终决策。

然而，最近的作品[17，40，83，104，106]不能轻易地分为这三类。因此，在本文中，我们提出了一种新的分类法，将所有融合方法分为强融合和弱融合，我们将对此进行详细阐述。我们在图2中显示了它们之间的关系。

为了进行性能比较，我们专注于KITTI基准测试中的两项主要任务，即3D检测和鸟瞰对象检测。表2和表3分别给出了最近的多模态融合方法在BEV和3D设置的KITTI测试数据集上的实验结果。

4.1 强融合

根据激光雷达和相机数据表示的不同组合阶段，我们将强融合分为四类，即早期融合、深度融合、晚期融合和不对称融合。强融合作为研究最多的融合方法，近年来取得了许多杰出的成就[55，76，77]。从图3中的概述中，很容易注意到强融合中的每个次要类别都高度依赖于激光雷达点云，而不是相机数据。然后我们将特别讨论每一个问题。

早期融合：

与数据级融合的传统定义不同，数据级融合是一种通过原始数据级的空间对齐和投影直接融合每个模态中的数据的方法，早期融合融合了数据级的激光雷达数据和数据级或特征级的相机数据。早期融合的一个例子可以是图4中的模型。

对于上述LiDAR分支，点云可以以具有反射率、体素化张量、前视图/距离视图/鸟瞰图的3D点以及伪点云的形式使用。尽管所有这些数据都具有不同的内在特征，这些特征与后一种激光雷达主干高度相关，但除伪点云外，大多数数据都是通过基于规则的处理生成的[79]。此外，激光雷达的所有这些数据表示都可以直接可视化，因为与嵌入特征空间相比，这一阶段的数据仍然具有可解释性。

对于图像路径，严格的数据级别定义应该只包含RGB或Gray等数据，这缺乏通用性和合理性。与早期融合的传统定义相比，我们在这里将相机数据放宽为数据级和特征级数据。特别是，在这里，我们将有利于3D对象检测的图像分支中的语义分割任务结果视为特征级表示，因为这些类型的“对象级”特征不同于整个任务的最终对象级建议。

[76]和[90]将图像分支中的语义特征和原始激光雷达点云融合在一起，从而在目标检测任务中获得更好的性能。[68]和[20]也利用了语义特征，但与上述方法不同的是，它将原始激光雷达点云预处理为体素化张量，以进一步利用更先进的激光雷达主干。[54]将3D激光雷达点云转换为2D图像，并利用成熟的CNN技术融合图像分支中的特征级表示，以实现更好的性能。[87]将原始RGB像素与体素化张量融合，而[79]将从图像分支生成的伪点云和来自激光雷达分支的原始点云直接组合在一起，以完成目标检测任务。

基于VoxelNet[108]，[69]提出了一种融合方法，即点融合，将对应像素的图像特征向量直接附加到体素化向量。[92]提出了密集融合，将每个原始点与图像分支的全局特征连接起来。[53]专注于使用CNN的2D行人检测。

作为早期融合，它在输入CNN之前直接融合不同的分支。[105]提出了一种称为点注意力融合的融合方法，该方法将图像特征融合到激光雷达点云中的体素化张量。

深度融合：

深度融合方法在激光雷达分支的特征级融合跨模态数据，但在图像分支的数据级和特征级融合。例如，一些方法使用特征提取器分别获取激光雷达点云和相机图像的嵌入表示，并通过一系列下游模块将特征融合在两种模态中[32102]。然而，与其他强融合方法不同，深度融合有时会以级联的方式融合特征[4，32，46]，这既利用了原始语义信息，也利用了高级语义信息。深度融合的一个例子可以是图5中的模型。

[92]提出了带有全局融合的全局激光雷达特征与来自图像分支的全局特征。[69]提出了作为体素融合的其他融合方法，该方法将ROI池化图像特征向量附加到激光雷达点云中每个体素的密集特征向量。[105]提出了另一种称为密集注意力融合的方法，该方法融合来自多个分支的伪图像。[45，49]，分别提出了两种深度融合方法。EPNet[32]一种深度激光雷达图像融合，估计相应图像特征的重要性，以减少噪声影响。[4] 提出了一个极端天气下的多模态数据集，并以深度融合的方式融合了每个分支，极大地提高了自动驾驶模型的鲁棒性。其他深度聚变工作包括[9，14，16，22，37，46，73，78，85102]，它们具有看似相同的聚变模块。

晚期融合：

后期融合，也称为对象级融合，指的是融合每种模态中管道的结果的方法。例如，一些后期融合方法利用激光雷达点云分支和相机图像分支的输出，并基于两种模态的结果进行最终预测[55]。请注意，两个分支方案的数据格式应与最终结果相同，但在质量、数量和精度方面有所不同。后期融合可以看作是一种利用多模态信息来优化最终方案的集成方法。晚期融合的一个例子可以是图6中的模型。

如上所述，[55]利用后期融合对每个3D区域方案的得分进行二次细化，将图像分支中的2D方案与激光雷达分支中的3D方案相结合。此外，对于每个重叠区域，它利用了置信度得分、距离和IoU等统计特征。[1] 专注于2D对象检测，它将来自两个分支的建议与置信度分数等特征相结合，并输出最终的IoU分数。[29]，[28]通过将分割结果组合在一起来解决道路检测问题。作为[53]中的后期融合，它将同一3D检测方案的不同分支的分数汇总为一个最终分数。

不对称融合：

除了早期融合、深度融合和后期融合外，一些方法还以不同的权限处理跨模态分支，因此我们将融合一个分支的对象级信息，而融合其他分支的数据级或特征级信息的方法定义为不对称融合。与强融合中的其他方法不同，非对称融合中至少有一个分支占主导地位，而其他分支提供辅助信息来执行最终任务。晚期融合的一个例子可以是图7中的模型。特别是与后期融合相比，尽管使用提议[55]它们可能具有相同的提取特征，但不对称融合只有来自一个分支的一个提议，而后期融合有来自所有分支的提议。

这种融合方法是合理的，因为在相机数据上使用卷积神经网络具有出色的性能，它过滤了点云中语义上无用的点，并在截头体视角下提高了3D激光雷达主干的性能，例如[106]。它提取原始点云中的截头体以及相应像素的RGB信息，以输出3D边界框的参数。然而，一些作品跳出框框，使用激光雷达主干以多视图风格引导2D主干，并实现更高的精度。[40]专注于通过基于3D检测建议的提取的多视图图像进行行人检测，该建议进一步利用CNN来细化先前的建议。[12] 以及[17]在其他分支中利用ROI特征来细化仅由LiDAR分支预测的3D方案。[5] 专注于2D检测，利用来自LiDAR分支的3D区域建议，并将其与图像特征一起重新投影到2D建议以进行进一步细化。[11] 通过统计和基于规则的信息提出了3D潜在边界框。结合图像特征，它输出最终的3D方案。[70]专注于通过专门收集的数据集实现的小物体检测，这本质上是一项2D语义分割任务，将激光雷达的建议与原始RGB图像相结合，以输出最终结果。

4.2 弱融合

与强融合不同，弱融合方法不会以多种方式直接融合来自分支的数据/特征/对象，而是以其他方式操作数据。基于弱融合的方法通常使用基于规则的方法来利用一种模态中的数据作为监督信号来指导另一种模态的交互。图8展示了弱融合模式的基本框架。例如，来自CNN在图像分支中的2D提议可能会导致原始激光雷达点云中的截头体。然而，与上述将图像特征组合为不对称融合不同，弱融合直接将选择的原始激光雷达点云输入到激光雷达主干中，以输出最终方案[60]。

[83]通过固定选择的步长将每个截头体划分为几个部分来推进技术，这进一步提高了3D检测精度。[104]专注于远程稀疏点云对象检测。[99]从图像中的语义分割结果中过滤掉截头体中激光雷达点云的所有背景点。[72]专注于半监督和迁移学习，其中根据2D图像建议提出截头体。

其他弱融合，如[19]，通过每次只选择两个分支中的一个模型，使用强化学习策略预测最终方案，突出了2D对象的实时检测性能。在[21]中，图像分支中的2D检测建议生成多个3D盒子建议，然后模型输出最终的3D检测盒子及其检测分数。[67]使用图像来预测2D边界框和3D姿态参数，并利用相应区域中的激光雷达点云对其进行进一步细化。

4.3 其他融合方法

有些工作不能简单地定义为上述任何一种融合，因为它们在整个模型框架中拥有不止一种融合方法，例如深度融合和晚期融合的结合[39]，而[77]将早期融合和深度融合结合在一起。这些方法在模型设计视图中存在冗余，这不是融合模块的主流。

5.多模态融合机遇

近年来，用于自动驾驶感知任务的多模态融合方法取得了快速进展，从更先进的特征表示到更复杂的深度学习模型[15，81]。然而，仍有一些悬而未决的问题需要解决。我们在这里将未来要做的一些关键和必要的工作总结为以下几个方面。

5.1 更先进的融合方法

当前的融合模型存在错位和信息丢失的问题[13，67，98]。此外，平面融合操作[20，76]也阻碍了感知任务性能的进一步提高。我们将其总结为两个方面：错位和信息丢失，更合理的融合操作。

错位和信息丢失：

相机和激光雷达的内在和外在都有很大的不同。两种模式的数据都需要在新的坐标系下重新组织。传统的早期和深度融合方法利用外部校准矩阵将所有激光雷达点直接投影到相应的像素，反之亦然[54，69，76]。然而，由于感觉噪声的原因，这种逐像素排列不够精确。因此，我们可以看到，除了这种严格的对应性之外，一些工作[90]利用周围的信息作为补充，可以获得更好的性能。

此外，在输入和特征空间的转换过程中，还存在一些其他的信息损失。通常，降维操作的投影将不可避免地导致大量信息丢失，例如，将3D激光雷达点云映射到2D BEV图像中。因此，通过将两个模态数据映射到另一个专门为融合设计的高维表示中，未来的工作可以有效地利用原始数据，减少信息损失。

更合理的融合操作：

目前的研究工作使用直观的方法来融合跨模态数据，如级联和逐元素乘法[69，77]。这些简单的操作可能无法融合具有较大分布差异的数据，因此很难缩小两种模态之间的语义差距。一些工作试图使用更详细的级联结构来融合数据并提高性能[12，46]。在未来的研究中，双线性映射[3，25，38]等机制可以融合具有不同特征的特征。

5.2 多源信息杠杆

前视图的单帧是自动驾驶感知任务的典型场景[26]。然而，大多数框架利用有限的信息，而没有精心设计的辅助任务来进一步理解驾驶场景。我们将其总结为具有更多潜在有用信息和自我监督的表征学习。

提供更多潜在有用信息：

现有的方法[81]缺乏对来自多个维度和来源的信息的有效利用。它们中的大多数都集中在前视图中的多模态数据的单个帧上。因此，其他有意义的信息被利用不足，例如语义、空间和场景上下文信息。

一些模型[20，76，90]试图使用从图像语义分割任务中获得的结果作为附加特征，而其他模型则可以利用神经网络主干的中间层中的特征，无论是否由特定的下游任务训练[46]。在自动驾驶场景中，许多具有明确语义信息的下游任务可能会极大地提高目标检测任务的性能。例如，车道检测可以直观地为检测车道之间的车辆提供额外的帮助，语义分割结果可以提高对象检测性能[20，76，90]。因此，未来的研究可以通过检测车道、红绿灯和标志等各种下游任务，共同构建一个完整的城市景观场景语义理解框架，以帮助感知任务的执行。

此外，当前感知任务主要依赖于忽略时间信息的单个帧。最近基于激光雷达的方法[63]结合了一系列帧来提高性能。时间序列信息包含串行化的监督信号，这可以提供比使用单个帧的方法更稳健的结果。因此，未来的工作可能会更深入地利用时间、上下文和空间信息，通过创新的模型设计来实现连续帧。

表征学习的自我监督：

相互监督的信号自然存在于从相同的真实世界场景但不同的视角采样的跨模态数据中。然而，由于缺乏对数据的深入理解，目前的方法无法挖掘每个模态之间的共同关系。未来，研究可以集中在如何使用多模态数据进行自我监督学习，包括预训练、微调或对比学习。通过实现这些最先进的机制，融合模型将加深对数据的理解，并取得更好的结果，这在其他领域已经显示出一些有希望的迹象，同时为自动驾驶感知留下了空白[48]。

5.3.感知传感器的内在问题

领域偏差和分辨率与真实世界场景和传感器高度相关[26]。这些意想不到的缺陷阻碍了自动驾驶深度学习模型的大规模培训和实施，这需要在未来的工作中解决。

数据域偏差：

在自动驾驶感知场景中，不同传感器提取的原始数据伴随着严重的领域相关特征。不同的相机系统有其光学特性，而激光雷达可能因机械激光雷达和固态激光雷达而异。更重要的是，数据本身可能存在领域偏见，如天气、季节或位置[6，71]，即使数据是由相同的传感器捕获的。因此，检测模型不能顺利地适应新的场景。由于泛化失败，这些缺陷阻碍了大规模数据集的收集和原始训练数据的可重用性。因此，在未来的工作中，找到一种消除领域偏见和自适应集成不同数据源的方法至关重要。

与数据解决方案冲突：

来自不同模态的传感器通常具有不同的分辨率[42100]。例如，激光雷达的空间密度明显低于图像的空间密度。无论采用何种投影方法，都会因为找不到对应关系而消除一些信息。这可能导致模型被一个特定模态的数据所支配，无论是由于特征向量的不同分辨率还是原始信息的不平衡。因此，未来的工作可以探索一种与不同空间分辨率的传感器兼容的新的数据表示系统。

6.总结

在本文中，我们回顾了50多篇关于用于自动驾驶感知任务的多模态传感器融合的相关论文。具体来说，我们首先提出了一种创新的方法，从融合的角度，通过更合理的分类法将这些论文分为三类。然后，我们对激光雷达和相机的数据格式和表示进行了深入的调查，并描述了不同的特征。最后，我们对多模态传感器融合的剩余问题进行了详细分析，并介绍了几个新的可能方向，这可能对未来的研究工作有所启发。

（一）视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

视频官网：www.zdjszx.com

（二）国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！