自动驾驶中图像与点云融合的深度学习研究综述

最新推荐文章于 2025-04-01 10:18:02 发布

dxzysk

最新推荐文章于 2025-04-01 10:18:02 发布

阅读量3.7k

点赞数 6

分类专栏： 3D点云深度学习文章标签：深度学习自动驾驶目标检测人工智能

原文链接：https://arxiv.org/pdf/1910.07738.pdf

版权

3D点云同时被 2 个专栏收录

2 篇文章

订阅专栏

深度学习

2 篇文章

订阅专栏

原文：Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review

作者：Yaodong Cui, Student Member, IEEE, Ren Chen, Wenbo Chu, Long Chen , Senior Member, IEEE, et al.

链接：https://arxiv.org/abs/2004.05224v1

摘要——自动驾驶汽车在过去几年中经历了快速发展。然而，由于复杂和动态驾驶环境的性质，实现完全自主并非易事。因此，自动驾驶汽车配备了一套不同的传感器，以确保强大、准确的环境感知。特别是相机-激光雷达融合正在成为一个新兴的研究主题。然而，到目前为止，还没有针对基于深度学习的相机-激光雷达融合方法的批判性评论。为了弥合这一差距并激发未来的研究，本文致力于回顾最近利用图像和点云的基于深度学习的数据融合方法。这篇综述简要概述了图像和点云数据处理的深度学习。随后在深度补全、目标检测、语义分割、跟踪和在线交叉传感器校准方面对相机-LiDAR融合方法进行了深入回顾，这些方法是根据各自的融合级别进行组织的。此外，我们在公开可用的数据集上比较了这些方法。最后，我们确定了当前学术研究与实际应用之间的差距和被忽视的挑战。基于这些观察，我们提供了我们的见解并指出了有希望的研究方向。

关键词——Camera-LiDAR 融合、传感器融合、深度补全、目标检测、语义分割、跟踪、深度学习

1.引言

深度学习和传感器技术的最新突破推动了自动驾驶技术的快速发展，这有可能提高道路安全、交通效率和个人移动性 [1]-[3]。然而，外感受传感器的技术挑战和成本限制了当前自动驾驶系统在有限和受控环境中的少量应用。一个关键的挑战是实时充分准确地了解车辆的 3D 周围环境。为此，利用多种具有互补特性的传感器来增强感知和降低成本的传感器融合已成为一个新兴的研究主题。

特别是，最近的深度学习进步显着提高了相机-激光雷达融合算法的性能。相机和 LiDAR 具有互补的特性，这使得相机-LiDAR 融合模型与其他传感器融合配置（雷达-相机、LiDAR-雷达等）相比更加有效和流行。更具体地说，基于视觉的感知系统以低成本实现令人满意的性能，通常优于人类专家 [4]、[5]。然而，单摄像头感知系统无法提供可靠的 3D 几何形状，这对于自动驾驶至关重要 [6]、[7]。另一方面，立体相机可以提供 3D 几何图形，但这样做的计算成本很高，并且在高遮挡和无纹理环境中挣扎 [8]-[10]。此外，相机基础感知系统在复杂或恶劣的照明条件下挣扎，这限制了它们的全天候能力[11]。相反，LiDAR 可以提供高精度的 3D 几何形状，并且不受环境光的影响。然而，移动 LiDAR 受限于低分辨率（从 16 到 128 个通道）、低刷新率（10Hz）、恶劣的天气条件（大雨、雾和雪）和高成本。为了缓解这些挑战，许多工作结合了这两个互补的传感器，并展示了比 a-modal 方法显着的性能优势。因此，本文重点回顾当前用于相机-激光雷达融合的深度学习融合策略。

Camera-LiDAR 融合并非易事。首先，相机通过将真实世界投影到图像平面来记录真实世界，而点云保留了 3D 几何形状。此外，在数据结构上，点云是不规则的、无序的、连续的，而图像是规则的、有序的、离散的。点云和图像之间的这些特征差异导致了不同的特征提取方法。在图1中，显示了图像和点的特征之间的比较。

之前关于多模态数据融合深度学习方法的评论 [12]、[13] 涵盖了广泛的传感器，包括雷达、相机、激光雷达、超声波、IMU、里程表、GNSS 和高清地图。本文仅关注相机-LiDAR 融合，因此能够对个别方法进行更详细的评论。此外，我们涵盖了更广泛的感知相关主题（深度补全、动态和静止对象检测、语义分割、跟踪和在线交叉传感器校准），这些主题相互关联且未完全包含在之前的评论中 [13]。本文的贡献总结如下：

据我们所知，本文是第一篇关于自动驾驶中基于深度学习的图像和点云融合方法的调查，包括深度补全、动态和静止物体检测、语义分割、跟踪和在线交叉传感器校准。
本文根据融合方法对方法进行了组织和回顾。此外，本文还介绍了最先进的相机-LiDAR 融合方法的最新（2014-2020）概述和性能比较。
本文提出了被忽视的开放性问题，例如开放集检测和传感器不可知框架，这些问题对于自动驾驶技术的实际部署至关重要。此外，还介绍了开放挑战的趋势和可能的研究方向摘要。

图1 图像数据和点云数据之间的比较

本文首先简要概述了第二部分中图像和点云数据的深度学习方法。在第三至第八节中，分别介绍了基于相机-LiDAR 的深度补全、动态目标检测、静止目标检测、语义分割、目标跟踪和在线传感器校准的评论。第7节讨论了趋势、公开挑战和有希望的方向。最后，第 8节给出了总结。图 2 展示了本次调查的总体结构和相应的主题。

图2 与基于图像和点云融合的感知相关的任务及其相应部分

2.深度学习的简要回顾

A. 图像深度学习

卷积神经网络 (CNN) 是用于图像处理和理解的最有效、最强大的深度学习模型之一。与多层感知器 (MLP) 相比，CNN 具有平移不变性，包含更少的权重并利用分层模式，使其非常有效地提取图像语义。 CNN 的隐藏层由卷积层、批量归一化层、激活层和池化层的层次结构组成，这些层经过端到端的训练。这种分层结构提取抽象层次和感受野越来越高的图像特征，从而实现高级语义的学习。

B. 点云深度学习

点云是一组数据点，它们是激光雷达对被检测物体表面的测量。在数据结构上，点云是稀疏的、不规则的、无序的和连续的。点云对 3D 结构和每点特征（反射强度、颜色、法线等）中的信息进行编码，这对尺度、刚性变换和排列是不变的。这些特征使得点云上的特征提取对于现有的深度学习模型具有挑战性，这需要修改现有模型或开发新模型。因此，本节重点介绍点云处理的常用方法。

1) 基于体积表示：体积表示将点云划分为固定分辨率的 3D 网格，其中每个网格/体素的特征都是手工制作或学习的。这种表示与标准 3D 卷积 [14]-[16] 兼容。 [17] 中提出了几种技术来减少过拟合、方向敏感性和捕获物体的内部结构。然而，体积表示在体素化过程中失去了空间分辨率和细粒度的 3D 几何形状，这限制了其性能。此外，尝试增加其空间分辨率（更密集的体素）会导致计算和内存占用量呈立方增长，使其无法扩展。

2）基于索引/树表示：为了缓解高空间分辨率和计算成本之间的限制，利用树状数据结构的自适应分辨率分区方法，如 kd-tree [18]、[19]、八叉树 [20]– [22] 提出。通过将点云划分为一系列不平衡的树，区域可以根据它们的点密度进行划分。这允许点密度较低的区域具有较低的分辨率，从而减少不必要的计算和内存占用。点特征与预先构建的树结构一起被提取。

3）基于2D视图表示：通过将点云投影到多个2D视图平面来生成2D视图/多视图。这些渲染的多视图图像可以通过标准的 2D 卷积处理，并且来自这些视图的特征通过视图池层 [23] 进行聚合。因此，置换不变问题是通过将点云转换为图像来解决的，而平移不变问题是通过聚合来自不同视图的特征来实现的。齐等人。 [17] 将体积表示与通过球体渲染生成的多视图相结合。不幸的是，2D 视图方法在视图渲染过程中会丢失 3D 几何信息，并且难以进行每点标签预测 [19]。

4）基于图表示：点云可以表示为图，并且可以在空间或谱域中的图上实现类似卷积的操作[24]-[26]。对于空间域中的图卷积，操作由 MLP 在空间相邻点上执行。谱域图卷积将卷积扩展为通过拉普拉斯谱 [27]-[29] 对图进行谱滤波。

5）基于点表示：基于点表示的方法消耗点云而不将其转换为中间数据表示。这个方向的早期工作使用共享多层感知器 (MLP) 来处理点云 [30]、[31]，而最近的工作集中在为点定义专门的卷积操作 [32]-[38]。

点云直接学习的开创性工作之一是 PointNet [30]、[31]，它采用独立的 T-Net 模块来对齐点云和共享 MLP 来处理单个点以进行逐点特征提取。 PointNet 的计算复杂度随着输入的数量线性增加，与基于体积的方法相比，它更具可扩展性。为了实现置换不变性，所有点都相同的共享 MLP 提取逐点特征。这些特征通过对称操作（即最大池化）聚合，它们也是置换不变的。 PointNet的特征提取过程定义为：

其中 x 表示输入点，h 表示每点特征提取函数（即共享 MLP），fsym 表示对称函数（即最大轮询），g 是我们想要近似的一般函数。

然而，PointNet 无法在不同级别提取局部点间几何。为了减轻这一挑战，Qi 等人。 [30] 通过将点分组为多个集合并在本地应用 PointNets，扩展了 PointNet 以从不同级别提取特征。为了降低 PointNet++ [30] 的计算和内存成本，RandLA-Net [39] 将随机点采样模块和基于注意力的局部特征聚合模块分层堆叠，以在保持高效率的同时逐步增加感受野。

与基于 PointNet 的方法不同，点之间的空间关系在逐点卷积中明确建模。逐点卷积旨在将标准 2D 离散卷积推广到连续 3D 空间。主要挑战是将标准卷积中的离散权重滤波器替换为连续权重函数。这个连续的权重函数是使用 PointConv [40] 中的 MLP 以及 KPConv [38] 和 PCNN [33] 中的相关函数来近似的。更具体地说，PCNN [33] 将卷积核定义为具有权重的 3D 点。采用核点和输入点坐标的高斯相关函数用于计算任何给定 3D 坐标处的加权矩阵。 KPConv [38] 遵循这个想法，但使用线性相关函数。此外，KPConvs [38] 分层应用于局部点补丁，这类似于标准 CNN 的概念。在 3D 连续空间中输入点x∈R3处的这种通用逐点卷积 F 定义为：

其中 h 是每点核函数，它计算给定输入点和核点坐标的权重矩阵。 xi 和 fi 是 x 的第 i 个相邻点及其对应的特征（强度、颜色等）。 Nx 是输入点 x 的所有相邻点，它们是使用 KNN 或半径邻域确定的。

3.深度补全

深度补全的目的是将样本稀疏的不规则深度提升到稠密的规则深度，方便下游感知模块处理。深度补全可以减少 LiDAR 扫描中点的严重不均匀分布。例如，由满是点的手代表的远处物体被上采样以匹配它们更近的物体。通常采用高分辨率图像来指导3D 深度上采样，深度补全任务可以表示为：

其中，网络 f (.) 由ω 参数化，在给定输入x 的情况下，预测基本事实G，损失函数表示为 L(,.,) 。

图3给出了深度补全模型的时间线及其相应的融合类别，在KITTI基准数据集[41]上深度补全模型的对比结果列于表1中。

表1 KITTI数据集上深度补全模型的对比结果

图3 深度补全模型的时间线及其相应的融合水平

A. 单摄像机与激光雷达融合

图像引导的深度补全背后的思想是密集的RGB/颜色信息包含相关的3D几何体。，因此，可以利用图像作为深度上采样的参考。

1) 信号级融合：2018 年，Ma和Karaman [42]提出了一个基于ResNet [52]的自动编码器网络，该网络利用 RGB-D图像（即与稀疏深度图连接的图像）来预测密集深度图。然而，这种方法需要像素级深度的ground truth，很难获得。为了解决这个问题，Ma等人[43]提出了一个基于模型的自监督框架，只需要一系列图像和稀疏深度图像进行训练。这种自我监督是通过采用稀疏深度约束、光度损失和平滑度损失来实现的。然而，这种方法假设物体是静止的。此外，由此产生的深度输出是模糊的，并且可能无法保留输入深度。

为了实时生成清晰的密集深度图，Cheng 等人[44]将RGB-D图像馈送到卷积空间传播网络 (CSPN)。该CSPN旨在直接提取依赖于图像的亲和度矩阵，以较少的运行时间在关键测量中产生明显更好的结果。在CSPN++中，Cheng等人[45]提出动态选择卷积核大小和迭代以减少计算。此外，CSPN++采用加权组装来提高其性能。

2) 特征级融合：Jaritz等人[46]提出了一个自动编码器网络，它可以在不应用有效性掩码的情况下从稀疏深度图和图像中执行深度补全或语义分割。图像和稀疏深度图首先由两个并行的基于NASNet的编码器处理[53]，然后将它们融合到共享解码器中。这种方法可以通过非常稀疏的深度输入（8通道LiDAR）实现不错的性能。Wang等人[54] 设计了一个可集成模块（PnP），它利用稀疏深度图来提高现有基于图像的深度预测网络的性能。该PnP 模块利用从稀疏深度计算的梯度来更新现有深度预测网络生成的中间特征图。Eldesokey等人[47]提出了一个用于非引导深度补全的框架，该框架并行处理图像和非常稀疏的深度图，并将它们组合在一个共享解码器中。此外，利用归一化卷积处理高度稀疏的深度并传播置信度。Valada等人[55]将单阶段特征级融合扩展到网络深度不同的多阶段。同样，GuideNet [48]在编码器的不同阶段将图像特征融合到稀疏深度特征中，以指导稀疏深度的上采样，从而在KITTI深度补全基准测试中取得了最佳性能。这些方法的限制是缺乏具有密集深度地面实况的大规模数据集。

3) 多级融合：Van Gansbeke 等人。[49]在图像引导的深度补全网络中进一步结合了信号级融合和特征级融合。该网络由全局和局部分支组成，用于并行处理RGB-D数据和深度数据，然后根据置信度图将它们融合。

B. 立体相机与激光雷达融合

与RGB图像相比，立体相机的密集深度差异包含更丰富的地面实况3D几何。另一方面，LiDAR 深度稀疏但精度更高。这些互补的特性使基于立体激光雷达融合的深度补全模型能够产生更准确的密集深度信息。然而，值得注意的是立体相机的范围有限，并且在高遮挡、无纹理的环境中表现不佳，这使得它们不太适合自动驾驶。

特征级融合：其中一项开创性的工作来自 Park 等人[9]，其中使用两阶段CNN从密集立体视差和点云计算高精度密集视差图。CNN的第一阶段采用LiDAR和立体视差来产生融合视差。在第二阶段，这个融合的视差和左边的RGB图像在特征空间中融合，以预测最终的高精度视差。最后，根据这种高精度视差重建3D场景。这种方法的瓶颈是缺乏大规模带注释的立体激光雷达数据集。LidarStereoNet [50]通过无监督学习方案避免了这一困难，该方案采用图像变形/光度损失、稀疏深度损失、平滑度损失和平面拟合损失进行端到端训练。此外，“反馈回路”的引入使LidarStereoNet能够抵抗嘈杂的点云和传感器错位。同样，Zhang等人[51]提出了一种深度补全的自我监督方案，损失函数包括稀疏深度、光度和平滑度损失。

4.动态目标检测

目标检测（3D）的目标是在3D空间中定位、分类和估计有向边界盒。动态目标检测中的目标包括常见的动态道路目标（汽车、行人、自行车等）。目标检测主要有两种方法：序列法和单步法。基于序列的模型由一个提议阶段和一个按时间顺序排列的3D边界框（bbox）回归阶段组成。在提议阶段，提议可能包含感兴趣目标的区域。在bbox回归阶段，基于从3D几何中提取的区域特征对这些方案进行分类。然而，序列融合的性能受到各个阶段的限制。另一方面，一步模型由一个阶段组成，其中2D和3D数据以并行方式处理。

表2 KITTI数据集上3D目标检测模型的比较结果

3D目标检测网络和典型模型架构的时间线如图4和图5所示，表2给出了KITTI数据集上3D目标检测模型的比较结果[56]。表3总结并比较了动态目标检测模型的主要特征以及优缺点。

表3 动态目标检测模型的总结与比较

方法	主要特征	优点	缺点
基于椎体	1.利用图像目标检测器生成2D方案，并将其投影成截头体3D搜索空间进行3D目标检测 2.结果级融合与多级融合	利用二维搜索结果限制了三维搜索空间，降低了计算量	1.由于顺序结果级融合的整体性能受到图像检测器的限制 2.不利用来自多模态传感器的冗余信息
基于点融合	1.对高层图像语义进行逐点融合，并在融合点云中进行三维目标检测 2.特征级融合	将高层次语义图像融合到点，解决了密集RGB和稀疏深度分辨率不匹配的问题分辨率不匹配问题	1.图像和激光雷达模型高度耦合，降低了总体可靠性，增加了开发成本 2.三维搜索空间不受限制，计算量大
基于多视图	1.从BEV生成3D方案，并对这些方案执行3D框回归 2.特征级融合	启用标准二维卷积和现成模式的使用。使其更具可扩展性	1.假设所有物体在激光雷达的BEV中都是可见的。但事实往往并非如此 2.小对象实例的空间信息在连续卷积运算中丢失 3.ROI融合破坏了细粒度的几何信息
基于体素	1.使用基于体素的神经网络进行3D边界框回归和融合图像语义和体素方面的信息 2.特征级融合	兼容标准3D卷积	1.在体素化过程中会丢失空间分辨率和细粒度的三维几何信息 2.计算和内存占用随着分辨率呈立方体增长，使其无法扩展

图4 3D目标检测网络的时间线及其相应的融合级别

图5 动态目标检测的三种典型模型架构之间的比较

A. 基于2D提议的序列模型

基于 2D 提议的顺序模型尝试在提议阶段利用 2D 图像语义，这种方法利用了现成的图像处理模型。具体来说，这些方法利用图像目标检测器来生成 2D 区域提议，这些提议被投影到 3D 空间作为检测种子。有两种投影方法可以将 2D 建议转换为 3D。第一个是将图像平面中的边界框投影到点云，从而产生一个平截头体形状的 3D 搜索空间。第二种方法将点云投影到图像平面，从而产生具有逐点 2D 语义的点云。

1) 结果级融合：结果级融合的直觉是使用现成的 2D 目标检测器来限制 3D目标检测的3D搜索空间，从而显著减少计算量并提高了运行时间。然而，由于整个管道取决于 2D目标检测器的结果，因此它受到基于图像的检测器的限制。

结果级融合的早期工作之一是F-PointNets [57]，其中2D边界框首先从图像生成并投影到3D空间。将生成的投影平截头体方案输入到基于PointNet[31]的检测器中，用于3D目标检测。Du等人[58]将2D到3D提议生成阶段扩展为一个额外的提议细化阶段，这进一步减少了对背景点不必要的计算。在细化阶段，采用基于模型拟合的方法过滤种子区域内的背景点。最后将滤波后的点输入bbox回归网络。RoarNet[59]遵循了类似的想法，但在提案细化阶段使用了神经网络。首先，使用几何一致性搜索[60]基于每个2D bbox生成多个3D圆柱体方案，从而得到比F-pointNet更小但更精确的平截头体方案[57]。这些最初的柱面方案然后由基于PointNet[30]的头网络进行处理，以进行最终的细化。综上所述，这些方法假设每个种子区域只包含一个感兴趣的目标，但对于拥挤的场景和行人等小对象则不然。

解决上述问题的一种可能方法是用2D语义分割代替2D目标检测器，用逐点种子建议替换按区域种子建议。Yang等人[61]提出的密集型点目标探测器（IPOD）是在这个方向上的一项工作。第一步，利用2D语义分割来滤除背景点，这是通过将点投影到图像平面和与2D语义标签相关联的点来实现的。生成的前景点云保留了上下文信息和细粒度位置信息，这对于区域建议和bbox回归至关重要。在接下来的逐点建议生成和bbox回归阶段，使用两个基于PointNet++[30]的网络进行建议特征提取和bbox预测。此外，文中还提出了一种新的标准PointsIoU来加速训练和推理。在高遮挡或多目标场景中，这种方法比其他最先进的方法具有显著的性能优势。

2) 多级融合：另一个可能的改进方向是将结果级融合与特征级融合相结合，其中一项工作是PointFusion [62]。PointFusion首先利用现有的二维目标检测器来生成2D bbox。通过利用这些bbox，将点投影到图像平面来选择相应的点，并定位通过bbox的点。最后，基于ResNet[52]和PointNet[31]的网络结合图像和点云特征来估计3D目标。在这种方法中，图像特征和点云特征按建议融合，用于 3D 中的最终目标检测，这有助于 3D bbox 回归。然而，它的提案阶段仍然是非模态的。在 SIFRNet [63] 中，首先从图像生成截锥体提议。然后将这些截锥体提议中的点云特征与其对应的图像特征结合起来，进行最终的3D bbox回归。为了实现尺度不变性，PointSIFT [64]被合并到网络中，此外，SENet 模块用于抑制信息量较少的特征。

3) 特征级融合：早期的多模式融合尝试[75]，[76]是在像素方面进行的，其中三维几何体被转换为图像格式或附加为图像的附加通道。直觉是将3D几何投影到图像平面上，利用成熟的图像处理方法进行特征提取。结果输出也在图像平面上，这对于在3D空间中定位对象并不理想。2014年，Gupta等人提出了一种基于R-CNN[77]的2D目标检测、实例和语义分割体系结构DepthRCNN[75]。它在图像的RGB通道中对来自微软Kinect相机的3D几何结构进行编码，这些通道包括水平视差、离地高度和重力角度（HHA）。Gupta等人于2015年提出了扩展深度RCNN[78]，通过对齐3D CAD模型进行3D目标检测，从而显著提高了性能。2016年，Gupta等人开发了一种新技术，用于在基于图像数据训练的网络和不可见的成对图像模式（深度图像）之间进行有监督的知识转移[76]。2016年，Schlosser等人[79]进一步利用2D CNN上的学习RGB-HHA表示进行行人检测。然而，HHA数据是由激光雷达的深度而不是深度相机生成的。作者还注意到，如果RGB和HHA的融合发生在网络的深层，则可以获得更好的结果。

密集RGB和稀疏深度之间的分辨率不匹配意味着只有一小部分像素具有对应的点。因此，直接将RGB信息附加到点上会导致大部分纹理信息的丢失，使得融合变得毫无意义。为了缓解这一挑战，PointPainting[66]在逐点融合之前提取高级图像语义。更具体地说，PointPainting [66]遵循了[61]中将点投影到2D语义地图的思想。但不是使用2D语义来过滤非对象点，2D语义只是作为附加通道附加到点云。作者认为，这种技术使PointPainting变得灵活，因为它可以将任何点云网络应用于这种融合数据。为了证明这种灵活性，融合的点云被输入到多个现有的点云检测器中，这些检测器基于PointRCNN[80]、VoxelNet [14]和PointPillar [81]。然而，这将导致图像和激光雷达模型之间的耦合。这就需要在图像模型发生变化时对激光雷达模型进行重新训练，降低了总体可靠性，增加了开发成本。

B. 基于3D方案的序列模型

在基于3D提议的序列模型中，3D提议直接从2D或3D数据生成。消除了二维到三维的建议变换，极大地限制了三维目标检测的三维搜索空间。三维方案生成的常用方法包括多视图方法和点云体素化方法。

基于多视图的方法利用点云的鸟瞰视图（BEV）表示生成三维方案。BEV是首选的视点，因为它避免了遮挡，保留了物体的方向和坐标的原始信息。这些方向和坐标信息对于三维目标检测至关重要，同时可以直接在BEV和其他视图之间进行坐标转换。

点云体素化将连续的不规则数据结构转化为离散的规则数据结构。这使得应用标准的三维离散卷积和利用现有的网络结构来处理点云成为可能。缺点是丢失了一些空间分辨率，其中可能包含细粒度的三维结构信息。

1）特征级融合：从 BEV 表示生成 3D 建议的开创性和最重要的工作之一是 MV3D [67]。 MV3D 在像素化的自顶向下 LiDAR 特征图（高度、密度和强度）上生成 3D 建议。然后将这些3D候选点投影到LiDAR前视图和图像平面上，提取并融合bbox回归的区域特征。通过ROI池化在感兴趣区域（ROI）级别进行融合。视图ROIviews定义为：

其中，T3D→views 表示将点云 p3D 从 3D 空间投影到鸟瞰图 (BEV)、前视图 (FV) 和图像平面 (RGB)的转换函数，通过ROI-pooling R获得特征向量 fviews 的定义为：

MV3D有一些缺点。首先，在 BEV上生成 3D 建议假设所有感兴趣的目标都被捕获，从这个角度来看没有遮挡。这种假设不适用于小物体实例，例如行人和骑自行车的人，它们可以被点云中的其他大物体完全遮挡。其次，在连续卷积操作引起的特征图下采样过程中，小目标实例的空间信息丢失。第三，以对象为中心的融合通过ROI池化结合图像和点云的特征图，在此过程中破坏了细粒度的几何信息。此外，值得注意的是，冗余提议会导致 bbox 回归阶段的重复计算。为了解决这些问题，已经提出了多种方法来改进 MV3D。

为了改进小目标的检测，聚合视图目标检测网络 (AVOD) [68] 首先使用来自 BEV 点云和图像的特征图改进了MV3D [67] 中的提议阶段。此外，采用自动编码器架构将最终特征图上采样到其原始大小。这缓解了小物体可能通过连续卷积操作被下采样到一个“像素”的问题。所提出的特征融合区域提议网络 (RPN) 首先通过裁剪和调整大小操作从多种模态（BEV 点云和图像）中提取等长特征向量。紧接着是 1×1 卷积操作用于特征空间降维，可以降低计算成本并提高速度。Lu等人 [69] 还利用了基于编码器-解码器的提议网络，该网络具有空间通道注意（SCA）模块和扩展空间上采样（ESU）模块。 SCA 可以捕获多尺度上下文信息，而 ESU 可以恢复空间信息。

以目标为中心的融合方法 [67]、[68] 的问题之一是在 ROI 池化过程中丢失了细粒度的几何信息。Liang等人的 ContFuse [70]解决通过逐点融合丢失的信息，这种逐点融合是通过连续卷积[83]融合层实现的，这些融合层在网络的多个阶段桥接了不同尺度的图像和点云特征，这是通过首先为点云BEV 表示中的每个像素提取K最近邻点来实现的。然后将这些点投影到图像平面以检索相关的图像特征。最后，在输入 MLP 之前，融合特征向量根据它们对目标“像素”的几何偏移进行加权。然而，当 LiDAR 点稀疏时，逐点融合可能无法充分利用高分辨率图像。Liang等人[73]通过结合多种融合方法，进一步扩展逐点融合，例如信号级融合（RGB-D）、特征级融合、多视图和深度补全。特别是，深度补全使用图像信息对稀疏深度图进行上采样以生成密集的伪点云。这种上采样过程减轻了稀疏逐点融合问题，从而促进了跨模态表示的学习。此外，作者认为多个互补任务（地面估计、深度补全和2D/3D目标检测）可以帮助网络实现更好的整体性能。然而，逐点/逐像素融合会导致“特征模糊”问题。当点云中的一个点与图像中的多个像素或其他方式相关联时，就会发生这种“特征模糊”，这会混淆数据融合。类似的，Wang等人 [72] 用稀疏非均匀池代替 MV3D [67]中的 ROI 池，这使得来自多种模式的特征图之间的有效融合成为可能。

Sindagi等人提出的 MVX-Net [71]。介绍了两种逐点或逐体素融合图像和点云数据的方法。这两种方法都采用预训练的2D CNN进行图像特征提取，并采用基于VoxelNet [14]的网络来估计融合点云中的目标。在逐点融合方法中，首先将点云投影到图像特征空间以提取图像特征，然后再进行体素化并由VoxelNet处理。体素融合方法首先对点云进行体素化，然后将非空体素投影到图像特征空间以进行体素/区域特征提取。这些体素特征仅在VoxelNet的后期附加到它们相应的体素上。MVX-Net 在 KITTI 基准上取得了最先进的结果并优于其他基于LiDAR的方法，同时与 [14] 相比降低了误报率和漏报率。

结合体素化点云和图像的最简单方法是附加RGB信息作为体素的附加通道。在 Song和Xiao [82] 2014年的论文中，通过在体素化点云上滑动3D检测窗口来实现3D目标检测。分类是由一个集成的样本支持向量机进行的。在这项工作中，颜色信息通过投影附加到体素上。Song等人用3D离散卷积神经网络进一步扩展了这个想法[84]。在第一阶段，体素化点云（从 RGB-D数据生成）首先由多尺度3D RPN处理以生成3D建议。然后通过联合对象识别网络 (ORN) 对这些候选目标进行分类，该网络将图像和体素化点云作为输入。然而，体积表示引入了边界伪影并破坏了细粒度的局部几何。其次，图像和体素化点云之间的分辨率不匹配使得融合效率低下。

C. 单步模型

单步模型在单个阶段执行建议生成和bbox回归。通过将建议和bbox回归阶段融合为一个步骤，这些模型通常在计算上更有效率，这使它们更适合移动计算平台上的实时应用程序。

Meyer等人[74]将LaserNet [85]扩展到多任务和多模态网络，对融合图像和LiDAR 数据执行3D目标检测和3D语义分割。两个CNN并行处理深度图像（从点云生成）和前视图图像，并通过将点投影到图像平面来关联相应的图像特征来融合它们。该特征图被输入到LaserNet以预测边界框的每点分布并将它们组合起来以获得最终的3D建议。这种方法非常高效，同时实现了最先进的性能。

5.静止道路目标检测

下面对基于相机-激光雷达融合的静止道路目标检测方法的最新研究进展进行简要论述。静止道路物体可以分为道路物体（例如路面和道路标记）和越野物体（例如交通标志）。道路和越野物体为自动驾驶汽车提供安全驾驶参考。

在图6和图7中，比较了车道/道路检测和交通标志识别 (TSR) 中的典型模型架构。表4给出了不同模型在KITTI道路基准 [56]上的比较结果，并给出了这些模型之间的总结和比较。

表4 不同模型在KITTI道路基准 [56]上的比较结果

图6 道路/车道检测的一些典型模型架构和融合方法。

图7 典型的基于融合的交通标志识别流程

A. 车道/道路检测

现有调查 [93]-[95] 对传统的多模式道路检测方法进行了详细回顾。这些方法[96]-[99]主要依靠视觉进行道路/车道检测，同时利用激光雷达进行路缘拟合和障碍物掩蔽。下面重点介绍基于深度学习的道路提取融合策略的最新进展。

基于深度学习的道路检测方法可以分为基于BEV方法或基于前置摄像头视图的方法。基于BEV的方法 [86]-[89] 将LiDAR深度和图像投影到BEV进行道路检测，保留对象的原始x、y 坐标和方向。在[86]中，使用CNN从点云预测密集BEV高度估计，然后将其与BEV图像融合以进行准确的车道检测。但是，这种方法无法区分不同的车道类型。类似地，Lv等人[88]也使用了BEV LiDAR栅格图和BEV图像，但以并行方式处理它们。Yu等人[89]提出了一种多阶段融合策略（MSRF），它结合了不同网络级别的图像深度特征，显着提高了其性能。然而，这种策略也相对增加了其计算成本。Wulff 等人[87] 使用信号级融合生成融合后的BEV占用网格，该网格由基于U-net的道路分割网络处理。然而，密集RGB和稀疏深度之间的信号级融合由于网格分辨率低，导致密集纹理信息丢失。

基于前置摄像头视图的方法[90]-[92]将LiDAR深度投影到图像平面以提取道路表面，这在2D到3D边界的转换中存在精度损失。LCNet [90] 比较了道路检测的信号级融合（早期融合）和特征级融合（后期和交叉融合），发现交叉融合是性能最好的融合策略。与[88]类似，PLARD [91]在多个阶段逐步融合图像和点云特征。Lee和Park [92] 专注于通过减少输入大小的球坐标变换方案来提高速度，利用基于SegNet的语义分割网络对变换后的摄像机和激光雷达数据进行进一步处理。

B. 交通标志识别

在LiDAR扫描中，交通标志由于其逆反射特性而具有高度可区分性，但缺乏密集纹理使其难以分类。相反，交通标志图像块可以很容易地分类。然而，基于视觉的TSR系统很难在3D空间中定位这些交通标志。因此，各种研究提出将相机和LiDAR用于TSR。现有的评论[93]、[100]已经全面覆盖了传统的交通标志识别方法和部分深度学习方法。因此，本节简要概述了传统的交通标志识别方法，主要关注最新进展。在典型的 TSR 融合管道 [101]-[105] 中，交通标志首先根据其回复反射特性定位在LiDAR扫描中。然后将检测到的交通标志的这些3D位置投影到图像平面以生成交通标志块，然后将其输入图像分类器进行分类。该TSR 融合管道如图7所示。

对于采用典型TSR融合管道的方法，主要区别在于分类器。这些分类器包括基于Deep Boltzmann Machine (DBM) 的分层分类器 [102]、SVM [101] 和 DNN [104]。总而言之，这些方法都采用结果级融合和分层目标检测模型。他们假设交通标志在 LiDAR 扫描中是可见的，但由于遮挡，有时情况并非如此。此外，该管道受到移动 LiDAR 检测范围的限制。

为了解决这些问题，Deng和Zhou [106]将图像和点云结合起来，为交通标志检测和分类生成彩色点云。此外，利用检测到的交通标志的3D几何特性来减少误报。在[107]中，基于先验知识检测交通标志，其中包括道路几何信息和交通标志几何信息。检测到的交通标志块由高斯-伯努利DBM模型分类。遵循这一思想，Guan等人[105]使用卷积胶囊网络进一步改进了交通标志识别部分。总而言之，这些方法利用多模态数据和先验知识改进了交通标志检测阶段。然而，先验知识通常是特定于区域的，这使得很难推广到新的交通区域。

6.语义分割

2D/3D语义分割旨在预测每像素和每点类别标签，而实例分割则同时也关心单个实例。通过对现有的用于2D语义分割、3D语义分割和实例分割的Camera-LiDAR融合方法进行调研，图8和9展示了3D语义分割网络和典型模型架构的时间线。

图8 3D 语义分割网络的时间线及其相应的融合水平

图9 语义分割的一些典型模型架构和融合方法

A. 2D语义分割

特征级融合：稀疏与稠密数据结合[46]提出了一种基于NASNet[53]的自动编码器网络，可用于利用图像和稀疏深度进行二维语义分割或深度补全。图像和相应的稀疏深度图经过两个并行编码器处理后融合到共享解码器中。Valada等人[55]采用了不同深度的多阶段特征级融合来促进语义分割。Caltagirone等人[90]利用上采样的深度图像和图像进行二维语义分割。使用稀疏深度图像（来自点云）和图像[108]对密集深度图像进行上采样。性能最好的交叉融合模型在两个并行的 CNN 分支中处理密集的深度图像和图像数据，中间有跳跃连接，并在最终卷积层中融合两个特征图。

B. 3D语义分割

特征级融合：Da和Nießner[109]提出了三维语义分割的多视点网络3DMV，它融合了体素化点云中的图像语义和点特征。利用二维CNNs从多幅对齐的图像中提取图像特征，并投影回三维空间。这些多视图图像特征在输入到三维CNNs中进行单体素语义预测之前，是基于最大池体素的，并与三维几何体融合。3DMV在ScanNet[110]基准上执行了其他基于体素的方法。然而，基于体素的方法的性能取决于体素分辨率，并受到体素边界伪影的影响。

为了缓解点云体素化带来的问题，Chian等人[111]提出了一种基于点的语义分割框架（UPF），该框架还能够有效地表示图像特征、几何结构和全局上下文先验知识。利用语义分割网络提取多视点渲染图像的特征，并投影到三维空间进行逐点特征融合。该融合点云由两个基于PointNet++[30]的编码器进行处理，以提取局部和全局特征，然后送入解码器进行逐点语义标签预测。类似地，多视图点网（MVPNet）[112]融合了多视图图像语义和三维几何，以预测逐点语义标签。

多面体格表示是多模态数据融合和处理的另一种方法。Su等人[113]提出的稀疏晶格网络（SPLATNet）采用稀疏双边卷积来实现空间感知表示学习和多模态（图像和点云）推理。在这种方法中，点云特征被插值到一个dl维的准自面体网格上，其中双边卷积被应用。结果将插值回点云。利用CNN从多视点图像中提取图像特征，并投影到三维网格空间中与三维特征相结合。融合后的特征图被CNN进一步处理以预测每个点的标签。

C. 实例分割

实例分割实质上是语义分割和目标检测的结合。它通过区分类中的单个实例来扩展语义分割任务，这使得它更具挑战性。

1)基于建议：Hou等人提出了3D-SIS[114]，这是一种两级3D CNN，在多视图图像和RGB-D扫描数据上执行逐体素3D实例分割。在三维检测阶段，利用基于ENet[115]的网络进行多视点图像特征提取和下采样。这种下采样过程解决了高分辨率图像特征图和低分辨率体素化点云特征图之间的不匹配问题。这些下采样的图像特征映射被投影回三维体素空间，并附加到相应的三维几何特征中，然后将这些特征输入到三维CNN中以预测目标类别和三维bbox姿态。在3D蒙版阶段，3D CNN获取图像、点云特征和3D目标检测结果，以预测每个体素实例标签。

Narita等[116]对2D全景分割做了扩展，对RGB图像和深度图像联合进行场景重建、3D语义分割和3D实例分割。该方法将RGB和深度帧作为实例和二维语义分割网络的输入。为了在帧之间跟踪标签，这些按帧预测的全景注释和相应的深度通过关联和集成到体积地图来引用。在最后一步，采用全连通条件随机场（CRF）对输出进行微调。但是，这种方法不支持动态场景，并且容易受到长期后漂移的影响。

2)无建议的方案：Elich等人[117]提出了3D-BEVIS，这是一个框架，使用聚类方法对聚集在2D语义上的点联合执行3D语义和实例分割任务。3D-BEVIS首先从二维BEV表示（RGB和地上高度）中提取全局语义分数图和实例特征图。这两个语义映射是传播到点使用图神经网络。最后，mean-shift算法[118]使用这些语义特征将点聚类成实例。这种方法主要受其依赖于来自BEV的语义特征，它可以从传感器位移引入遮挡。

7. 目标跟踪

多目标跟踪（MOT）的目标是保持目标的身份，并跟踪目标在数据帧中的位置，这对于自主车辆的决策是必不可少的。为此，本节回顾了基于相机-激光雷达融合的目标跟踪方法。基于目标初始化方法，MOT算法可以分为基于检测的跟踪（DBT）和无检测跟踪（DFT）两种。DBT或跟踪检测框架利用一系列的对象假设和由目标检测器产生的更高层次的线索来跟踪对象。在DBT中，通过数据（检测序列）关联或多假设跟踪来跟踪目标。相反，DFT框架是基于有限集统计（FISST）的状态估计。常用的方法有多目标多Bernoulli（MeMBer）滤波和概率假设密度（PHD）滤波。表5显示了KITTI多目标跟踪基准（car）上不同模型的性能[56]。图10列出了DBT和DFT方法之间的比较。

表 5 KITTI多目标跟踪基准（car）上不同模型的性能

图10 基于检测的跟踪（DBT）和无检测跟踪（DFT）方法的比较

A. 基于检测的跟踪

检测跟踪框架由两个阶段组成。在第一阶段，检测感兴趣的对象。第二阶段将这些对象随着时间的推移关联起来，并将它们表述为轨迹，这些轨迹被表述为线性程序。 Frossard 和 Urtasun [119] 提出了一个端到端的可训练跟踪检测框架，该框架由多个利用图像和点云的独立网络组成。该框架连续执行目标检测、提议匹配和评分、线性优化。为了实现端到端学习，检测和匹配是通过深度结构化模型(DSM)制定的。Zhang等人[120]提出了一种与传感器无关的框架，该框架采用损耗耦合方案进行图像和点云融合。与[119]类似，该框架由三个阶段组成，目标检测、邻接估计和线性优化。在目标检测阶段，图像和点云特征通过VGG-16[123]和PointNet[30]并行提取，并通过强大的融合模块进行融合。强大的融合模块旨在与单模态和多模态输入一起工作。邻接估计阶段通过邻接矩阵学习将最小成本流扩展到多模态。最后，根据最小成本流图计算最佳路径。

跟踪和3D重建任务可以联合执行。Luiten等人扩展了这个想法。[121]利用3D重建来改进跟踪，使跟踪对完全遮挡具有鲁棒性。提议的MOTSFusion包括两个阶段。在第一阶段，检测到的对象与时空轨迹相关联。这些轨迹使用匈牙利算法匹配并合并成轨迹。此外，MOTSFusion可以使用LiDAR单声道和立体声深度。

B. 无检测的跟踪

在无检测的跟踪中，对象通过基于过滤的方法手动初始化和跟踪。complexer-YOLO [122]是一个实时框架，用于对图像和点云数据进行解耦3D目标检测和跟踪。在3D目标检测阶段，2D语义被提取并逐点融合到点云。该语义点云被体素化并输入到3D复合体YOLO中以进行3D目标检测。为了加快训练过程，IoU被称为Scale-Rotation-Translation score(SRTs)的新指标取代，该指标评估边界框位置的3个DoF。多目标跟踪与检测分离，推理是通过标记多伯努利随机有限集滤波器(LMB RFS)实现的。

8. 在线交叉传感器校准

Camera和Lidar融合的先决条件之一是传感器之间的完美配准/校准，这可能难以满足。由于机械振动和热波动，传感器之间的校准参数不断变化。由于大多数融合方法对校准误差极为敏感，这可能会严重削弱其性能和可靠性。此外，离线校准是一个麻烦且耗时的过程。因此，在线自动交叉传感器标定的研究具有显着的实际效益。

A. 经典在线校准

在线校准方法在没有校准目标的情况下估计自然环境中的外在因素。许多研究[124]-[127]通过最大化不同模态之间的互信息（MI）（原始强度值或边缘强度）来发现外在的。然而，基于MI的方法对于纹理丰富的环境、大的校准和由传感器位移引起的遮挡并不鲁棒。或者，基于LiDAR的视觉里程计方法[128]使用相机的自我运动来估计和评估Camera-LiDAR外部参数。尽管如此，[128]仍然在努力应对大规模的去校准并且无法实时运行。

B. 基于深度学习的在线校准

为了缓解上述挑战，Schneider等人[129]设计了一个实时的CNN（RegNet）来估计外在的，它是在随机的非振动数据上训练的。提出的RegNet在两个并行分支中提取图像和深度特征，并将它们连接起来生成融合特征图。将融合后的特征映射送入一组网络中网络（NiN）模块和两个完全连通的层中进行特征匹配和全局回归。然而，RegNet对传感器的内在参数是不可知的，一旦这些内在参数发生变化，就需要重新训练。为了解决这个问题，CalibNet[130]学习以自我监督的方式最小化未校准深度和目标深度之间的几何和光度不一致性。由于内部仅在3D空间变换期间使用，因此校准网可应用于任何内部校准的相机。然而，基于深度学习的交叉传感器标定方法计算量大。

9.趋势、公开挑战和有希望的方向

无人驾驶汽车的感知模块负责获取和理解周围的场景。它的下游模块，如规划、决策和自我定位，依赖于它的输出。因此，它的性能和可靠性是整个无人驾驶系统能否胜任的先决条件。为此，激光雷达和摄像头的融合被应用于提高感知系统的性能和可靠性，使无人驾驶车辆能够更好地理解复杂场景（如城市交通、极端天气条件等）。因此，在本节中，我们总结了总体趋势，并讨论了这方面存在的挑战和潜在的影响因素。如表6所示，致力于提高融合方法的性能和融合管道的鲁棒性。

从上述方法中，我们观察到图像和点云融合方法的一些一般趋势，总结如下：

从二维到三维：随着三维特征提取方法的发展，在三维空间中对目标进行定位、跟踪和分割已成为研究的热点。
单任务到多任务：最近的一些工作[73]，[122]结合了多个互补任务，如目标检测、语义分割和深度补全，以实现更好的整体性能和降低计算成本。
信号级到多级融合：早期的工作通常利用信号级融合，其中三维几何体被转换到图像平面，以利用现成的图像处理模型，而最近的模型则尝试在多级（例如早期融合、晚期融合）和时间上下文编码中融合图像和激光雷达。

表6 与性能改进、可靠性增强相关的开放挑战

开放性挑战	有效方法或者解决方案
表现相关开放问题研究
融合数据的数据表示应该是什么	点表示+点卷积
如何对时间上下文进行编码	RNN/LSTM +生成模型
学习计划应该是什么	无监督+弱监督学习
什么时候用深度学习	具有明确目标且可客观验证的应用程序
可靠性相关开放问题研究
如何减轻相机与激光雷达的耦合	传感器-不可知框架
如何应对天气/光照条件影响	大量复杂天气、光照条件的数据集
如何改进对抗共计和边角案例	跨模态验证
如何解决开集目标检测问题	测试协议度量+新框架
如何平衡速度与精度的权衡	基于可伸缩性而开发的模型

A. 表现相关开放性问题研究

1）融合数据的数据表示应该是什么融合数据的数据表示形式的选择是设计任何数据融合算法的基础。当前用于图像和点云融合的数据表示包括：

附加3D几何图形作为图像的附加通道。基于图像的表示支持现成的图像处理模型。然而，结果也局限于二维图像平面，这对于自主驾驶来说不太理想。图像表示：
附加RGB信号/特征作为点云的附加通道。然而，由于高分辨率图像和低分辨率点云之间分辨率的不匹配，导致效率低下。点表示法：
将图像和点云特征/信号转换为中间数据表示，如体素化点云[82]。然而，基于体素的方法的可伸缩性较差。

最近的许多点云处理工作都集中在定义显式点卷积运算[32]、[33]、[35]–[38]、[62]，这些运算显示出巨大的潜力。这些点卷积更适合于提取细粒度的逐点和局部几何。因此，融合数据的点表示与点卷积相结合在相机激光雷达融合研究中具有很大的潜力。

2) 如何对时间上下文进行编码目前大多数基于深度学习的感知系统都倾向于忽略时间背景。这导致了许多问题，例如刷新率低导致的点云变形和传感器之间不正确的时间同步。这些问题会导致图像、点云和实际环境之间的不匹配。因此，将时间语境融入感知系统是非常重要的。

在自动驾驶的环境中，可以使用RNN或LSTM模型合并时间环境。在[131]中，使用LSTM自动编码器来估计周围车辆的未来状态，并相应地调整计划的轨迹，这有助于自主车辆更平稳地运行。在[121]中，利用时间上下文来估计自我运动，这有利于以后的任务相关头网络。此外，通过基于视觉里程计的方法，时间上下文有利于在线自校准[128]。根据这一趋势，可以通过编码时间上下文和生成模型来解决激光雷达低刷新率引起的不匹配问题。

3) 学习计划应该是什么目前大多数的摄像机-激光雷达融合方法都依赖于有监督学习，这需要大量的带注释的数据集。但是，对图像和点云进行注释既昂贵又耗时。这限制了当前多模态数据集的大小和监督学习方法的性能。

这个问题的答案是无监督和弱监督学习框架。最近的一些研究在这方面显示出巨大的潜力[24]、[43]、[50]、[101]、[132]。随着这一趋势的发展，未来在无监督和弱监督学习融合框架中的研究可以使网络在大的未标记/粗标记数据集上进行训练，从而获得更好的性能。

4) 何时使用深度学习方法深度学习技术的最新进展加速了自主驾驶技术的发展。然而，在许多方面，传统的方法仍然是当前自主驾驶系统中不可缺少的。与深度学习方法相比，传统方法具有更好的可解释性和更少的计算资源消耗。在自主车辆的决策和规划系统中，跟踪决策的能力至关重要。然而，目前的深度学习算法是不可追溯的，这使得它们不适合这些应用。除了这种黑盒困境，传统算法的实时性也受到青睐。

总之，深度学习方法应该应用于那些有明确目标的应用程序，这些目标是可以客观验证的。

B. 可靠性相关开放性问题研究

1) 如何减轻相机与激光雷达的耦合从工程的角度来看，自主车辆的冗余设计对其安全性至关重要。虽然激光雷达和相机的融合提高了感知性能，但也带来了信号耦合的问题。如果其中一条信号路径突然失效，整个管道可能会发生故障并损坏下游模块。这对于自动驾驶系统来说是不可接受的，因为它需要强大的感知管道。

为了解决这个问题，我们应该开发一个传感器不可知框架。例如，我们可以采用具有不同传感器输入的多个融合模块。此外，我们还可以使用一个多路径融合模块来接收异步多模态数据。然而，最好的解决方案仍然有待研究。

2) 如何改善所有天气/照明条件自动驾驶车辆需要在所有天气和照明条件下工作。然而，目前的数据集和方法主要集中在光照和天气条件良好的场景上。这会导致在真实世界中的糟糕表现，那里的光照和天气条件更加复杂。

解决这个问题的第一步是开发更多的数据集，其中包含广泛的照明和天气条件。此外，利用多模态数据处理复杂光照和天气条件的方法还需要进一步研究。

3) 如何处理对抗性攻击和角逐案件针对基于摄像头的感知系统的对抗性攻击已被证明是有效的。这对自动驾驶车辆造成了严重的危险，因为它在安全关键环境中运行。它可能很难确定攻击明确设计为某些感官情态。然而，感知结果可以通过不同的方式进行验证。在这种背景下，利用三维几何图形和图像联合识别这些攻击的研究可以得到进一步的探索。

由于自驾车汽车在不可预测的开放环境中运行，具有无限的可能性，因此在感知管道的设计中考虑角和边缘情况是至关重要的。感知系统应该预测看不见的和不寻常的障碍、奇怪的行为和极端天气。例如，骑自行车的人印在一辆大车上，人们穿着盛装。这些角落的情况往往很难处理只用相机或激光雷达管道。然而，利用来自多模态的数据来识别这些拐角情况可能比来自单模态传感器的数据更有效和可靠。这一方向的进一步研究将有助于自主驾驶技术的安全性和商业化。

4) 如何解决开集目标检测问题开集目标检测是在未知/不可见类的实例上测试目标检测器的场景。开集问题对于自主车辆来说是非常关键的，因为它是在无限类物体的无约束环境中工作的。当前的数据集通常对任何不感兴趣的对象使用背景类。但是，任何数据集都不能在后台类中包含所有不需要的对象类别。因此，目标检测器在开放集设置中的行为具有高度不确定性，这对于自动驾驶来说不太理想。

由于缺乏开放集目标检测意识、测试协议和度量标准，使得目前的目标检测研究很少对开放集性能进行明确的评估。Dhamija等人[133]最近的一项研究讨论和研究了这些挑战，提出了一种新的开放集协议和度量。作者提出了一种新的混合未知类别，包括已知背景对象和未知/不可见对象。基于此协议，当前的方法在一个测试集上进行测试，测试集包含一个由现有数据集的组合生成的混合未知类别。在最近对点云的另一项研究中，Wong等人[134]提出了一种技术，将不同类别中不需要的对象映射到类别无关的嵌入空间中进行聚类。

开放集挑战对于在现实世界中部署基于深度学习的感知系统至关重要。它需要整个研究界的更多努力和关注（数据集和方法，重点是未知对象、测试协议和度量等）。

5) 如何平衡速度和精度之间的权衡多幅高分辨率图像和大规模点云的处理给现有的移动计算平台带来了巨大的压力。这有时会导致帧下降，这可能会严重降低感知系统的性能。一般来说，它会导致高功耗和低可靠性。因此，在实际部署中平衡模型的速度和准确性是很重要的。

有研究试图检测帧下降。在[135]中，Imre等人提出了一种利用摄像机对上的多段（折线）拟合的多摄像机帧丢失检测算法。然而，帧丢失检测只能解决一半的问题。最难的部分是防止因帧下降而导致的性能下降。生成模型的最新进展显示了预测视频序列中缺失帧的巨大潜力[136]，它可以用于自动驱动，以填充图像和点云管道中的缺失帧。然而，我们认为解决掉帧问题最有效的方法是通过减少硬件工作量来防止掉帧。这可以通过仔细平衡模型的速度和精度来实现[137]。

为了实现这一点，深度学习模型应该能够降低计算成本，同时保持可接受的性能。这种可伸缩性通常是通过减少输入的数量（点、像素、体素）或网络的深度来实现的。从以前的研究[30]、[38]、[138]来看，基于点和基于多视点的融合方法比基于体素的方法更具可伸缩性。

10.结论

本文深入回顾了自动驾驶背景下点云和图像融合深度学习模型的最新进展。具体而言，本综述根据融合方法，涵盖深度补全、动态和静止目标检测、语义分割、跟踪和在线传感器校准等主题。此外，表格中还列出了公开可用数据集的性能比较、模型的亮点和优缺点。典型的模型架构以图形的方式做了展示。最后，在展望中总结了总体趋势并讨论了开放性挑战和未来可能的方向。这项调查提高了人们的认识，并提供了对研究界忽视但阻碍自动驾驶技术在现实世界中部署的问题的见解。