SOTA！融合雷达数据，提升三维目标检测性能

最新推荐文章于 2024-05-28 15:38:47 发布

自动驾驶之心

最新推荐文章于 2024-05-28 15:38:47 发布

阅读量17

点赞数

文章标签：目标检测人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247605395&idx=4&sn=bbe3208bdf4763b938a1ebeac56b7036&chksm=cffd9f64fac121dfe80a2a5b75803b3ae194de58ad6e4e35a23412e7ce3a641589aa83509a53&scene=126&sessionid=0

版权

作者 | AI驾驶员编辑 | 智驾实验室

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『多传感器融合』技术交流群

本文只做学术分享，如有侵权，联系删文

在本论文中，作者提出了一种新颖的方法来解决自动驾驶车辆感知系统中用于三维目标检测的摄像头和雷达传感器融合问题。

作者的方法基于深度学习的最新进展，并利用两种传感器的优势来提高目标检测性能。

具体来说，作者使用最先进的深度学习架构从摄像头图像中提取2D特征，然后应用一种新颖的跨域空间匹配（CDSM）转换方法将这些特征转换为3D空间。

随后，作者采用互补融合策略将它们与提取的雷达数据融合，以生成最终的3D目标表示。为了证明作者方法的有效性，作者在NuScenes数据集上进行了评估。

作者将作者的方法与单一传感器性能以及当前的最新融合方法进行了比较。作者的结果显示，所提出的方法比单一传感器解决方案具有更优越的性能，并且可以直接与其他顶级融合方法竞争。

1 Introduction

现代汽车每天都在变得越来越自动化。尽管它们距离实现完全的5级自动化还相去甚远，但作者在这个研究领域看到了显著的进展。其中一个主要原因是人工感知系统的进步。在自动驾驶车辆（AV）中，感知系统负责识别周围环境：过滤掉背景，检测其他道路使用者（汽车、行人等）和重要的基础设施地标（车道线、交通标志、交通信号灯等）。

为了执行感知任务，车辆配备了多功能的传感器套件[2]。一个典型的配置包括一个高分辨率的正面摄像头，用于一般目标检测，辅以较低分辨率的周围摄像头，以提供360度的视野，用于检测靠近车辆周围的物体。此外，高密度的激光雷达传感器用于精确的距离测量，而近距离和远距离雷达的结合则用于获取准确的速度和距离读数。

这些传感器的原始数据，以图像或点云的形式，随后被处理以获得环境的模型，例如用于路径规划算法和安全系统。从原始传感器读数创建这样的模型是一项复杂的任务。

这个任务复杂到传统算法无法处理在不同真实道路场景中收集的数据的多样性和数量，因此使用了机器学习方法来处理传感器输入。特别是神经网络已经被证明在执行目标检测任务方面非常出色。它们在图像中识别物体的能力超越了人类。同样，激光雷达和雷达传感器的点云对人类来说可能难以解释，而神经网络可以轻松地找到其中的模式。

图2：CDSM融合方法在NuScenes测试数据上的预测结果示例。预测的物体在摄像头视图和增强的BEV视图中以蓝色标记。绿色立方体表示匹配的 GT 标签。在BEV视图中添加了激光雷达点云作为参考。

为了确保AV感知系统的性能更上一层楼，融合算法将单个传感器数据和最终的感知结果结合在一起。融合结果应该更加健壮，并从每个传感器的优势中受益。另外，在部分传感器被遮挡或其他故障模式的情况下，融合算法提供了一层额外的安全保障。它可以通过依赖更可靠的传感器读数来减轻危险的影响。融合算法可以分为高级或低级。高级融合利用来自各个传感器检测到的目标信息，并在目标层面进行融合。

低级融合更接近原始输入数据，直接使用每个数据流的信息。它们之间的主要区别在于，高级融合操作已经处理过的传感器检测结果，而低级融合操作原始或仅最小处理过的数据流本身。因此，低级融合神经网络可能发现跨传感器数据中的模式，这些模式在更高（目标）层面是无法访问的。

在自动驾驶车辆的情况下，低级融合通常是在图像和点云数据上进行的。图像来自汽车级摄像头，在许多方面都已被证明对感知系统至关重要。但当涉及到点云数据时，有两种传感器，激光雷达和雷达，它们产生的输出看似非常相似，但之间存在重大差异。

这两种传感器都能在3D空间中产生带有精确距离读数的点云数据，但激光雷达点云的稀疏性（几十万点）比雷达（几百点）要密集得多，因此包含更多信息。这是有代价的，因为旋转式激光雷达是更昂贵的传感器，从制造商的角度来看，不适合大规模生产。

固态激光雷达成本较低，但这类传感器的发展尚未达到汽车级传感器所需的技术就绪水平[5]。另一方面，雷达使用无线电频率而不是光波，对道路环境影响的抵抗力要强得多。它们还为每个检测到的点提供关于速度的额外信息，这对于交通环境建模可能非常有用。考虑到这些差异，两种传感器似乎都适合与摄像头图像进行融合，因为它们可以提供互补信息。也就是说，在深度学习传感器融合领域，与摄像头-激光雷达融合解决方案相比，摄像头-雷达融合解决方案的数量要少得多。

在本文中，作者提出了一种基于神经网络的低 Level 摄像头-雷达融合感知系统新方法，以解决这些传感器数据融合的问题。在相关研究部分的基础上，作者采用了用于摄像头-LiDAR解决方案的多视角方法，分别使用单独的单阶段架构进行摄像头处理和 Voxel 化的雷达点云处理。然后，在这些获得的特征图上，作者采用一种新颖的跨领域空间匹配（CDSM）低 Level 融合块将它们融合在一起，以产生增强的鸟瞰图内部表示。基于这种表示，检测Head生成带有相关参数的3D物体边界框。作者在nuScenes[6]数据集上进行了实验，并展示了作者解决方案的优势和不足。

本文结构如下。在第2部分，作者回顾了关于单传感器感知以及不同融合技术的研究工作。在第3部分，作者介绍了基于摄像头-雷达的感知系统方法，包括详细的网络架构和CDSM融合方法。第4部分包含了进行的实验的描述以及作者以感知关键绩效指标（KPIs）和融合相对于单传感器系统的改进增益形式获得的结果。最后，作者在第5部分得出结论。

2 Related Work

作者在两个主要领域回顾相关工作：首先，作者讨论了深度学习技术在视觉识别方面的发展；其次，作者调研了无监督学习及其在视觉数据应用方面的进展。

Camera object detection

在摄像机图像中的目标检测任务是第一个成功应用卷积神经网络解决方案的领域。从那时起，研究行人通过应用新颖的架构和机制不断改进算法以提高性能。作者可以将目标检测方法分为两大类：2D图像平面和单目3D域检测器。

在2D检测器中最易识别的架构之一是单次射击的YOLO（You Only Look Once）网络。随着时间的推移，已经提出了改进措施以提高初始网络性能。YOLOv2利用 Anchor 框机制，不是预测原始边界框大小，而是相对于最适合的预定义 Anchor 大小进行预测。YOLOv3 引入了多尺度训练，以在不同的神经网络特征金字塔网络（FPN） Level 上对小、中、大物体进行处理，然后在非最大抑制（NMS）算法之前进行拼接。YOLOv4 通过应用跨阶段部分连接（CPS）主干，路径聚合网络（PAN），以卷积块注意力机制（CBAM）形式的注意力，CIoU 度量改进损失计算和mish激活函数来细化网络架构。基于相同的概念，RetinaNet 架构以Focal Loss的形式引入了改进。新的损失函数改善了类别不平衡问题以及整体训练速度和稳定性。

进一步优化单次射击检测器的架构，谷歌的研究行人更深入地研究了模型缩放，即模型的宽度、深度和分辨率。在他们的论文EfficientNet中，通过复合系数，他们设计了一种更小、更快、但性能更好的架构，该架构是从具有各种宽度、深度和分辨率参数的模型集合中选择的。紧随这个想法，引入了检测网络架构EfficientDet，它使用EfficientNet作为主干。此外，在多尺度特征融合的思想基础上，他们提出了加权的双向特征金字塔网络（BiFPN），以更有效地传播内部网络表示。在EfficientNetV2中，对主干架构进行了进一步优化，以便在模型大小方面实现更好的训练速度和参数效率。不同的主干架构在Deep Layer Aggregation（DLA）[18]中有所展示。作者提出更深入的特征聚合以改善跨主干层的信息共享。这包括迭代深度聚合（IDA）和分层深度聚合（HDA）这两种新颖的特征聚合方法。

尽管从单个单目相机图像在3D空间中进行目标检测要复杂得多，但最近的研究表明，特定的神经网络架构也能实现有意义的结果。在CenterNet[19]中，2D模型的扩展，所提出的方法是将3D目标检测分为两步。

第一步是对给定图像中长方体的中心进行 Anchor-Free 预测，

第二步是回归所有3D参数，如深度、3D尺寸和旋转角度。在预测中心投影后，获得3D结果。同样，在FCOS3D[21]中，作者使用一组预定义的图像中3D地标点来执行2D中心性预测，并根据2D位置和深度将其投影到2.5D空间。其余参数也在3D空间中进行回归，以得到最终的目标预测。

Pointcloud object detection

来自激光雷达和雷达的输入传感器数据以点坐标及其对应特征的形式呈现。根据传感器的不同，特征可以是激光雷达的反射强度或雷达的截面和速度。这类点的列表通常称为点云。在神经网络方面，点云处理带来了一些挑战。网络必须对输入点的所有排列具有不变性；改变输入列表中数据的顺序应该产生相同的结果。这类列表的长度也可能因传感器读数而异，但由于神经网络架构的结构，它倾向于接受固定的输入大小。另一方面，当点云数据散布在三维空间时，数据非常稀疏（95%的空间是空的）。这些问题导致了对点云处理采用了两种神经网络方法：逐点方法和 Voxel 方法。

在分类网络PointNet [22]中，逐点方法使用变换密集层分别提取每个点的特征，尽管这些层的权重是共享的。为了确保对点顺序的不变性，使用最大池化层来提取全局特征。另一个逐点架构PointRCNN [23]采用两阶段方法进行3D目标检测任务。第一阶段，从背景中分割点，并以自下而上的方式生成少量的检测。在第二阶段，这些检测针对局部空间特征和全局语义特征进行逐点精细化，从而产生精确的边界框和置信度分数。

对于检测问题，更常用的是 Voxel 方法。在VoxelNet [24]中引入的思想是将点散布在三维空间中，为了最小化计算努力和数据稀疏性，整个空间被划分为较小的立方体，称为 Voxel 。每个 Voxel 都由Voxel Feature Extractor（VFE）层基于其中的点来计算特征。特征提取后，固定大小的输出张量通过3D卷积层处理，以生成3D检测结果。Pointpillars [25]算法通过将 Voxel 沿z轴垂直堆叠来改变特征提取。通过这样做，提取的输出是一个三维张量，而不是像在VoxelNet中的四维张量。这使得可以使用2D卷积而不是3D卷积，正如论文所示，这极大地提高了推理时间（达到实时）。

在最近称为PV-RCNN [26]的工作中，作者提出将逐点处理方法和 Voxel 处理方法结合到一个网络架构中。除了正常的 Voxel 特征提取之外， Voxel 子网络的特征图与原始Voxel Set Abstraction Module中的逐点特征融合。融合的结果产生了关键点特征，并传递到检测Head以放大输出网格中的某些区域。

另一方面，仅雷达的3D目标检测是一个较少受到关注的研究课题。在最近的NVRadarNet [27]中，作者使用传感器峰值检测，而不是原始的天线信号，来创建一个稀疏的雷达点云。这样的点云散布在BEV网格上，并通过编码器-解码器模型处理以产生3D物体。他们在NuScenes数据集上展示了结果，但这些结果与激光雷达传感器在3D目标检测任务的KPI指标方面所取得的成绩相去甚远。

Fusion architectures

传感器融合算法将不同传感器获取的数据结合起来，以获得改进的性能。这对于图像和点云数据尤其如此，因为摄像头和激光雷达或雷达以完全不同但互补的方式感知环境。由于传感器读数域在图像相机视图和点云3D周围视图之间存在显著差异，因此融合成为一个将这两种信息源结合在一起的问题。

在多视图设置中（如AVOD ，MV3D ，PointFusion ），每个传感器输入都由一个独特的子网络处理，以获得视图特定的特征图。这些视图通常包括鸟瞰点云视图（BEV）、前视点云视图（3D点投影到相机平面视图）和相机视图。基于拼接的特征图，融合区域建议网络确定检测Head感兴趣的区域（ROIs）。在这些解决方案中，融合过程通常以端到端的方式进行，其中具体的详细信息合并方法由训练过程中学习的网络权重分布确定。

另一种融合方法是在PointPillars++ [31] 和 Joint 3D Object Detection [32] 中展示的。作者通过将相机像素信息融合到相应点的激光雷达前视图来增强点云数据。然后，这个融合的前视图作为带有额外特征的点云由神经网络处理。通过在输入处理过程中执行这个确定性步骤，将特定的融合方法强加于神经网络架构，并更好地调节两种信息源的使用。

驾驶区域和道路检测领域的创新解决方案也可应用于目标检测融合。在[33]中，除了将激光雷达点云投影到相机图像上，作者还应用深度完善算法从前视图中的稀疏点创建密集深度图，从而为融合算法提供更多信息。在[34]中提出了相反的解决方案。不是将点投影到图像上，而是将像素数据投影到点云BEV占用网格上，从而产生完全不同的融合域，但取得了相当的结果。

所讨论的所有融合方法都是针对来自激光雷达传感器的点云数据设计的。只有少数深度学习融合解决方案利用相机图像和雷达点云，如中提到的。

在相同的论文中，作者提出了一个基础的多视图网络架构，并展示了他们的结果，但就性能而言，这些结果仍不及最先进的相机-激光雷达融合方法。

他们解释说，这种差距可能是由于训练数据集较小，以及两种传感器特定的点云数据差异所致。另一方面，CRFNet [36] 在更新的、大得多的NuScenes数据集上实现了令人满意的相机-雷达融合结果。融合的方法是在相机图像上增强投影的雷达点，但以图像中的垂直线形式。作者展示了相对于仅使用相机的 Baseline 目标检测网络的改进。尽管如此，目标是在2D相机图像空间中检测到的，而不是3D域。

最近的CenterFusion 架构在3D空间获得预测。融合是在类似CenterNet仅视觉模型方法的处理过的相机图像上进行的，但带有来自雷达检测的额外信息。

首先在图像中预测2D中心点和目标特征，然后通过椎体关联机制与提取的雷达特征关联。两个传感器特征图的融合导致最终的3D预测。在FUTR3D [38]中，作者提出了一个框架，用于融合相机图像以及激光雷达和雷达点云。他们采用基于 Query 的模态不可知特征采样器来融合所有传感器特征，并采用 Transformer 解码器直接预测3D目标。

这些融合解决方案目前在官方NuScenes 3D目标检测排名[39]中取得了顶尖位置。在下一节中，作者将介绍作者针对相机和雷达传感器数据融合的方法。作者目标是完整的3D预测域，因为这样的预测对于感知系统来说更受欢迎的输入，尽管它们也更难以获得。为此，作者提出了一种新的简单但有效的融合图像和点云特征图的方法，以完成上述任务。

3 Proposed Approach

作者的融合方法采用了多视角设置的构想。作者使用不同的网络架构来处理摄像机图像和雷达点云数据（图3）。摄像机输入在2D图像域中处理，而雷达点云在增强的BEV中的3D空间处理。两个神经网络都能在其相关领域产生各自的输出，即预测。此外，为了实现低 Level 传感器融合，作者还引入了新颖的跨领域空间匹配（CDSM）融合块。作者的目标是融合来自中间网络层的特征图，在3D空间中创建单一的融合输出。这些特征图的主要问题是它们来自完全不同的领域（2D摄像机和3D BEV），因此为了从这两个来源中受益，作者需要在融合之前对它们进行空间对齐，这一步骤在CDSM块中完成。

Image network architecture:

在摄像头图像处理方面，作者设计了一个基于EfficientDet网络结构的单阶段检测器。作者的模型主要由三个要素组成（图4）：用于初步特征提取的EfficientNetV2主干网络，跨不同抽象层次的BiFPN特征聚合和合并，以及最终用于预测最终结果的分类和回归 Head 。

尽管核心概念保持不变，但作者对网络结构进行了修改，以便针对作者的特定目的进行优化。输入分辨率被改为512x384像素，以更好地适应NuScenes数据集的图像宽高比。作者从主干网络在3个阶段提取特征，分别对应官方的P3-P5 Level （输入大小的1/8、1/16和1/32）。然后，作者人为地增加了P6和P7 Level 以匹配BiFPN块的所需输入。经过4次BiFPN重复后，精细的特征被传递到分类 Head 进行目标类别和得分的预测，以及回归 Head ，用于边界框的坐标和大小。

作者为主干网络EfficientNetV2使用了ImageNet预训练权重，并为BiFPN和预测 Head 随机初始化权重。通过实验，作者决定在所有层中使用LeakyRelu和Mish激活函数的混合。作者还尝试了不同的归一化层：批归一化（BatchNorm）、组归一化（GroupNorm）、实例归一化（InstanceNorm）和层归一化（LayerNorm），其中最后一个对作者来说效果最好。

最后，模型在5个不同的尺度上预测目标（输出网格大小为输入大小的1/8、1/16、1/32、1/64和1/128），相对于相应的 Anchor 点。Anchor 点根据每个网格大小以及3个缩放因子和3个比率因子的组合自动生成，结果是每个网格单元有9个 Anchor 点。为了得到最终结果，作者同时使用非最大抑制（Non-Max Suppression）算法对所有5个尺度的检测进行处理，以移除重复和重叠的检测。

Pointcloud network architecture:

对于雷达点云处理网络，作者从处理激光雷达点云的架构中汲取灵感。由于数据稀疏性高，作者采用 Voxel （voxel）方式的处理雷达数据，将整个3D空间划分为1m x 1m x 1m大小的 Voxel 网格。然后在 Voxel 特征提取器（VFE）中，基于每个 Voxel 内的雷达点，作者计算其特征。每个 Voxel 的最大点数限制为5，因为VFE需要固定数量的点。为了确保足够的推理时间，作者将沿Z轴堆叠 Voxel ，将 Voxel 特征张量从4D转换为3D。

在提取 Voxel 特征之后，点云网络架构与之前描述的图像网络相似：它有一个 Backbone 网络，一个BiFPN块和预测头（图5）。由于作者不再使用ImageNet预训练权重，作者将 Backbone 网络更改为DLA34，作者进一步对其进行重大修改以适用于点云处理。作者的新 Backbone 网络比EfficientNet小得多，但仍然提供了DLA架构的聚合功能。BiFPN块和预测头的层数也减少了。这样做的原因是雷达点云的稀疏性以及需要处理的信息量相对较低（与相机或激光雷达相比）。

点云处理网络的输出是一组3个BEV网格，尺寸分别为80x80、40x40和20x20（分别对应的单元格大小为1m、2m和4m），覆盖了80x80m的ROI。物体也是相对于每个尺度的自动生成 Anchor 点进行预测的。不同之处在于，编码边界框中心的额外Z维度以及高度，以及每个预测在3D中的偏航旋转角度。在NMS算法中结合预测得到最终结果。

CDSM fusion:

作者提出的解决方案中的主要创新是一个名为跨域空间匹配（CDSM）的融合块。这个融合块的核心概念基于相机图像和雷达点云的传感器读数中包含的信息的空间对齐，因为来自每个网络中间层的相应特征图最初是错位的。CDSM包括两个主要元素：域对齐和特征融合。

为了更好地理解这个想法，作者首先引入一个车辆坐标系（VCS）。VCS以汽车的前轴为中心，X轴指向前方，Y轴指向汽车的左侧，Z轴垂直向上。考虑到VCS，作者可以将传感器读数定位在这个统一的空间中，即图像和点云 Voxel 网格。如图6所示，两个输入的相关3D张量具有不同的方向。对于相机图像，前两个维度对应于VCS的ZY平面，学习的特征（最初是RGB值）沿X轴展开。在点云 Voxel 网格的情况下，前两个维度对应于VCS的XY平面，特征（最初是堆叠的VFE输出）沿Z轴展开。后一种表示与预期的单次感知网络输出一致，即一个BEV网格（在XY平面）带有检测到的物体及其参数。然而，融合来自相机的信息存在问题，因为这些张量包含不同视角的特征。在CDSM融合块中，作者通过以下解决方案来解决这个融合问题。

领域对齐。在融合两个视图的信息之前，作者在VCS中调整张量以匹配它们的空间方向。为此，作者实现了一个自定义的CDSM旋转层来执行此类操作。原则上，作者使用四元数旋转链来计算最终的旋转矩阵，并通过矩阵乘法将其应用到张量索引上。作者还通过计算出的偏移量调整新索引，以对齐（0,0,0）张量索引（因为某些旋转会导致负的索引值）。最后，作者从旧索引中收集所有值，并根据新索引将它们分散到旋转后的输出张量中。作者使用CDSM旋转层来匹配相机和雷达特征图张量与VCS的关系。相机特征张量的参数和旋转顺序如下：首先围绕第一个维度（VCS Z轴）旋转180度，然后围绕第二个维度（VCS Y轴）旋转90度。值得一提的是，所选择的旋转组合和顺序不仅保证了两个张量在VCS方面具有相同的方向，还使VCS的两个中心对齐在相同的位置。这种对齐无法通过输入张量维度的任何排列和/或转置组合来实现。

对齐特征融合。两个张量在空间上对齐后，作者能够在融合块中合并来自两个视图的信息。作者提出的CDSM融合方法（图7）可以分为以下三个阶段。

首先，作者从不同尺度 Level 获取相机特征图，并将它们在单个BEV地图上进行聚合。这样做的原因是，这些特征图负责检测相机平面中不同大小的物体，因此由于透视映射，它们对应于BEV域中从摄像头传感器一定距离处的特定区域。作者使用了Grad-CAM[40]可视化方法来确定每个尺度 Level 特征的距离范围。此外，在聚合特征图时，作者考虑了摄像头传感器视场与输出BEV网格的关系。这确保了特征不会放置在图像中不可见的3D空间中。

在聚合之后，作者提出了一个特征细化步骤。该步骤包括在BEV领域中的几个2D卷积层。与主干网络概念类似，作者从详细特征处理到更一般的特征，创建同一BEV区域的小网格表示。这个步骤使得作者能够在端到端的过程中，在训练过程中获得不同特征图之间的关系，而不是手动将它们调用到模型上。它还创建了更高层次的特征，这些特征在BEV中捕捉更大的区域。最终，细化步骤的结果是一组3个不同的3D领域内摄像头传感器的BEV网格特征图，作者可以直接将这些特征图与点云特征图融合。

由于作者将摄像头和点云特征转换到了相同的坐标系中，因此融合这两者特征相对简单。在BEV中，聚合和细化的摄像头特征图在空间上与雷达数据处理期间获得的一致。在架构设计过程中，作者确保了网格大小兼容，以便作者可以将这两个网格张量连接起来，沿着通道维度将每个网格单元的摄像头和雷达特征堆叠起来。作者对不同 Level 的连接特征图应用另一个BiFPN块，以进一步将两个传感器的信息融合到单一的3D内部表示中。这个表示在预测 Head 中使用，以产生最终的3D目标预测。

4 Experiments & Results

第四部分：实验与结果开始。

Dataset

作者在2019年发布的一个流行汽车数据集NuScenes上训练了作者的融合解决方案。该数据集中的记录场景来自不同环境和城市的真实世界测试驾驶。关于数据集的详细信息在[6]号论文中有介绍。作者使用了NuScenes 1.0版本。在传感器设置方面，汽车配备了6个摄像头、1个顶部激光雷达和5个雷达传感器。为了本研究的目的，作者仅使用了前视RGB摄像头以及激光雷达和雷达读数（图8和9）在所选视场（FOV）内。作为FOV，作者决定只考虑点云数据和摄像头视图重叠的区域，在前面提到的车辆坐标系中，该区域在X轴上限制为0m到80m（车前），Y轴上为-40m到40m（从右到左），Z轴上为0m到5m（高度）。数据集的划分遵循常见的训练、验证和测试集划分，其大小分别为19872、8111和4485个样本。

图像数据预处理. NuScenes的前置RGB摄像头的分辨率为1600x900像素。这对于神经网络来说处理起来相当大。为了减轻作者模型的计算要求，作者决定将图像调整到512x384像素的分辨率。作者还使用了信箱调整机制以保持图像的宽高比和像素值的标准化，所有RGB通道的像素值从0到1。

点云数据预处理. 点云数据以传感器坐标系中的一系列带有XYZ坐标的点以及传感器特定的读数形式出现，激光雷达的强度以及雷达的参数，如速度、横截面积等。首先，作者将这些坐标映射到定义的VCS中。此外，作者移除了落在作者定义的FOV之外的点，因为它们对融合算法没有有用的信息。同时，这一步骤有助于提高网络推理速度，因为需要处理的数据点更少。将点云裁剪到FOV内，导致进一步处理的激光雷达和雷达传感器的点更少。每个样本中点云的平均点数是LiDAR为13567，雷达为45。

标签数据预处理. NuScenes数据集是依据激光雷达点云和摄像头图像在3D空间中由人工手动标注的。标签被划分为如汽车、行人、卡车等类别。每个类别都有子类别，例如，坐着的行人、走路的行人等。为了目标检测的目的，作者只区分顶级类别。在摄像头目标检测中，作者将3D标签的角点变换到摄像头图像平面上，并绘制包含所有投影点的最小矩形边界框。作者还根据原始图像调整系数对这些边界框进行缩放。对于点云和融合检测，作者直接从NuScenes数据库获取标签，因为它们位于相同的空间，但是进行了标签过滤的相关后处理。

NuScenes标签提供了关于相机图像中目标可见性的额外信息，以及属于给定标注目标的激光雷达和雷达点的数量。这些信息使作者能够过滤掉一些标签，因为在这种特定的传感器设置中没有必要的数据来检测这些目标。根据表1中的特征，作者决定只使用可见性超过40%的标签作为摄像头目标检测的GT，以及至少有一个雷达检测的标签作为3D增强的BEV目标检测的GT。对于融合，作者希望证明它的鲁棒性，因此GT应在摄像头中可见或具有雷达检测或两者都有。最后，作者决定只关注汽车目标，因为该类别的雷达检测足够可靠，可以观察到与该传感器融合的真实好处。

Training

为了证明作者的方法并展示与单一传感器解决方案相比的融合优势，作者分别训练了相机和雷达检测网络，同时还将CDSM模块与多传感器融合模型相结合。

从单一传感器架构开始，作者训练了相机的2D和雷达的3D处理模型。除了为相机EfficientNetV2 Backbone 网络使用ImageNet预训练权重外，作者还使用随机Xavier初始化方法为DLA Backbone 网络、BiFPN和预测头进行初始化。对于分类头，作者使用了调整过超参数的Focal Loss 和，以及回归头在两个模型上的加权均方误差损失。优化过程使用Adam，初始学习率为，并使用余弦退火学习率调度器进行运行时调整。作者训练模型直到早停，监控验证损失，并且在5个连续周期内没有显示出任何改进。

两个训练模型都取得了不错的结果，使它们成为CDSM融合的合适子模型。然而，作者发现将2D相机指标与3D雷达和融合指标进行比较并没有太大意义。因此，作者训练了另一个仅限视觉的模型，该模型基于单目相机图像预测3D空间中的物体。该模型在现有的2D模型基础上进行训练，但在从BiFPN获取2D特征图后，作者应用了CDSM对齐和聚合层，而没有与雷达数据融合。这种将2D特征转换为3D空间的方法使得可以直接预测该域中的物体，与CDSM融合概念相似。

图9：带有投影的激光雷达点（蓝色）、雷达点（红色）和标签的NuScenes鸟瞰图。除了颜色编码的标签可见性外，实线样式表示标签目标内同时有激光雷达和雷达点，虚线仅表示激光雷达点，点线表示标签目标内既没有激光雷达点也没有雷达点。彩色观看效果最佳。

最后，作者采用了两个单一传感器模型，并进行了端到端的CDSM融合模型训练。作者使用之前预训练的子模型来从相机和雷达数据中获取传感器特定的特征图，并对它们应用CDSM对齐、聚合和融合。训练超参数与单一传感器相似。作者还尝试对预训练网络进行微调。起初，作者冻结它们，只训练架构的融合部分。之后，作者在训练过程中也优化了它们，为融合目的进行精确调整。

Results

对获得的结果在NuScenes数据集的一部分上进行了评估，这部分数据集包含在训练和验证过程中未使用的特定场景序列。作者使用了目标检测任务中最流行的性能度量标准——平均平均精度（mAP），该标准基于不同阈值下的精确度-召回关系。此外，mAP高度依赖于真实阳性关联方法，因此作者明确指出在每次实验中使用了哪种方法，无论是基于3D长方体中心的交并比（IoU）还是绝对距离（DIST）。

在图10中，作者展示了从单一摄像头和雷达传感器网络以及融合网络获得的同一数据集样本的结果。对于仅使用摄像头的模型，作者可以观察到高目标检测率以及准确的总体大小估计。另一方面，3D中的深度距离预测相当不准确，导致由于关联过程失败而出现不匹配的检测。相比之下，仅使用雷达的模型能够准确预测位置，但由于检测数量较少，它在预测目标尺寸和方向方面存在困难。最终，融合模型利用了两种传感器的优势并减轻了它们的不足。雷达数据的精确位置读数与摄像头预测的准确大小、方向和类别相结合，使得CDSM模型在性能上大大超过了单一传感器模型。

在表2中，作者安排了训练的单传感器和融合模型的性能指标，以及用于计算mAP分数的模态、预测域和关联方法。

尽管仅使用视觉的2D模型具有最高的mAP分数，但它是唯一一种在2D图像空间产生预测的解决方案，这比3D目标检测要简单得多。当作者考虑在3D域中的仅视觉模型时，由于每个目标基于单一的图像帧进行深度估计任务，mAP分数显著降低。基于雷达点云的模型分数甚至更低，这是由于前面讨论的高雷达检测稀疏性问题。即使存在预测，也常常被视为假阳性，因为关联条件未得到满足，这主要是因为尺寸估计不准确。

融合模型在性能上大幅超过了单一传感器。在考虑相同的关联度量时，mAP要高得多，这表明更多的目标被正确检测，总体准确性更好。此外，在微调版本中，作者不冻结单一传感器子模型并在训练过程中调整其参数，取得了更好的结果，因为相机和雷达数据的内部表示是为了融合目的而调整的。

融合模型的另一个优势在于单一传感器未能检测到特定目标的情况。在图11中，作者展示了一个这样的边缘案例，其中摄像头模型正确识别了右侧的停泊车辆，但前进的车辆距离 GT 位置太远。另一方面，雷达模型对前方车辆的检测非常精确，而完全错过了停泊的车辆。融合模型预测了所有目标，甚至在两种传感器的位置和尺寸估计上都有所改进。

最后，作者将作者的结果与其他最先进的技术在表3中进行了比较。为此，作者根据NuScenes官方排名计算了mAP分数，这是四种不同关联方法（即DIST 0.5m、1m、2m和4m）的mAP平均值。

图10：对于同一测试数据集场景，从上到下分别针对仅摄像头、仅雷达和CDMS融合模型的预测结果。在图像和相应的3D视图中，作者标记了作为真阳性匹配的预测边界框（蓝色预测，绿色匹配目标），假检测（洋红色）和遗漏的目标（黄色）。在BEV视图中添加了LiDAR点云以供参考。

最相关的类似3D摄像头和雷达融合解决方案是CenterFusion和FUTR3D。在为汽车类别目标计算最终的mAP分数时，作者看到在CDSM模型中，这两个方法都有所改进。此外，尽管作者的仅摄像头模型获得的分数低于类似的FCOS3D模型，但融合的应用弥补了这一差距，并超过了这两种仅视觉方法。

5 Conclusion

在本文中，作者专注于自动驾驶应用中来自摄像头和雷达设备的传感器数据融合。作者介绍了单一传感器方法的相关工作，以及给定传感器套件可用的融合解决方案。此外，作者详细描述了使用所提出的跨领域空间匹配转换和融合来解决这一问题的创新方法。

为了证明CDSM融合的优势，作者在开放的NuScenes数据集上进行了实验。作者训练了单一传感器模型和提出的融合架构。结果显示，后者在总体mAP指标和特定边缘情况下都有显著提升。最后，作者将作者的方法与其他三维目标检测领域的最先进解决方案进行了比较，为摄像头和雷达设置实现了卓越的性能。

虽然作者对当前结果感到满意，但作者观察到摄像头和雷达单一传感器对融合的贡献之间存在差距。作者相信，采用机器学习方法处理原始雷达天线信号，而不是内部后处理检测，可以改善这些传感器的感知能力，并且通过作者的方法，也能提升整个融合系统的性能。

参考

[1].Graphical Abstract.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！

自动驾驶感知：目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群；

多传感器标定：相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群；

多传感器融合：多传感器后融合技术交流群；

规划控制与预测：规划控制、轨迹预测、避障等技术交流群；

定位建图：视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群；

三维视觉：三维重建、NeRF、3D Gaussian Splatting技术交流群；

自动驾驶仿真：Carla仿真、Autoware仿真等技术交流群；

自动驾驶开发：自动驾驶开发、ROS等技术交流群；

其它方向：自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群；

扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SOTA！融合雷达数据，提升三维目标检测性能

作者|AI驾驶员编辑| 智驾实验室点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『多传感器融合』技术交流群本文只做学术分享，如有侵权，联系删文在本论文中，作者提出了一种新颖的方法来解决自动驾驶车辆感知系统中用于三维目标检测的摄像头和雷达传感器融合问题。作者的方法基于深度学习的最新进展，并利用两种传感器的优势来...
复制链接

扫一扫