最新！自动驾驶中用于目标检测和语义分割的Radar-Camera融合综述

最新推荐文章于 2025-03-06 10:35:18 发布

自动驾驶之心

最新推荐文章于 2025-03-06 10:35:18 发布

阅读量1.5k

点赞数 1

文章标签：自动驾驶目标检测人工智能计算机视觉数码相机

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247542333&idx=1&sn=b6f687590d5ba1291f4776a8fcce90df&chksm=ceb80bf4f9cf82e2b35bf1916b4bf636e7c40446c78f570456988d3e0ce301df274b8919e814&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【多传感器融合】技术交流群

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料！

作者｜汽车人

编辑｜自动驾驶之心

近年来，在深度学习技术的推动下，自动驾驶中的感知技术发展迅速。为了实现准确和稳健的感知能力，自动驾驶汽车通常配备多个传感器，使传感器融合成为感知系统的关键部分。在这些融合的传感器中，Radar和Camera方案，无论照明和天气条件如何，都能对周围环境进行互补且具有成本效益的感知。本篇综述旨在为radar-camera融合提供一个全面的指导方针，特别是关注目标检测和语义分割相关的感知任务。基于雷达和相机传感器的原理，本文深入研究了数据处理过程和表示，然后对雷达-相机融合数据集进行了深入分析和总结。在对雷达相机融合方法的回顾中，提出了一些问题，包括“为什么要融合”、“融合什么”、“在哪里融合”、何时融合”和“如何融合”，随后讨论了该领域的各种挑战和潜在研究方向。为了方便数据集和融合方法的检索和比较，本文还提供了一个交互式网站：https://XJTLU-VEC.github.io/Radar-Camera-Fusion

汽车人号外：为了给大家带来更多高质量的课程，诚邀大家投票未来希望学习的课程方向~

领域背景

自动驾驶在缓解交通拥堵和提高驾驶安全方面具有巨大潜力。感知类似于自动驾驶中的眼睛，构成了连续功能的基础，如运动预测、路径规划和控制。为了实现感知系统的最佳准确性和鲁棒性，将各种传感器集成到自动驾驶汽车中，允许利用它们的互补和冗余特性。然而，选择哪些传感器以及如何在不同传感器之间融合数据已成为需要进一步探索的具有挑战性的问题。

鉴于可以感知的丰富语义信息，camera在自动驾驶中被广泛用于目标检测、分割和跟踪。激光雷达通过测量激光束从发射到接收的时间差来计算到周围目标的距离，激光雷达传感器发射的激光束越密集，物体的三维轮廓就越清晰。相机和激光雷达提供的这些互补特征使激光雷达相机-传感器融合成为近年来的热门话题，并在二维（2D）和三维目标检测、语义分割和目标跟踪方面实现了高精度。尽管它们有优势，但激光雷达和相机都存在同样的缺陷，即对不利的天气条件（如雨、雾、雪）敏感，这会显著降低它们的视野和物体识别能力。此外，激光雷达和相机都无法在不使用时间信息的情况下检测物体的速度。在时间紧迫的情况下，仅仅依靠时间信息是不可行的，因为估计物体的速度对于避免碰撞至关重要。此外，激光雷达产品的高成本给促进其广泛采用带来了一定的困难。

与激光雷达和相机相比，毫米波雷达在具有挑战性的照明和天气条件下表现出优越的有效性，radar还可以根据多普勒效应为所有检测到的物体提供精确的速度估计，而不需要任何时间信息。凭借这些特性，雷达被广泛用于高级驾驶辅助系统（ADAS）应用，包括防撞、自适应巡航控制（ACC）、变道辅助（LCA）和自动紧急制动（AEB）。对于自动驾驶汽车，radar-camera融合不仅可以感知周围环境的轮廓、颜色和纹理，还可以检测它们的速度和范围，无论天气和照明条件如何，如图1所示。尽管Radar传感器广泛应用于车辆，但很少有研究关注Radar和Camera的数据融合，原因之一是雷达输出数据的局限性，如低分辨率、稀疏的点云、不确定性和杂波效应。另一个原因是，到目前为止，包含自动驾驶应用的雷达和摄像头数据的数据集还不够，这使得研究人员难以进行深入分析。此外，由于激光雷达传感器和雷达传感器之间点云的固有差异，将现有的基于激光雷达的算法应用或调整到雷达点云会产生较差的结果。雷达点云比激光雷达点云稀疏得多，这使得使用基于激光雷达的算法提取物体的几何信息效率低下。尽管雷达传感器中的雷达截面（RCS）值表示物体表面的反射强度，但它们很容易受到许多因素的影响，不能单独用于确定目标的分类。此外，尽管聚合了多个雷达帧增强了点云的密度，也给整个系统造成了延迟。总之，雷达-摄像头融合感知在自动驾驶中具有重要意义，在实现中也具有挑战性。

传感器介绍

1）Radar

雷达是无线电探测和测距的缩写，它通过发射无线电波和接收目标的反射波来计算目标的距离和速度。在自动驾驶应用中，雷达通常指的是毫米波（MMW）雷达，它工作在波长为1-10mm、频率为30-300GHz的毫米波段。

图2展示了一个基本雷达系统，该系统包括各种模拟组件，如合成器、功率放大器（PA）、发射机（TX天线）、低噪声放大器（LNA）、接收机（RX天线）和混频器，以及数字组件，如模数转换器（ADC）、数字信号处理器（DSP）和微控制器单元（单片机）。

当雷达开始工作时，首先，合成器产生一个被称为“chirp”的线性调频脉冲，该脉冲被功率放大并由TX天线发射。其次，RX天线捕获目标的反射chirp，该chirp以低噪声放大。第三，通过组合RX和TX信号，混频器产生中频（IF）信号，然后通过ADC将其转换为数字值。通常，雷达系统包含多个TX和RX天线，从而产生多个IF信号。关于目标物体的信息，如距离、多普勒速度和方位角，包含在这些IF信号中，DSP可以使用嵌入的不同信号处理算法将其分离。基于从DSP提取的目标信息和自动态信息，MCU充当计算机来评估系统需求并做出明智的决策。

基于飞行时间（TOF）原理，雷达传感器通过发射信号和反射信号之间的时间差来计算距离物体的距离。基于多普勒原理，当发射的电磁波和检测到的目标之间存在相对运动时，返回波的频率与发射波的频率不同。因此，可以使用该频率差来测量目标相对于雷达的相对速度，利用阵列信号处理方法，通过从平行RX天线反射的chirp之间的相位差来计算方位角。由于传统3D雷达传感器的RX天线仅在2D方向上排列，因此仅在2D水平坐标中检测目标，而没有垂直高度信息。最近，随着雷达技术的进步，4D雷达传感器已经被开发出来，天线水平和垂直排列，能够测量高程信息。

除了能够测量距离、多普勒速度和方位角外，毫米波段的电磁波具有较低的大气衰减和对雨水、烟雾和灰尘的更好穿透能力。这些特性使雷达传感器能够在恶劣天气条件下全天工作。然而，雷达传感器仍然有局限性，它们表现出较低的角分辨率，并且无法区分位置较近的物体。此外，雷达生成的点云分布稀疏，行人上只有几个点，汽车上只有十几个点。这些点不能充分勾勒出物体的轮廓，这使得提取几何信息具有挑战性。此外，雷达对静止障碍物的感知能力较弱，运动目标可以在一维范围和速度上与周围场景区分开来。然而，雷达对金属高度敏感，经常会导致地面井盖等静止物体的强烈反射。因此，在实践中，静止物体通常会被过滤，导致无法检测到静止的障碍物。

2）Camera

相机传感器通常由镜头、图像传感器、图像信号处理器（ISP）和输入/输出（I/O）接口组成。如图3所示，透镜收集从目标反射的光并会聚将其发送到图像传感器。然后图像传感器通过片上ADC将光波转换为电信号并将电信号转换为数字值。之后，ISP执行后处理（例如，降噪），并将数字值转换为图像或视频的RGB数据格式，最后通过I/O接口传输和显示图像数据。除了RGB摄像头外，红外照明还配备到了摄像头，即使在晚上也很有意义。此外，门控相机在恶劣天气下表现出强大的感知能力，但缺乏颜色信息。门控成像器还依赖于泛光闪光激光源和时间同步相机，相机捕捉到物体丰富的外观特征，包括颜色、形状和纹理。从神经网络学习后，这些特征可以用来识别障碍物，包括车辆、行人、自行车和各种红绿灯。然而，相机是被动传感器，这表明图像的形成需要入射光。当光线摄入受到不利影响时，如夜间光线不足、极端天气、水滴或灰尘粘附在镜头上，成像结果将不清楚，目标检测性能可能会受到显著影响。此外，在自动驾驶中，识别前方障碍物的距离至关重要。然而，世界坐标系中三维的目标在被相机传感器成像之后变成图像坐标系中的2D目标，导致距离信息的丢失。

3）Camera和毫米波雷达的对比

通过广泛调查，设计了一个清晰简洁的图来比较两种传感器的特性，如图4所示。具体地，雷达传感器是有源传感器，并且测量各种信息，包括距离、速度和方位角。如今，驾驶员辅助系统中配备的雷达可以探测到300米的距离和小于1◦ 角分辨率，此外，雷达传感器能够适应黑暗和极端天气条件，使其能够全天工作。相机传感器是一种被动传感器，可提供物体的颜色、纹理和形状。相机传感器的分辨率高达2K，在分类方面的表现比雷达传感器好得多。就系统成本而言，雷达和摄像头都相对具有成本效益，并在车辆中大量应用。综上所述，雷达和相机都有其长处和短处，它们是不可替代的。确保充分获取信息的最有效方法是相互整合，基于各自的特点，优势互补可以提高场景理解性能。此外，当其中一个传感器发生故障时，另一个传感器可以继续工作，从而提高了自动驾驶系统的可靠性。因此，雷达和摄像头传感器的融合对于自动驾驶的感知准确性和鲁棒性至关重要。

Radar数据处理

本节将回顾雷达参数和雷达信号处理，包括距离、多普勒速度和方位角。随后，对RCS测量进行分析，以接近目标的尺寸、形状和材料组成，从而表征其反射properties。为了滤除雷达信号处理阶段的杂波，研究了恒虚警率（CFAR）处理的工作流程，并探索了具有代表性的CFAR处理器。根据信号处理阶段的不同，也将雷达表示分为五种类型，并研究了它们的组成过程和算法，以及它们的优缺点。

1）参数估计：调频连续波（FMCW）是一种特殊的毫米波技术，它连续传输调频信号来测量物体的属性。表I总结了每个属性的估计和分辨率，如图5（a）所示，TX天线发射的chrip的频率随时间线性增加，导致RX天线反射chrip的相应频率。通过计算由变量fb表示的TX-chrip和RX-chrip的瞬时频率之差来确定包含关于物体的信息的IF信号。

2） RCS测量：雷达截面（RCS）表示物体反射雷达信号的能力，较高的RCS值对应于检测可能性的增加。RCS的值以m2为单位表示，然而，这个值并不是简单地表示被探测物体的表面积，而是取决于多种因素，包括目标的材料、物理几何形状和目标的外部特征，以及照明雷达的方向和频率！在数学计算方面，RCS测量雷达方向上的散射密度与物体拦截的功率密度之间的比率。由于功率分布在一个球体上，雷达只能接收到其中的一小部分（4πr2），因此，RCS的表达式采用以下形式：

3）CFAR Processing：雷达传感器不仅接收感兴趣目标的反射信号，还会遇到内部接收器噪声和外部干扰信号。由这些不需要的源产生的信号通常被称为杂波，传统的方法，如用零多普勒去除信号和固定信号阈值，都有导致误报的缺点。因此，包括使用自适应阈值的动态阈值在减轻噪声信号引起的假警报和伪雷达检测方面发挥着至关重要的作用。与固定阈值相比，不同的阈值用于减少由噪声引起的误报和雷达错误检测。恒虚警是最常用的动态阈值方法，它使雷达系统能够根据外部干扰强度的变化自动调整其灵敏度水平，从而保持稳定的虚警率，图6描述了CFAR处理器的总体处理流程。

毫米波雷达数据表示

如图7所示，雷达传感器的原始输出是ADC信号，这对人类观察者来说很难读取。因此，一些研究人员沿着样本、chrip和天线维度应用3D FFT，以获得一种类似图像的表示，称为雷达张量。此外，对雷达张量进行峰值检测以滤除杂波，从而产生一种称为点云的稀疏点状表示。通过将网格映射方法应用于在给定时间段内累积的点云，可以生成用于识别静态目标的网格映射。此外，一些研究人员在距离FFT后进行时频变换，以获得微多普勒特征，该特征用于识别具有微小运动特征的物体。

1） ADC信号：当模拟信号被ADC采样和量化时，它会产生一个称为ADC信号的顺序数据流。在这个阶段，由于所有信息都存在于时域中，因此信号在值之间缺乏空间相干性。为了以更结构化的形式表示ADC信号，通常将其转换为3D样本Chirp天线（SCA）张量，如图7（e）所示。由于ADC信号由来自物体反射的原始数据组成，因此它固有地包含关于物体的丰富信息，这些信息可用于各种细粒度特征识别任务，如人体检测、人体活动分类、步态分类和手或手臂姿势识别。Stephan等人提出了一种利用深度学习替代传统信号处理程序的人体检测方法。所提出的解决方案通过取代消耗大部分运算的FFT并简化嵌入式实现中的数据流，显著降低了计算需求。Stadelmayer等人将深度卷积神经网络（DCNN）应用于ADC信号，以隐式学习人类活动分类的特征，包括行走、空闲站立、手臂运动、挥手和在笔记本电脑上工作。

给定由上述算法概述的任务，直接处理ADC信号的神经网络适用于封闭环境中的分类任务，例如确定目标的存在或不存在以及区分不同类型的目标。然而，在开放环境中，各种分散注意力的因素可能导致对物体特征的不准确识别。因此，使用ADC信号通过识别物体的形状来进行物体检测或语义分割任务是不可行的，此外，ADC信号需要用于数据采集的开发套件，并且对数据处理具有挑战性。

2）雷达张量：如前所述，沿着样本、线性调频和天线尺寸对ADC信号执行3D FFT会产生距离-方位-多普勒（RAD）坐标下的3D张量，称为雷达张量。如图8所示，利用这三个特征，形成了两种形式的雷达张量：一种是在2D中，包括距离-方位角（RA）张量、距离-多普勒（RD）张量和方位-多普勒（AD）张量；另一个是整个3D RAD张量，每一侧都由一个2D张量组成，具体地，每个2D张量表示描述所接收回波的空间模式的2D伪图像。特别是，张量内较亮的颜色表示该位置的反射振幅较大。为了对雷达张量进行目标检测，特定的神经网络架构将张量的2D视图作为输入，正如使用RA张量或RD张量的各种研究所证明的那样。此外，已经开发了特定的架构来处理RAD张量的聚合视图，用于目标检测和语义分割。Gao等人[132]通过在RA张量上为每个检测到的目标定义固定大小的边界框来启动目标检测过程。此外，他们从多个RA张量中提取了边界框内的雷达数据，并将这些数据以雷达数据立方体的形式排列。利用时间信息和物体运动模式，数据立方体作为对不同目标（如行人、汽车和骑自行车的人）进行分类的特征。Dong等人[133]将ResNet架构应用于目标检测的RA张量。他们还引入了定向bbox定位的不确定性估计，以进一步提高目标检测过程的准确性。

除了使用2D张量外，一些研究人员还将输入数据扩展到3D张量。Major等人首先证明了基于深度学习的目标检测模型的有效性，该模型基于RAD张量进行操作，并证明多普勒维数有助于提高检测性能。他们提出了两种处理RAD张量的方法，第一种方法是沿着多普勒维度进行压缩，然后进行平均池化以获得RA模型。第二种方法包括通过包括两个额外的2D张量来放大张量：RD张量和AD张量，这两个张量是通过分别沿着方位角和距离维度进行压缩而获得的。来自三个2D张量的特征图在被调整到相同大小之后被连接在一起。通过处理三个2D张量而不是直接处理整个3D张量，降低了计算复杂度。与Major等人提出的方法类似，Gao等人在将RAD张量组合之前，将其分解为三个部分。这两种方法之间的主要区别在于RA张量由复数值组成，这些复数值有助于使用空间模式识别目标。此外，Palffy等人将雷达目标映射到雷达RAD张量中，并裁剪源自每个对象的3D雷达张量进行分类。将雷达目标和雷达立方体的特征相结合，表明所提出的雷达目标分类网络（RTCnet）优于以前的目标分类方法。Zhang等人提出了一种基于YOLOv4的双检测头，以实现RAD张量上的3D检测和笛卡尔坐标下的2D检测。Ouaknine等人引入了一种专门用于RAD张量的轻量级分割架构，以推断目标的定位和相对速度。为了确定不同雷达张量的性能，Nowruzi等人在各种算法上比较了三种不同的输入模式：RAD、RA和到达方向（DoA）。在他们的方法中，RAD张量和RA张量都在极坐标中，而DoA张量是由RA张量生成的笛卡尔坐标中的鸟瞰图。实验结果表明，利用RAD张量作为输入可以获得最佳性能。此外，RA张量优于DoA表示，因为BEV图在DoA张量中的远点比近点稀疏。后来提出了一个名为PolarNet的编码器-解码器网络，以RA张量作为输入。PolarNet优于之前使用DeepLabv3+、FCN和FCN微小算法的实验。此外，一些研究人员用神经网络代替FFT运算来提取速度和方位信息，同时保留chrip和天线尺寸。例如，在RODNet中，FFT仅应用于样本和天线维度，而线性调频维度被保留以构建范围-方位-线性调频（RAC）张量，接下来，利用一个名为M-Net的神经网络来处理chrip维度，以提取多普勒特征。

与仅允许使用目标分类任务的ADC信号相比，雷达张量通过与相机或激光雷达的组合标记来促进目标检测和语义分割任务。它们保留了关于目标的更全面的信息，同时也保留了目标周围的干扰信息，然而，雷达张量表示需要大量的内存存储和大带宽。

3）点云：通过对雷达张量进行CFAR处理，获得一组点格式的数据，称之为点云。如图9所示，点云提供了物体位置的粗略指示，但它不能准确地指示物体的轮廓信息。用于目标检测和语义分割的基于点云的雷达算法通常从基于激光雷达的算法中获得灵感，如PointNet、PointNet++和Frustum PointNet。Nabati等人提出了雷达区域建议网络（RRPN），这是一种具有雷达目标检测注意机制的实时RPN。RRPN仅依靠雷达检测来提出感兴趣区域（RoI），其速度极快，同时仍能实现比选择性搜索算法更高的精度和召回率。在Radar TrackNet中，作者利用从多个帧收集的雷达点云来检测和跟踪道路使用者。他们的方法中的雷达特征提取是基于PointNet++和FPN的，结果表明，多普勒速度是雷达目标探测的关键信息。令人感兴趣的是，Scheiner等人证明了可以利用雷达点云来检测和跟踪环境中的隐藏目标。通过将BEV雷达点云转换为伪图像，并应用金字塔网络和放大网络，他们在看到碰撞物体之前估计了碰撞物体的几何形状和速度。

Schumann等人提出了一种基于PointNet++的结构，用于雷达点云的语义分割。PointNet++中的多尺度分组（MSG）模块有助于对中心点及其邻域进行分组和生成特征，他们证明，结合RCS值和补偿多普勒速度显著提高了分类精度，多普勒速度对结果有相当大的影响。Danzer等人采用了一种两阶段方法，使用PointNets进行2D汽车检测和分割。他们将每个点视为一个proposal，并根据目标的先验知识调整proposal大小，然后使用PointNet和Frustum PointNet对proposal和proposal中的每个点进行分类，最后，仅对作为目标的proposal执行bbox预测。Feng等人利用PointNet和PointNet++架构来展示神经网络在雷达点云分割中的潜力，他们的方法主要强调车道、护栏和道路标线分割的任务。为了避免对雷达点进行昂贵和耗时的手动标记，Kaul等人提出了一种弱监督的多类语义分割方法，将分割图像与激光雷达点相结合。

由于雷达点云是通过滤波技术（如CFAR）生成的，它们在滤波噪声方面具有优势，但原始数据中的一些潜在信息可能不可避免地丢失。此外，一些小物体或具有弱反射的目标可能不会渲染为点云。目前，雷达中的大多数点云检测和分割算法都是基于激光雷达算法，激光雷达中的点云密度很大，可以描述周围目标的轮廓。相反，雷达点云非常稀疏，这给开发有效的算法带来了挑战。为了解决这个问题，点云算法需要探索点云与利用速度和RCS信息之间的内在关系，以提供额外的特征。

4）网格图：利用多帧点云，一些研究人员将空间上不均匀的雷达反射转换为BEV伪图像，通常称为网格图。由于网格图与2D图像具有相同的结构，基于深度学习的算法可以直接用于检测和分割任务。有两种主要的网格图：一种是基于占用的网格图，它表示从雷达数据中导出的障碍物和自由空间；另一个是基于振幅的网格图，显示每个小区的反射RCS值。

从图中可以看出，如图10（b）所示，基于占用的网格图具有更清晰、更可区分的轮廓，这使得基于轮廓的检测任务（例如，停车位）或自由空间分割更可行。图中所示的基于振幅的网格图，10（c）强调了不同物体的反射特性，使其更适合具有几个不同物体的农村道路。Werber等人提出了基于占用的网格图和基于幅度的网格图，这两种网格图都是为自定位任务设计的。实验表明，基于占用率和基于幅度的算法都成功地提供了对周围环境的充分表示。Dreher等人将点云转换为每个网格最多一个点的网格图，并使用YOLOv3进行检测。除了2D网格图外，[158]-[160]还专注于使用3D占用网格图对车辆进行分割，其中第三维度由高度信息封装，并通过各自网格中的不同颜色表示。除了对车辆进行分割外，[161]、[162]还利用网格图对可驾驶区域的自由空间进行分割，这对车辆轨迹规划很有价值！

根据具体的场景和上下文，不同的算法提供了合适的网格化和mapping解决方案。Wen进行了网格地图比较研究，并通过定量模拟和实验评估了地图质量。新的研究试图通过深度学习构建网格地图，最重要的是，网格地图表示对于静态目标很有用，因为在构建地图时会忽略每个目标的速度信息。为了同时容纳静态和动态对象，Schumann等人引入了一个双分支网络，将静态和动态物体分离为明显的分支，一个分支对网格图进行语义分割以识别静态目标，而另一个分支则对点云进行实例分割以检测运动目标。然后将这两个分支的输出合并以生成语义点云，然而这种两分支结构也导致高计算工作量和增加的内存消耗。在另一个方面，由于网格地图是由一系列雷达点云构建的，因此它们不适合实时mapping，此外，点云的稀疏性仍然影响在网格图上执行的检测和分割的准确性。

5）微多普勒特征：微多普勒特征（MDS）是指微小运动的表示，如物体部件引起的旋转和振动，从而产生不同于多普勒频率变化的特征表示。它是通过对range FFT结果的时频变换方法（例如，短时傅立叶变换（STFT）、小波变换（WT））生成的。如图11所示，行走和奔跑的行人的光谱图揭示了不同的特征，具体地，对于正在行驶的行人，微多普勒的周期比对于正在行走的行人的周期短。此外，不同类型的物体（如车辆和自行车）之间的光谱图是独特的，这使它们成为物体分类的强大特征。在过去的几年里，通过基于MDS的方法对目标的姿势和活动进行分类和识别受到了极大的研究关注，特别是在目标分类、人类活动和步态识别以及人类姿势识别领域。Gao等人从裁剪的雷达RA张量生成STFT图，并将其提供给深度学习分类器进行MDS提取，然后使用决策树算法评估类别：汽车、行人和骑自行车的人。此外，Angelov等人将原始ADC信号转换为频谱图，并在人、自行车和汽车之间进行目标分类。他们对MDS上的不同神经网络架构进行了比较评估，包括类似VGG的CNN、卷积残差网络以及卷积和递归长短期记忆（LSTM）网络的组合。研究结果表明，残差网络在不同频谱图中的雷达MDS分类任务中比简单的CNN更有效，Gurbuz和Amin还证明，数据驱动的方法优于使用手工特征的传统分类方法。

融合数据集

高质量和大规模的数据是自动驾驶中基于深度学习的感知算法的基础。来自激光雷达和相机数据的数据集，如KITTI、Oxford RobotCar、ApoloScape和Waymo，已被广泛用于自动驾驶中的激光雷达相机融合。随着雷达研究的不断深入，近年来已经发布了数十个雷达和相机数据集。本节主要分析和总结了这些明确为目标检测和语义分割相关任务设计的数据集。图12显示了雷达-摄像机融合数据集及其雷达的清晰统计数据表示和数据集大小，本文还提供了一个表，用于检索和比较不同的数据集（见表II）。

1）数据集任务

根据bbox和mask的维度，将雷达和相机模态纳入目标检测和语义分割的数据集分为四组：

2D物体检测：SeeingThroughFog[31]、CARRADA[131]、Zendar[186]、RADIATE[187]、AIODrive[188]、CRUW[189]、RaDICaL[190]、RadarScenes[191]、RADDet[138]、FloW[192]、RADIal[193]、VoD[142]和Boreas[194]；
3D物体检测：nuScenes[5]、Astyx[195]、SeeingThroughFog[31]、AIODrive[188]、VoD[142]、TJ4RadSet[196]、K-Radar[197]和aiMotive[198]；
2D语义分割：CARRADA[131]和RADIal[193]；
3D语义分割：HawkEye[199]和RadarScenes[191]

关于数据集任务，大多数数据集面向目标检测，而用于语义分割任务的数据集相对较少。值得注意的是，CARRADA[131]、RadarScenes[191]和RADIal[193]可以应用于目标检测和语义分割任务。对于那些有助于多任务的数据集，nuScenes是雷达相机融合算法中使用最广泛的数据集，它支持检测、跟踪、预测和定位任务。除了目标检测，RADIATE还涉及物体跟踪、场景理解和SLAM任务，此外，Zender和Boreas等数据集可用于定位和里程测量。

2）传感方式

在雷达-摄像机融合数据集中，摄像机传感器产生的数据要么是单个图像，要么是一段时间内的视频，这两者本质上都是2D图像。相比之下，雷达传感器产生的数据具有丰富的表示，可以根据数据处理的阶段将其分组为ADC信号、雷达张量和点云。

ADC信号：作为雷达传感器产生的原始数据，ADC信号保留了所有语义信息，在深度学习应用中具有很高的价值。到目前为止，只有两个雷达相机融合数据集提供原始ADC信号数据：RaDICaL和RADIal。RaDICaL是第一个提供原始ADC信号数据的数据集，专门用于涉及行人和车辆的目标检测任务。作者鼓励研究人员通过提供原始雷达测量数据来进一步设计自己的处理方法。RADIal是关于雷达数据表示的最丰富的数据集，不仅提供ADC信号，还提供ADC信号之后的处理数据，包括雷达张量和点云。
雷达张量：经过多次FFT后，从ADC信号中获得雷达张量。它们可以分为三类：2D张量（例如RADIATE、CRUW、FloW）、3D张量（例如CARRADA、Zendar、RADDet、RADIal）和4D张量。RADIATE和CRUW都在距离方位坐标中，表示物体的BEV位置，而FloW数据集在距离多普勒坐标中，说明了每个目标的距离和多普勒速度之间的关系。CARRADA是第一个在自动驾驶中结合同步stereo RGB图像和3D雷达RAD张量的数据集。据我们所知，K-Radar是唯一一个包含4D雷达张量的数据集，具有关于距离、多普勒、方位角和仰角的完整信息。
点云：与雷达张量相比，点云可以更轻松、更直观地表示物体，它们也是商用雷达输出数据的格式。传统的3D雷达产生稀疏的点云，例如nuScenes、Zender、SeeingThroughFog、HawkEye、AIODrive、RADIal、FloW、RadarScenes和aiMotive数据集中的数据。近年来，随着分辨率和高程测量能力的提高，雷达传感器已经从3D发展到4D。因此，公共4D雷达相机融合数据集正在出现，例如Astyx、VoD和TJ4DRadSet。尽管Astyx是第一个4D点云数据集，但它受到数据大小的限制，仅包含500帧。VoD和TJ4RadSet数据集在数据类别和数据大小方面进行了改进，前者由13种类型和8693个帧组成，后者包含8种类型和40k个帧。同时，这两个数据集还包含同时的激光雷达数据，有助于4D雷达点云和激光雷达点云之间的比较。

3）数据集类别

对于自动驾驶来说，识别道路上的弱势道路使用者（VRU）至关重要。因此，这些数据集中最常见的类别是行人、自行车和汽车。nuScenes、AIODrive、RadarScenes、VoD和aiMotive等数据集已经研究了十多个类别。nuScenes提供了精确的分类，有23个目标类别细化了某些模糊的类别。例如，行人类别被细分为成人和儿童等组，而车辆类别则被细分为汽车、救护车、警察、摩托车、拖车和卡车。除行人类别外，RADIATE和RadarScenes还包括一个称为行人群的类别。AIODrive和VoD对路边的静止物体进行分类，如建筑物、道路、墙壁、交通标志、未使用的自行车和自行车架。除了主要的目标类别外，一些数据集中还标记了目标的一些特定属性。例如，在nuScenes中，车辆被标记为正在移动、停止或停放，而行人被标记为移动或站立。此外，在VoD数据集中，还注释了两种类型的遮挡（“空间”和“照明”）以及与目标活动相关的属性（“停止”、“移动”、“停放”、“推动”和“坐着”），所有这些特定属性对于场景理解至关重要。

4）数据集尺寸

统计的数据集在大小上有很大差异，从5亿帧到140万帧不等。nuScenes是最大的数据集，在40k个关键帧中有140万个图像、雷达帧和目标边界框。这些数据帧是从15小时和242公里的驾驶数据中分离出来的。Astyx仅提供500个帧，包含约3k个标记的3D目标注释。其他如CRUW、CARRADA、RADIATE、AIODrive、SeeingThroughFog、CRUW、RADDet和RADIal都贡献了数十万帧。除了帧中的数据外，一些数据集还为研究人员提供视频，以分割关键帧并对视频进行进一步研究。例如，RadarScenes提供了158个总长度超过4小时的单个序列，同样，CRUW和CARRADA数据集分别提供3.5小时和21.2分钟的视频。

5）录制场景

丰富的数据收集环境对于训练自动驾驶中的鲁棒模型至关重要。通常，自动驾驶的数据集是在城市街道、乡村道路、高速公路和停车场等道路环境中收集的，这些数据集都在CARRADA等数据集中表示，RADIATE、RaderScenes、RADlal和KRadar。然而，仅仅在公共区域收集数据是不够的，nuScenes、Zendar、SeeingThroughFog、AIODrive和CRUW涉及密集的交通和具有挑战性的驾驶情况，包括城市道路、住宅区和工业区。上述所有数据集都来自室外环境，至于室内场景，HawkEye和RaDICaL是在室内停车场收集的，这些室内环境带来了独特的挑战，有助于推进室内自动驾驶汽车导航的研究。

融合方法

本节将深入研究与雷达相机融合相关的方法，从“为什么要融合”开始，即融合的目的和优势。随后分析了“融合什么”，涵盖了融合中涉及的雷达和相机模态的不同表示。接下来研究“在哪里融合”，描述融合前两种模态之间的坐标关系。在“何时融合”中，论文对当前的融合水平进行了分类，并说明了它们的差异。最后但同样重要的是，探讨了“如何融合”的细节，包括时空同步、融合操作、网络架构和模型评估，图13展示了雷达-摄像机融合方法的概述。

1）为什么融合？

雷达和摄像机传感器的集成旨在通过利用两种传感模式的优势来增强感知结果。雷达传感器和相机传感器的组合能够测量丰富的物体颜色、形状、范围和速度等属性。此外，凭借在黑暗和恶劣天气条件下的感知能力，雷达和摄像头的融合可以在自动驾驶中全天工作。大量研究也表明，雷达摄像头融合提高了网络的准确性和稳健性。由于基于图像的探测器很难探测到远处的物体，Chadwick等人在他们的实验中结合了雷达传感器和相机传感器组，结果超过了相机探测器的性能，因为雷达传感器持续为远处的物体提供强有力的运动指示。Major等人还证明，可以利用雷达传感器得出的速度维度来提高检测性能。此外，Nabati和Qi利用雷达特征（例如，深度、旋转、速度）来补充图像特征，与包括OFT、MonoDIS和CenterNet在内的基于SOTA相机的算法相比，整体无场景检测分数（NDS）提高了12%以上。在嘈杂的环境中，Yadav等人发现雷达数据在检测中表现出鲁棒性，雷达数据的集成可以提高这些具有挑战性的场景中的性能。

2）融合什么？

雷达-摄像机融合的目标是雷达传感器和摄像机传感器的输出数据，这些数据在不同的融合阶段通过不同的融合技术以不同的方式呈现。对于相机传感器，输出数据通常以2D图像的形式呈现，在雷达相机融合中，主要有两种图像。一种类型是具有丰富颜色信息的RGB图像，例如nuScenes数据集中的图像。另一种是用红外相机（包括远红外（FIR）和近红外（NIR））拍摄的红外图像，如SeeingThroughFog数据集的图像所示。尽管分辨率较低，但这些图像在温差和夜间能见度方面具有特定优势。图像的数据结构相对简单，具有低数据维度和相邻像素之间的高相关性，这种结构的简单性使深度神经网络能够学习图像的基本表示，从而使其能够检测图像中的目标。雷达数据可以根据处理水平分类为不同的表示，ADC信号是雷达的基本数字信号，不能用目标的位置信息来标记。MDS是一种时频表示，由连续雷达帧，并且不对应于单个图像帧。因此，ADC信号和MDS通常用于识别对象的存在并区分不同目标。具有描述物体形状的能力，雷达张量和点云通常用于目标检测和语义分割任务！

3）在哪里融合？

1）前视图：前视图融合（FV）涉及将雷达数据投影到图像平面上，其中雷达数据可以是3D点云、部分点云信息或雷达张量。在投影区域周围，生成指示潜在目标的proposal。通过这种方式，排除了大量的非目标区域，从而减少了计算负担，提高了识别速度。映射到图像平面的雷达数据也可用于创建特征图，以补充基于图像的特征。这些方法通过利用额外的输入，包括距离、速度和RCS值，提高了检测精度。此外，一些研究人员将雷达点云投影到图像平面上，以形成雷达伪图像。例如，在RVNet和SO-Net中，根据雷达数据生成名为“稀疏雷达图像”的伪图像，其中包含有关深度、横向速度和纵向速度的信息。此外，Dong等人将雷达点云和2D边界框投影到图像平面上，从相机RGB图像中形成新的伪图像，将雷达数据投影到图像平面上有助于提供proposal和特征。然而，由于雷达提供的方位角分辨率低以及相机校准误差，投影的雷达点云可能会偏离物体。虽然增加RoI可能会解决这个问题，但它会导致同一区域内的多个目标，从而被重复检测，从而导致目标匹配混乱。此外，由于目标的遮挡，雷达数据在图像透视图上的投影可能受到限制！

2）鸟瞰图：另一个融合位置是将雷达数据或相机图像转换为鸟瞰图（BEV）坐标。例如，在[195]中，每帧的雷达点云生成六个高度图和一个密度图的BEV图像。此外，Cui等人将雷达点云投影到FV和BEV，并提出了一个3D区域proposal网络，以根据相机图像和雷达BEV图像生成建议。与直接从点云生成提案相比，基于CNN的提案生成方法通过利用网络提取更深入、更丰富信息的能力。BEV图像将传感空间离散为网格，这可能导致细化边界框所需的有价值信息的丢失。为了解决这个问题，Bansal等人[213]在BEV图中添加了额外的基于点的特征（例如速度、RCS值）。Harley等人[214]将来自多个雷达传感器的所有雷达点云转换为BEV坐标，以生成高维BEV特征图。除了将雷达数据投影到BEV中外，逆投影映射（IPM）方法还可用于将相机图像从FV转换为具有单应矩阵的BEV。例如，Lim等人使用IPM将相机图像转换为笛卡尔坐标，然后将其与2D雷达RA张量相结合。因此，在BEV上投影数据比FV提供了几个优势，特别是在闭塞的情况下。尽管如此，由于IPM是基于平坦路面的假设，因此当应用于现实世界场景时，它通常会产生动态对象的失真。

4）什么时候融合？

何时融合是指雷达和摄像机数据在网络中融合的阶段。根据融合过程的场合，我们将雷达-摄像机融合阶段分为目标级、数据级、特征级和混合级，图14说明了四个融合级别之间的概述和差异。

目标级融合：对于目标级融合（也称为决策级融合或后期融合），在网络的后期对从雷达和相机传感器获取的独立目标进行融合，以获得最终的综合结果，如图14（a）所示。在目标级融合中，如何匹配来自两种不同模态的结果是值得考虑的。一种方法是计算相似性（例如，位置、大小、类别），然后使用卡尔曼滤波器、贝叶斯理论、匈牙利算法和二部分匹配等方法来匹配输出。另一种方法涉及利用雷达和相机之间的变换矩阵来确定两种模态之间的位置关系。例如，Jha等人使用变换矩阵将雷达探测投影到图像平面上，然后对准来自两个传感器的独立检测目标。此外，在完成雷达点云与相机图像的关联后，Dong等人提出了用于学习来自两个传感器的语义表示信息的AssociationNet。目标级融合通常用于传统雷达和相机，具有很高的灵活性和模块性。然而，它也在很大程度上依赖于单个模块输出的准确性。例如，在相机传感器被遮挡的情况下，目标级融合完全取决于雷达传感器检测到的最终目标。此外，由于传感模态的弱点或传感器中的错误，丰富的中间特征被丢弃，因此，目标级融合方法只能利用从检测结果中获得的有限信息！
数据级融合：对于数据级融合（也称为低级别融合或早期融合），来自雷达和相机传感器的原始数据或预处理数据在深度学习模型的早期阶段进行融合，如图14（b）所示。Nobis等人将级联的相机和雷达点云输入网络，然后使用VGG从组合数据中提取特征。此外，Bansa等人根据相机语义图、雷达点云和雷达BEV网格图创建了语义点网格（SPG）表示。在他们的方法中，SPG表示随后被馈送到SPG编码中，以从相机中提取语义信息，从而有助于识别与感兴趣对象相关联的雷达点。Nabati和Qi没有将雷达点云与相机图像融合，而是提出了一种RRPN，它生成proposal，以缩小相机图像的检测范围。但是，如果某个物体上没有雷达点，则该物体将被忽略。为了解决将雷达点云与图像像素关联的困难，Long等人提出了雷达相机像素深度关联（RC-PDA），这是一种将雷达点云和附近图像像素关联以增强和致密雷达图像的学习方法。

通过输入原始数据，可以利用完整的特征，并从这两种模式中学习联合表示。然而，数据级融合方法往往对数据内的时间或空间错位敏感。两个传感器的精确外部校准对于数据级融合至关重要，此外，由于雷达数据表示与物体的形状不一致，很难将雷达张量或雷达点云与图像像素相匹配。

特征级融合：在特征级融合（也称为中层融合）中，从单独的雷达数据和相机图像中提取的特征在基于深度学习的融合网络的中间阶段进行组合，如图14（c）所示。CenterFusion通过使用CenterNet定位图像中的中心点来检测目标，之后，它利用基于截头体的关联策略将雷达检测与图像中的物体精确匹配，生成基于雷达的特征图来增强图像特征。Chang等人介绍了用于对特征图的不同位置进行加权的注意力机制，具体来说，他们应用了空间注意力融合（SAF）块来合并雷达和相机的特征图。在SAF块中，雷达图像的特征图被编码为空间注意力权重矩阵，然后将其应用于所有通道，以重新加权由相机传感器提取的特征图。事实上，注意力图可以从各种传感器中生成。Bijelic等人通过将所有传感器数据转换为统一的图像坐标，将传感器扩展到RGB相机、门控相机、激光雷达和雷达。然后，通过级联将不同传感器的特征图叠加在一起，并与经过S形处理的熵图相乘，以获得最终的特征输出！
混合级融合：除了平等地融合来自两种模态的最终对象、原始数据或特征外，一些融合方法结合了不同阶段的数据，我们将其定义为混合级融合，如图14（d）所示。[206]中，雷达proposal首先从雷达点云和从相机图像导出的3D anchor，然后，提出了一种雷达proposal细化（RPR）网络，将雷达proposal与相机图像特征融合，从而能够调整雷达proposal在图像中的大小和位置。此外，由于一些雷达点云是由背景噪声引起的，RPR网络还估计每个雷达方案的目标度得分。类似地，Cui等人基于相机图像和雷达BEV点云生成proposal，然后将proposal投影到相机图像、雷达BEV点云和雷达FV点云的三个特征图上。自监督模型自适应（SSMA）块用于将proposal与特征融合，这利用注意力方案来获得更好的相关性。此外，HRFuser引入了HRNet和HRFormer的思想，采用非对称多窗口交叉注意（MWCA）来融合RGB相机、激光雷达、雷达和门控相机捕获的特征。与数据级和特征级融合相比，proposal和特征的融合可以产生更准确的proposal，为两阶段网络产生更好的特征。通常，不同的模态对雷达-摄像机融合的贡献不同。一种模态占主导地位，而另一种模态提供补充信息来细化特征。因此，混合级融合利用了不同的数据级别，有效地保留了不同阶段的信息。然而，混合级别的融合应该考虑不同模式的重要性，这也带来了实施方面的挑战。由于大多数混合级融合的实现都是基于经验的，并且在某种程度上缺乏可解释性，因此需要进行大量的消融实验来验证混合级聚变的效率。此外，模型基于混合级别的融合通常在神经网络中有更多的分支，大大降低了推理时间！

5）怎么融合？

本节主要考虑的是两个传感器之间的时间和空间对准，然后，在融合操作中，比较了五种操作，并分析了它们的优缺点。就融合的网络架构而言，将其分为两种架构：基于点的和基于图像的，然后详细阐述了这些架构中的主要思想。最后，还回顾了模型评估的各种指标。

1）时间对齐：传感器融合中的时间对齐是指同步来自不同传感器的数据的时间序列。为了获得高质量的融合结果，每个传感器收集的数据必须与相同的时间维度同步。然而，由于设置时间、晶体振荡器频率和测量延迟的差异，这些传感器之间可能存在时间偏移。根据时间对齐方法的目标，将其分为两种类型：估计传感器之间的时间延迟和估计同一帧内的时间偏移！

a）估计时间延迟：通常，时间延迟由传感器之间的测量延迟和不同帧之间的漂移组成，测量延迟主要来源于计算机调度、测量采集、预处理和通信传输时间。在校准周期时间中，漂移是由内部时钟和协调世界时（UTC）之间的偏移引起的。一种基于软件的减少时间误差的技术是定期估计最大测量延迟和漂移时间，另一种替代方法是基于传感器延迟的先验知识，使用卡尔曼滤波器或贝叶斯估计来预测传感器之间的未来延迟。这些方法提高了同步结果，适用于大多数应用，由于传感器的触发信号不是同时启动的，因此不可避免地会存在一定程度的未知延迟，这可能会导致数据融合过程中采集时间的变化。因此，一些研究人员提出了将硬件控制器触发器与软件策略相结合的解决方案，以减少软件中激活线程的执行时间。这些方法以低级别与硬件同步组件通信，来消除数据采集延迟。然而，标准商业硬件通常缺乏硬件同步接口。在使用此类方法时，应考虑系统设计的复杂性和可移植性！

b）估计时间偏移：由于传感器之间的时间偏移直接影响融合质量，一些研究提出了基于对齐相机和雷达传感器的相同目标来提取时间偏移的时间校准策略。例如，Du等人对准了车辆通过检测线的帧，然后估计了这两个帧之间的时间偏移。此外，一些研究人员建议使用实时预处理缓冲区，利用YOLOv3和DBSCAN等算法来重组同一帧！

2）空间对准：雷达和相机传感器之间的空间对准涉及将3D或2D雷达点云映射到相机图像像素的变换操作。由于雷达和相机之间的空间校准是信息融合的基础任务，因此提出了几种联合校准方法。在这些方法中，校准过程中是否需要专门设计的校准目标是一个重要指标，导致不同的校准设计策略！

a）基于目标的方法：对于基于目标的校准方法，使用特定的校准目标，以便传感器能够获得目标的精确位置。这些位置估计雷达和摄像机传感器之间的刚性变换关系。三角反射器是雷达校准最常见的选择，反映位置信息的特定RCS值。此外，为了从雷达传感器和相机传感器中获得校准目标的位置，提出了一些新设计的校准板。例如，在[240]、[241]中，将角反射器和发泡胶板组合作为校准目标，泡沫塑料板用于摄像机传感器的视觉识别，而不会影响雷达信号。Wang等人设计了一个校准板，该校准板由一块有四个孔的泡沫塑料板和位于这些孔中心的角反射器组成。然后使用PnP算法来提取孔的3D位置并估计角反射器的位置。此外，[241]介绍了一种由角反射器和装饰有棋盘的泡沫塑料三角形组成的校准板，雷达和相机传感器都可以从中获得准确的目标位置读数。基于不同位置相同目标的成对图像像素和雷达点集，计算雷达坐标和相机坐标之间的变换矩阵。

b）无目标方法：另一方面，无目标校准方法不依赖于特定的标定物，从而提高了校准的可移植性。然而，在无目标校准方法中，从多个传感器提取相同特征时，环境因素的不确定性是一个常见的缺点。一些研究人员利用基于移动物体和相机姿态的精确雷达速度测量来实现雷达到相机的外部校准算法。

3）融合操作：在雷达-摄像机融合中，不同的融合操作用于融合来自两种模态的数据。对于目标级和数据级融合网络，通常使用变换矩阵来对齐最终目标或原始数据。相比之下，特征级和混合级融合网络倾向于使用加法和级联操作。在ADD操作中，将添加特征图中的元素特征。因此，特征图中的每个通道都包含更多的特征信息，使分类器能够理解特征细节。类似于加法运算，均值和乘法运算分别计算元素特征图的平均均值和乘法。在串联操作中，特征图被展平为向量，然后沿着行进行串联。级联操作的主要目的是丰富特征多样性，使分类器能够以更高的精度识别目标（鉴于雷达和相机的特征是异质的），并且上述融合操作对输入数据的变化很敏感，因此忽略了模态在特定场景中的有效性。例如，当雷达传感器继续正常工作时，相机传感器的性能在恶劣的天气条件下往往会降低。因此，提出了注意力操作来重新计算来自两种模态的特征图的权重。这种方法的一个例子是Chang等人提出的空间注意力融合（SAF），SAF从雷达图像中提取空间注意力矩阵，然后使用它来重新加权来自图像分支的特征图。其他方法利用专家混合（MoE）从各个专家网络中提取特征图，并通过门控网络计算注意力权重。之后，基于这些权重，重新分配特征图以优化融合性能！

4）网络架构：通常，用于雷达雷达融合的网络由双输入分支构成，其中来自雷达和相机的数据分别输入。根据所需的融合阶段，在设计的网络中融合原始数据、特征图或最终对象，以获得融合结果。基于雷达数据的表示，将雷达-摄像机融合网络分为基于点的网络和基于图像的网络。本文还在图15中提供了雷达相机融合算法的时间顺序概述，并在表III中总结了可比内容！

a）基于点的网络：在基于点的雷达-摄像机融合网络中，雷达点云大多投影到图像平面上，以提供proposal或特征。Chadwick等人将雷达点云投影到相机平面上，并生成两种雷达图像：距离图像和距离速率图像。然后在SSD网络上集成了一个额外的雷达输入分支，并使用级联和元素相加操作来融合图像块后的雷达特征。分支结构在重新计算相机图像和雷达表示之间的权重方面表现出潜在的灵活性，此外，Meyer和Kuschk从每帧的点云生成了一个BEV图像，其中包括六个高度图和一个密度图。作者还提出了一种基于VGG的3D区域proposal网络，用于预测box的位置和检测目前的前角。RVNet是一个基于YOLOv3的一级目标检测网络，包含雷达和相机的两个输入分支，以及小障碍物和大障碍物的两个输出分支。具体地，通过来自相机传感器的固有矩阵，将雷达点云转换为图像坐标系中的稀疏雷达图像。每个稀疏雷达图像由三个通道组成，即深度、横向速度和纵向速度。在RVNet的基础上，提出了SO-Net，重点关注单个网络中的多任务学习。在RVNet中，两个输出分支被修改用于车辆检测和自由空间分割。CRF Net将雷达点云投影到图像平面上，并将级联的相机和雷达数据馈送到设计的基于VGG的网络中。该网络能够通过调整不同层上雷达特征的权重来学习哪一层融合将产生最佳效益。事实上，即使使用YOLOv3等标准目标检测框架，相机图像中的特定对象在夜间场景中也往往无法被检测到。YOdar涉及降低得分阈值，并将雷达点云分配给图像切片，然后通过聚合输出对其进行组合。最后，采用梯度增强分类器来最小化误报预测的数量，提高夜间条件下的检测精度！

由于基于图像的CNN网络无法直接学习原始雷达点云，一些研究将雷达点云转换为雷达伪图像，然后利用基于图像的方法提取特征。Chang等人在远距离目标检测方法的基础上，提出了一种雷达伪图像生成模型。除了将雷达点云从3D坐标转换为2D相机坐标外，他们还将深度、纵向速度和横向速度转换为RGB通道中的真实像素值。然后，他们引入了一种基于空间注意力融合的全卷积一级（SAF-FCOS）网络，该网络使用SAF块来合并从雷达和相机传感器获得的特征图。在SAF块中，雷达图像的特征被编码为空间注意力权重矩阵，该矩阵用于重新加权来自图像分支的特征图。SeeingThroughFog引入了测量熵，以自适应地融合来自多个传感器的特征。具体来说，它将卷积和sigmoid应用于乘法矩阵的输入熵，然后利用该矩阵来缩放来自不同传感器的级联特征。这种方法自适应地将特征提取堆栈中的特征与最准确的信息。在CenterFusion中，提出了一种新的基于截头体的雷达关联方法，以将雷达检测与初步图像结果相关联。值得注意的是，作者使用深度和径向速度通道生成了热图，以产生图像的互补特征。之后，他们将连接的特征输入回归头，通过重新计算对象的深度、旋转、速度和属性来完善初步检测。最后，回归头的结果被解码为3D边界框。Harley等人重点研究了来自多个摄像头和雷达的BEV地图，他们的方法通过投影自我车辆摄像头图像周围的3D坐标和投影位置的双线性采样特征来生成具有特征的3D volume，随后，通过将3D特征与光栅化雷达图像连接，生成BEV特征图！

除了将雷达点云投影到相机平面上并将其转换为伪图像外，一些研究人员还直接从3D雷达点云中提取特征来补充图像特征。这种方法利用了来自雷达点云的丰富信息，但需要更复杂的处理技术来处理数据的高维和非结构化性质。在GRIF-Net中，FPN和稀疏块网络（SBNet）被用作雷达backbone，以低计算资源实现卓越的性能。具体来说，在点云处理中，GRIF-Net将点云转换为体素，由于点云是稀疏的，并且大多数体素都是空的，因此它利用SBNet仅在mask区域上进行卷积，从而避免无效的空白区域。在融合模块中，图像和雷达特征图中的RoI特征通过卷积MoE进行组合，证明了雷达传感器在比相机更远距离检测车辆方面的有效性。最近，利用BEV表示和transformer网络的体系结构表现出了令人印象深刻的性能。CRAFT通过空间上下文融合变换器（SCFT）通过雷达点云细化图像proposal，SCFT旨在利用跨注意力层来交换空间和上下文信息，使融合网络能够了解应该在哪里以及从相机和雷达模态中提取什么信息。MVFusion使用多视图相机图像来获得语义对齐的雷达特征，然后将这些特征集成到鲁棒的融合转换器中，以优化跨模态信息交互。CRN引入了多模态可变形注意力，以解决雷达和相机特征图之间的空间错位问题，凭借其聚合的语义特征和准确的BEV表示，CRN目前在nuScenes数据集中的所有雷达相机融合检测器中排名第一！

b）基于图像的网络：由于在CFAR检测后的雷达点云处理过程中，有关物体或周围环境的关键信息可能会丢失，几位研究人员提出了一种融合方案，将雷达张量与相机图像融合。FusionNet将雷达RA张量和相机图像转换为笛卡尔坐标，然后使用单应性变换将相机图像投影到雷达平面上。在通过独立的特征提取器分支时，两种模态的特征通过附加的融合层以形成统一的特征图。RODNet是一种雷达目标检测网络，使用相机-雷达融合策略在训练阶段对检测到的目标进行交叉监督的3D定位。它以RA张量序列作为输入，并使用基于神经网络的方法来提取多普勒信息。具体来说，为了处理多线性调频合并信息和动态目标运动，RODNet引入了两个定制模块，即M-Net和时间可变形卷积（TDC）。此外，Gao等人将RD张量、RA张量和AD张量的序列馈送到卷积自动编码器中。他们提出了一种雷达多视角卷积神经网络（RAMP-CNN），然后在融合模块中对这三个张量进行融合，以生成新的距离-方位特征。与RODNet相比，RAMP-CNN在夜间场景中实现了显著的性能，并保持了与白天相同的检测精度。最近，由于在3D坐标系中融合雷达张量和相机图像具有挑战性，Hwang等人提出了一种名为CramNet的雷达相机匹配网络，CramNet通过光线约束的交叉注意机制克服了相机和雷达之间几何对应的不确定性。具体而言，由于雷达回波中的峰值通常伴随着与图像的前景像素相对应的最佳3D位置，CramNet利用沿着像素射线的雷达特征来估计深度并细化相机像素的3D位置。RADIATE数据集上的实验表明，CramNet的性能优于Faster R-CNN检测器的基线结果。此外，通过对通过变化强度阈值对RA张量进行滤波的实验，雷达RA张量被证明比稀疏点云包含更有意义的3D对目标检测信息。

5）模型评估：采用或新提出的各种评估指标来评估雷达相机融合模型的性能，如表IV所示。与基于图像的目标检测和语义分割任务类似，在雷达相机融合中，常用的评估指标有精度、召回率、平均精度（AP）、平均召回率（AR），平均平均精度（mAP）和并集上的平均交集（mIoU）。然而，这些度量只计算给定测试数据集的预测准确性。多模态数据集中的属性，如速度、范围、大小和方向，将被忽略。此外，对于多模态网络，IoU阈值应取决于对象距离和遮挡，以及传感器的类型。为了克服这些缺点，nuScenes数据集引入了mATE、mASE、mAOE、mAVE和mAAE，它们分别代表平均平移、尺度、方向、速度和属性误差。此外，他们提出了nuScenes Detection Score（NDS），一半基于mAP，一半量化了之前的五个指标。为了评估检测结果与地面实况的匹配程度，Wang等人定义了目标位置相似性（OLS），该相似性量化了两次检测之间关于距离、类别和尺度信息的相关性。此外，雷达点云中还采用了一些为激光雷达目标检测设计的指标。例如，Cui等人利用平均航向相似性（AHS）来计算精度，该精度最初是为了计算AVOD中定义的3D激光雷达IoU中的平均方位角而制定的。

挑战和未来研究方向

平衡不同模式的性能是一个具有挑战性的问题，以便所有模式都能达到最佳水平，从而提高整体性能。雷达-摄像机融合面临许多挑战，如果这些挑战在传感器感知中没有得到妥善解决，它们也可能影响后续的任务，如定位、预测、规划和控制。本节重点讨论了提高雷达相机融合的准确性和鲁棒性，并从多模态数据和融合架构两个方面讨论了关键挑战和可能的研究方向！

1）多模态数据

1）数据质量：与单模态数据不同，多模态数据需要考虑每种模态的固有特征。图像中的信息是结构化和规则的，其中部分信息与整个图像相关联。相比之下，雷达点云中包含的空间信息往往是无序的。因此，在雷达-摄像机融合的背景下，处理雷达数据带来了更大的挑战。本文将这些与数据质量相关的挑战分为三个方向：稀疏性、不准确性和噪声。a）稀疏性：雷达点云的稀疏性对神经网络有效学习特征提出了挑战。此外，由于这些点云不能全面地表示对象的形状，因此固定大小的边界框方法是不切实际的。为了解决稀疏性问题，研究人员通常将多帧（从0.25秒到1秒）的雷达数据组合在一起，以获得更密集的点云，从而有助于提高精度。然而，与时间相关的方法也会导致系统延迟。如今，4D雷达传感器是一个潜在的研究方向，因为它可以产生更密集的点云，到达汽车上的数百个点。物体的空间分布在4D雷达数据集中得到了有效的表示，包括Astyx、VoD和TJ4DRadSet。实验还表明，4D雷达有助于雷达探测，例如，Zheng等人证明，随着点的密集，4D雷达在3D感知方面具有潜力。Palffy等人指出，在他们的VoD数据集中，额外的高程数据提高了物体检测性能（从31.9 mAP提高到38.0 mAP）。

b）不准确：除了雷达点云的稀疏性外，这些点可能不在物体的中心，但可能在物体的任何角落，甚至在物体的外部。Nabati提出了RRPN，以生成以兴趣点为中心的具有不同尺寸和纵横比的几个锚。这些平移的锚点用于实现更精确的边界框，其中兴趣点被映射到目标的右侧、左侧或底部。研究人员采用了柱状和柱状扩展技术来提高雷达点云的精度。例如，Nobis等人假设每次雷达探测的高度延伸为三米，以将相机像素与雷达数据相关联。Nabati使用支柱扩展将每个雷达点扩展为固定尺寸的支柱。在他们的实验中，pillar的大小被设置为沿着[x，y，z]方向[0.2，0.2，1.5]米。在[208]中，作者使用聚类方法将车辆的GT框分为三个不同的高度类别。接下来，根据每个类别中的边界边缘值为雷达点分配一个比例，点云的分布是一个值得研究的方向。

c）噪声：实际上，雷达传感器从无关物体返回噪声数据，包括重影物体、地面探测，甚至多雷达相互干扰。雷达的噪声可能会导致假目标的检测，从而限制基于雷达的检测或分割的准确性，汽车雷达去噪的传统方法通常基于恒虚警和峰值检测算法，它们表现出较差的泛化能力。最近，深度学习方法为解决与汽车雷达数据去噪相关的挑战提供了一个关键的解决方案。在[264]中，提出了一种深度神经网络来增强RA张量上的目标峰值。Rock等人分析了基于CNN的去噪自动编码器的量化，用于雷达RD张量上的雷达干扰抑制，以保证低性能设备上的实时推理。Dubey等人使用一个基于一级CNN的神经网络同时实现了多雷达相互干扰和RD张量上的目标检测。此外，在[267]-[271]中，全卷积网络被广泛提出并应用于RD张量的干扰抑制。然而，传统雷达通常不提供对雷达张量的访问，这突出了雷达点云级别的噪声抑制技术的重要性。例如，Nobis等人设计了一种地面实况滤波器，以去除3D GT框之外的雷达检测。Cheng等人提出了一种通过激光雷达辅助的跨模态雷达点检测器，该检测器也可以去除噪声点。总之，无论雷达张量或点云的去噪阶段如何，都需要一个具有高质量注释的数据集。对于雷达张量的去噪，研究人员可以采用图像去噪和恢复原理，为了去除有噪声的点云，基于点云的物理特性引导模型将目标与杂波分离是有意义的。由于雷达点云稀疏且不准确，对固有的不确定性建模是一个悬而未决的问题，这有助于有效地将目标与噪声区分开来。

2）数据多样性

a）小规模：深度学习模型依赖于大量的训练数据来实现高水平的准确性，然而由雷达和相机数据组成的多模态数据集比单模态图像数据小得多。例如，与拥有超过1400万张图像和超过2万个类别的ImageNet数据集相比，迄今为止最大的雷达雷达融合数据集CRUW只有40万帧和26万个目标。此外，关于类别分布，大多数标签是车辆，而行人和自行车则远没有那么普遍，这些类别分布的不平衡可能导致过度拟合设计的深度学习网络。

b）不丰富的条件：在真实场景中，对周围环境的360度感知在自动驾驶中至关重要，需要多个摄像头和雷达协同工作。此外，多模态数据集还需要考虑复杂的天气条件（如雨、雾、雪）和复杂的道路条件（如道路堵塞、乡村小路、十字路口），所有这些都是耗时耗力的任务。一些研究通过模拟工具生成合成数据，研究人员可以使用这些工具自由匹配不同的传感器，并生成不同的驾驶条件，尤其是在复杂和危险的场景中。然而，同样值得注意的是，尽管模拟器可以生成各种虚拟数据集，但模拟数据无法完全取代真实场景中的数据。此外，探索将合成数据与真实世界数据相结合的适当方法是一个关键的研究领域，值得进一步研究。领域适应性也是一个有价值的研究方向，旨在利用从具有足够标记数据的相关领域学到的知识。尽管领域自适应已应用于雷达数据，包括雷达张量重建、人类感知、人类活动识别和手势识别，但到目前为止，它还没有应用于雷达相机融合！

3）数据同步

a）高标定要求：对于雷达-摄像机融合系统，校准良好的传感器是先决条件。在多传感器校准中，激光雷达传感器通常被用作重要的中间部件，激光雷达传感器与相机传感器和雷达传感器分开校准，然后可以计算雷达和相机之间的变换矩阵。除了传感器到传感器的校准外，单个传感器和车辆坐标系之间的校准也是一种可行的方法。尽管提出了许多方法用于雷达和摄像机之间的校准，但由于雷达回波不准确且易受攻击，校准的准确性仍然是一个挑战。此外，据我们所知，[207]是4D雷达和相机校准的唯一方法。随着4D雷达技术的快速发展，我们相信4D雷达校准是一个潜在的方向，未来还会有更多的发现。在实际场景中，雷达和摄像头传感器之间的外部校准参数可能会因车辆振动而变化。此外，雷达和相机的不同采样频率可能会在来自每个传感器的数据之间产生特定的时间差异。时间差异会导致数据不一致，尤其是当自我汽车或目标高速移动时，因此，实时在线校准和校正是未来必不可少的研究方向。

b）标注困难：标注数据的过程是劳动密集型和耗时的，尤其是在处理多模态数据时。对于雷达雷达融合来说尤其如此，因为无法直接从雷达数据表示中辨别物体的物理形状。在RadarScene中，所有雷达点都由人类专家标记，但是只对移动目标进行注释，而忽略静态点。自动标记雷达数据是解决费力的数据标记挑战的一个潜在研究方向。实际上，雷达数据的标签可以基于来自相机图像的相应地面实况以及雷达传感器和相机传感器之间的本征矩阵来计算。但问题是，将这种标记方法应用于雷达数据并不完美，因为雷达目标可能并不总是位于图像中的GT中。Sengupta等人提出了一种相机辅助方法，用于自动标记雷达点云，利用预训练的YOLOv3[55]网络和匈牙利算法来提高精度和效率。然而，尽管自动标记雷达数据具有潜在的优势，但滤除感兴趣对象周围的噪声数据仍然具有挑战性。对于相机图像标记，值得考虑如何选择合适的标记数据来降低劳动力成本。主动学习是一种监督学习方法，旨在选择尽可能小的训练集，以实现所需的数据效率。主动学习网络在未标记的数据池中迭代地查询来自人类标注器的信息量最大的样本，然后更新网络的权重。这种方法可以在标记较少的训练数据下获得同等的性能，从而减少人为标记工作。[284]的实验表明，在训练集中仅使用约40%的数据会导致与完全监督的参考实验相同的分类结果。此外，Haussmann等人开发了一种用于自动驾驶主动学习的可扩展生产系统。从他们的系统来看，自动选择的性能得到了提高，与领域专家的手动选择过程相比，mAP的相对改进高达四倍。此外，许多其他方法也将用于减轻数据标记的负担，如领域自适应、迁移学习、半监督学习和终身学习。

4）融合体系结构

1）特征提取：由于雷达点云固有的稀疏性，将基于激光雷达的特征提取算法应用于雷达模态的效果较差。例如，PointPillars算法将激光雷达点云转换为支柱，然后从每个支柱中提取特征。当该算法适用于雷达点云时，柱中可能很少甚至没有点，这使得提取特征变得困难。事实上，[145]和[292]中的结果也表明，使用PointPillars的雷达点云的平均精度远低于使用SSD和YOLOv3检测器。由于PointPillars专注于局部特征，因此引入了全局特征以提高准确性。例如，RPFA-Net利用自注意机制从点云中提取全局特征（如方位）。这些全局特征使网络能够对关键物体参数（如航向角）进行更有效的回归，从而提高目标检测的准确性和可靠性。为了深入挖掘稀疏点云之间的关系，图神经网络（GNN）是一个很有前途的研究方向，其中每个点都被视为一个节点，边是点之间的关系。用于雷达点云的3D特征提取的GNN表明，通过将雷达点云映射到上下文表示，图形表示比其他点云编码器产生更有效的目标建proposal。GNN在从RA张量进行检测方面也显示了其优势。图张量雷达网络（GTR-Net）架构利用图卷积运算来聚合点云节点上的信息，该过程包括基于连接节点各自的边权重对其特征进行加权。通过这种方式，它通过聚集相关信息来改进有缺陷的稀疏点，从而获得更好的性能。另一个潜在的研究机会是使用神经网络来提取雷达信息，而不是传统的FFT运算，这可以减少消耗大部分运算的计算需求，并简化嵌入式实现中的数据流。例如，在RODNet中，FFT操作仅在样本和天线维度中执行，而chrip维度保留以获得距离-方位chrip张量。然后，使用神经网络来处理chrip维度，以提取多普勒特征，从而能够在深度学习框架内对雷达特征进行端到端的深度训练。

2）数据关联：另一个重大挑战是将雷达数据与图像数据关联起来的模糊性，因为它们是异构的。典型的方法是将雷达数据投影到图像平面上，然后将数据绑定在相同的位置。但是，通过标定直接投影导致与目标中心的关联性较差。雷达数据稀疏、不准确且有噪声，无论是在目标级别还是数据级别的融合上，关联性都很差。因此，将图像数据与雷达数据关联起来是一个悬而未决的问题，Nabati提出了一种雷达方案细化（RPR）网络，以匹配雷达和camera的proposal。Dong等人使用AssociationNet学习语义表示信息，并通过欧几里得距离将雷达点云和图像边界框关联起来。为了将语义与雷达点云相关联，Bansal等人提出了一种名为语义点网格（SPG）的表示，该表示将来自相机图像的语义信息编码到雷达点云中，以识别每个雷达点的相机像素对应关系。在本文看来，将雷达数据与图像数据相关联的一种潜在方法是基于注意力的自适应阈值关联。例如，在[223]中，提出了雷达相机像素深度关联（RC-PDA）来过滤被遮挡的雷达回波，并通过生成这些关联的置信度来增强投影雷达深度图。软极关联（SPA）被提议在极坐标下将图像提议周围的雷达点云关联起来，为了克服背景杂波，它利用连续的基于交叉注意力的编码器层来集成图像proposal特征和雷达点特征！

3）数据增强：已经提出了许多数据增强方法来增加数据样本的数量和多样性，从而防止网络过拟合并增强模型泛化能力。对于点云形式的雷达数据，通常应用随机旋转、缩放和翻转移位等数据增强来丰富样本的多样性。此外，由于雷达张量可以被视为图像，现有的基于图像的数据增强算法（如水平翻转、范围平移、插值、混合）在实验中进行了测试，并被证明是有效的。然而，上述所有这些数据增强方法都仅基于雷达模态。在雷达-摄像机融合感知中，设计有效的数据增强方法需要考虑雷达和摄像机模态之间的相关性和相互依赖性，这意味着联合数据增强方法是必要的，而不是单独增强每个模态。否则，模型将从不正确的数据中学习，这些数据的物理财产不可靠。例如，当雷达数据和图像的坐标对齐时，在图像和雷达特征图上应用Cutmix无疑会破坏雷达传感器获得的目标特征（例如方位角和仰角），导致不正确的模型推断，因此，为独特的雷达表示与图像模态相结合设计联合数据增强算法仍然是一个重大挑战。

4）训练策略：由于多模态网络具有额外的输入信息，因此它应该与单模态网络相匹配或优于单模态网络，然而，情况并非总是如此。多模态网络往往容易过拟合，并且如果用于训练的超参数集更适合另一个分支，则倾向于学习忽略一个分支。Wang等人认为，不同模态的过拟合和泛化率不同，使用单模态训练策略训练多模态网络对整个网络来说可能不是最优的。平衡性能的一种可行方法是为每个模态添加损失函数，这样，在一个模态收敛后，剩余的模态仍然可以被泛化。此外，对损失函数进行加权运算可能更有利于适应每个模态的学习率。在最近的研究中，Wang等人提出了梯度混合，其基于模态的过拟合行为来计算模态的最佳混合。尽管这种方法在音频和视觉基准上实现了SOTA的准确性，但这种想法尚未应用于雷达和相机模态。此外，drop操作有助于克服过度拟合，Nobis等人通过停用相机图像数据引入了BlackIn。相机输入数据的缺乏迫使网络更多地依赖稀疏的雷达数据来获取特定的潜在值，在预先训练的单峰编码器上微调多模态网络也可以胜过从头开始的融合。Lim等人利用权重冻结策略，使用最优训练超参数训练单个分支网络。这些权重随后被加载到相应的分支中，以训练融合网络。实验结果表明，最好的策略是提前训练相机分支，然后在通过相机分支禁用梯度传播的情况下训练整个网络。最近，知识蒸馏通过将预训练的单模态特征提取到多模态网络中，显示了其在多模态网络上的性能，这也可能是雷达雷达融合的一个潜在研究方向。

5）模型鲁棒性：另一个挑战是，当传感器退化，或者自动驾驶车辆进入不利或看不见的驾驶场景时，如何保证模型的鲁棒性。大多数方法都关注公共数据集的准确性，而只有少数方法考虑传感器故障，只有一种模态作为输入数据。在RadSegNet中，SPG编码独立地从相机和雷达中提取信息，并将相机图像中的语义信息编码到雷达点云中。因此，在相机输入变得不可靠的情况下，SPG编码方法仅使用雷达数据来维持可靠的操作。Bijelic等人为每个传感器流引入了一个熵通道和一个特征融合架构来交换特征，这些特征在看不见的天气条件和传感器故障中仍然有效。此外，注意力机制也是引导来自不同传感器的混合信息融合多个模态的特征以及处理单个模态的原始特征的有效选择。例如，注意力图利用从不同传感器学习的特征来预测特定参数的重要性。至关重要的是，不仅要关注预测结果的准确性，还要关注模型对预测结果的确定程度。不确定性是一个潜在的方向，可以用来处理看不见的驾驶场景。具体而言，多模态网络应对看不见的物体表现出更高的不确定性。贝叶斯神经网络是计算不确定性的一个有价值的选择，它利用网络权重的先验分布来推断后验分布，从而估计与给定预测相关的概率。在雷达-摄像机融合中，YOdar是一种基于不确定性的方法，其中不确定性将雷达和摄像机网络的输出与梯度增强分类器相结合。实验结果表明，YOdar在夜间场景中显著提高了性能。另一种可能有助于提高网络鲁棒性的方法是生成模型，它们可以检测传感器缺陷或自动驾驶汽车从未进入过的新场景。Wheeler等人描述了一种基于与真实世界数据相关的对抗性损失的深度学习，由此产生的模型在保持实时能力的同时展现出基本的雷达效果。Lekic和Babic等人引入了条件多生成器生成对抗性网络（CMGGAN），以生成包含雷达传感器检测到的所有周围物体的伪图像。在本文看来，为雷达相机融合设计特定的深度生成模型是一个有趣的开放问题。

6）模型部署：雷达-摄像头融合在实际的自动驾驶汽车中具有巨大的潜力，雷达-摄像头的融合模型部署在边缘设备上。与高计算服务器相比，边缘设备通常在内存、带宽、图形处理单元（GPU）和中央处理器（CPU）方面配备有限的计算资源。尽管如此，它们仍然需要满足低延迟和高性能的要求，目前，[311]是唯一在NVIDIA Jetson AGX TX2上达到11 Hz。边缘设备上融合算法的结果是一个悬而未决的问题，如何提高计算效率值得考虑。一些网络加速方案（例如，修剪和量化）是应用的好选择。在一个单一模型中实现多个任务对于实际应用是有价值的，在多任务学习中，在一项任务的训练中学习到的知识可以共享，并用于提高其他任务的性能。此外，通过在多个任务之间共享模型特征，可以减少参数和计算的总数，使其在实时自动驾驶应用中更高效。雷达相机融合中的多任务方法仍处于初步阶段，相信雷达相机融合的多任务方式是一个潜在的研究方向。尽管如此，将多个任务组合成一个统一的优化目标会导致复杂的优化问题，尤其是当任务相关但具有不同的性能指标时，找到一组能够有效平衡不同任务重要性的超参数是一项挑战！

参考

[1] Radar-Camera Fusion for Object Detection and Semantic Segmentation in Autonomous Driving: A Comprehensive Review

视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！