高精地图新基线 | SuperFusion：多层次Lidar-Camera融合，nuScenes SOTA！-CSDN博客

本文链接：https://blog.csdn.net/CV_Autobot/article/details/128367851

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

后台回复【SuperFusion】获取本文代码！！！

摘要

环境的高精（HD）语义地图生成是自动驾驶的一个重要组成部分。现有方法通过融合不同的传感器模式（如激光雷达和相机），在这项任务中取得了良好的性能。然而，目前的工作基于原始数据或网络特征级融合，仅考虑短距离高精地图生成，限制了其部署到现实的自动驾驶应用中。在本文中，作者专注于在两个短距离（即30m以内）构建高精地图的任务，并预测长达90m的长距离高精地图，这是下游路径规划和控制任务所需的，以提高自动驾驶的流畅性和安全性。为此，作者提出了一个名为SuperFusion的新网络，在多个层次上实现了激光雷达和相机数据的融合。作者在nuScenes数据集和自有数据集上对作者的SuperFusion进行了基准测试，表明它以较大的优势超过了SOTA的基线方法。此外，作者提出了一种新的度量来评估长距离高精地图预测，并将生成的高精地图应用于下游路径规划任务。结果表明，通过使用作者的方法预测的长距离高精地图，作者可以为自动驾驶车辆进行更好的路径规划。

简介

检测街道车道并生成语义高精（HD）地图对于自动驾驶车辆实现自动驾驶至关重要。高精地图由语义层组成，包括车道边界、道路分隔线、人行横道等，提供附近基础设施、道路和环境的精确位置信息，以安全地导航自动驾驶车辆[14]。

传统方法通过首先记录点云，然后使用SLAM创建全局一致的地图[41]，最后手动标注地图中的语义信息，离线构建HD地图。尽管一些自动驾驶公司已经按照这种模式创建了精确的高精地图，但这需要太多人力，需要不断更新。由于自动驾驶汽车通常配备各种传感器，利用车载传感器数据构建局部高精地图以用于在线应用备受关注。现有方法通常在相机数据[43]或激光雷达数据[22]的鸟瞰图（BEV）表示上提取车道和路口。最近，几种方法[22，26，32]显示了融合多传感器模态的进展。它们利用来自两个传感器的补充信息来提高HD地图生成性能。尽管有所改进，但现有方法以简单的方式融合了激光雷达和相机数据，无论是在原始数据水平[37，38]、特征水平[2，51]还是最终BEV水平[22，26，32]，这并没有充分利用这两种模式的优势。此外，由于传感器测量范围有限，即在30米以内，因此现有方法仅专注于短距离高精地图生成，这限制了它们在下游应用中的使用，例如真实自动驾驶场景中的路径规划和运动控制。如下图1所示，当生成的高精地图太短时，规划方法将创建一条与人行道相交的非平滑甚至错误的路径，由于快速变化的控制而导致失效，增加接管时间并降低用户的舒适度。

为了解决上述问题，在本文中，作者提出了一种多级激光雷达相机融合方法，称为SuperFusion。它在三个不同的层次上融合了激光雷达和相机数据。在数据级融合中，它将投影的激光雷达数据与图像相结合，作为相机编码器的输入，并使用激光雷达深度来监督相机到BEV的转换。特征级融合使用相机特征来指导激光雷达特征使用cross-attention机制进行远程激光雷达BEV特征预测。在最后的BEV级融合中，作者的方法利用BEV对齐模块来对齐和融合相机和Li-DAR BEV特征。使用作者提出的多级融合策略，SuperFusion在短距离内生成准确的高精地图，并在长距离（原始激光雷达数据可能不准确）内预测准确的语义。作者评估了SuperFusion，并将其与公开可用的nuScenes数据集和作者自己在真实世界自动驾驶场景中标注的数据集上的SOTA方法进行比较。实验结果一致表明，作者的方法在很大程度上优于基线方法，特别是在长距离高精地图生成中。此外，作者还提供了将生成的高精地图用于路径规划的应用结果，显示了作者提出的融合方法用于远程高精地图生成的优势。

作者的贡献可以概括为：i）作者提出的新型多层次激光雷达相机融合网络充分利用了模态和生成高质量融合BEV特征的信息，以支持不同的任务；ii）作者的SuperFusion在短距离和长距离高精地图生成方面大大超过了SOTA的融合方法；iii）据作者所知，作者的工作是第一个实现远程高精地图生成的工作，即高达90米，有利于自动驾驶下游规划任务。

方法

本部分介绍了用于远距离高精地图生成和预测的SuperFusion技术。原始 Li-DAR 数据和相机数据具有不同的特点。激光雷达数据提供了准确的3D结构信息，但存在无序性和稀疏性。相机的数据是紧凑的，捕获更多的环境上下文信息，但缺少深度信息。如下图2所示，作者的方法在三个层次融合相机和 Li-DAR 数据，以弥补不足，并利用两种模态的优势。

在数据级融合中，作者将 LiDAR 点云投影到图像平面上以获得稀疏的深度图像。作者将这些稀疏的深度图像与 RGB 图像一起作为相机编码器的输入，并在训练过程中使用它们来监督相机到 BEV 的转换模块。在特征级融合中，作者利用前视相机特征来指导 LiDAR BEV 特征，使用cross-attention交互作用进行远程预测，以实现准确的远程高精地图预测。在最终的 BEV 级融合中，作者设计了一个 BEV 对齐模块来对齐和融合相机和激光雷达的 BEV 特性。融合后的 BEV 特征可以支持不同的头部，包括语义分割、实例嵌入和方向预测，最后进行后处理生成 HD 地图预测。

深度感知相机到 BEV 的转换

作者首先在原始数据层融合 LiDAR 和相机，并利用来自 LiDAR 的深度信息帮助相机将特性提升到 BEV 空间。为此，作者提出了一个深度感知相机到 BEV 的转换模块，如上图2所示。它以一个 RGB 图像 I 和相应的稀疏深度图像作为输入。利用相机投影矩阵将3D LiDAR 点云 P 投影到图像平面上，得到这样的稀疏深度图像。相机主干有两个分支。第一支提取2D图像特征，其中、和是宽度、高度和通道数。第二个分支连接一个深度预测网络，该网络对2D特征 F 中的每个元素估计一个分类深度分布，其中 D 是离散深度bins的个数。为了更好地估计深度，作者使用上的补全方法[20]来生成密集的深度图像，并将每个像素的深度值离散为深度bins，最后将其转换为一个one-hot编码矢量来监督深度预测网络。最终平截头体特征网格 M 是由 D 和 F 的外积：

其中生成的。最后，将平截头体中的每个体素分配给最近的柱体，并且如 LSS [43]中一样进行池化相加以创建相机 BEV 特征。作者提出的深度感知相机到 BEV 模块不同于现有的深度预测方法[43,44]。LSS [43]中的深度预测只是隐式地受到语义分割损失的监督，这不足以产生准确的深度估计。与之不同的是，作者利用激光雷达的深度信息进行监测。CaDDN [44]也使用激光雷达深度进行监督，但是没有激光雷达作为输入，因此无法产生一个稳健可靠的深度估计。SuperFusion方法既利用已完成的密集激光雷达深度图像进行监督，又利用稀疏深度图像作为 RGB 图像的附加通道。通过这种方式，SuperFusion既利用了深度先验和准确的深度监督，从而很好地推广到不同的具有挑战性的环境。

图像引导的激光雷达 BEV 预测

在激光雷达分支中，作者使用 PointPilars [21]加动态体素化[56]作为点云编码器来生成LiDAR BEV特征，对于每个点云 P。如下图3a 所示，LiDAR 数据仅包含对地平面的短暂有效测量(对于旋转的32波束 LiDAR 通常在30米左右) ，导致 LiDAR BEV 特征的许多部分编码为空白空间。与激光雷达相比，相机数据中的可见面积通常更大。因此，作者提出了一个 BEV 预测模块，在图像特征的指导下，来预测未知的地面区域的激光雷达分支，如图3b 所示。BEV 预测模块是一个编解码网络。该编码器由若干卷积层组成，将原 BEV 特征 L 压缩为bottleneck特征。然后应用cross-attention机制动态捕获 B 和 FV 图像特征F之间的相关性。利用 Q 和 K 之间的内积计算注意力关联矩阵，表明了 LiDAR BEV 中每个体素与相应相机特征之间的相关关系。然后利用softmax算子对矩阵进行归一化，对矩阵的 V 值进行加权和聚合，得到聚合后的特征值 A。这种cross-attention机制可以表述为：

其中是用于缩放的通道维度。然后在聚合特征 A 上应用一个卷积层来减少通道，并将其与原始的bottleneck特征 B 连接起来，最后再应用另一个卷积层来得到最终的bottleneck特征 B′。现在 B′具有图像特征的视觉引导作用，并被反馈给解码器，生成完整的和预测的 LiDAR BEV 特征 L′。通过这种方法，作者在特征层次上融合了这两种模式，以更好地预测远程激光雷达的 BEV 特征。

BEV 对齐与融合

到目前为止，作者从不同的分支获得了相机和激光雷达的 BEV 特征，由于深度估计的误差和外部参数的不准确，这些特征通常会导致对齐失败。因此，直接串联这两个 BEV 特性将导致较差的性能。为了更好地对齐 BEV 特征，作者在 BEV 水平融合它们，并设计一个对齐和融合模块，如下图4所示。

该方法以相机和激光雷达的 BEV 特征作为输入，输出相机 BEV 特征的一个流场。利用流场将原始相机的 BEV 特征向带有激光雷达特征 L′的对齐 BEV 特征向 C′偏移。在[19,23]之后，作者将变换函数定义为：

其中一个双线性插值kernel用于采样 c 的位置特征，，，表示位置(w，h)的二2D学习流场。最后，C′和 L′级联生成融合的 BEV 特征，这些特征是高精地图解码器的输入。

HD地图解码器和训练损失

在 HDMapNet [22]之后，作者将 HD 地图解码器定义为一个全卷积网络[33] ，其输入融合的 BEV 特征并输出三个预测，包括语义分割，实例嵌入和车道方向，然后在后处理步骤中用于向量化地图。为了训练三个不同的头，作者使用不同的训练损失。作者使用交叉熵损失来监督语义分割。对于实时嵌入预测，作者将损失定义为方差和距离损失[9]:

其中 C 为簇数, 和 μ 是簇 c 中元素的个数，c 的平均嵌入是 c.‖ · ‖中 j 元素的嵌入， = max (0，x) ，δ 和 δ 是方差和距离损失的边界。

对于方向预测，作者将方向离散为36个一致的类，并将损失定义为交叉熵损失。作者只对那些位于有效方向的车道上的像素进行反向传播。在推理过程中，使用 DBSCAN [10]来集群实例嵌入，然后使用NMS[22]来减少冗余。然后利用预测的方向连接像素，得到高精地图元素的最终矢量表示。作者使用focal loss[27] ，γ = 2.0作为深度预测。最终的损失是深度估计、语义分割、实例嵌入和车道方向预测的结合，定义为：

其中 λ、 λ、 λ 和 λ 是不同的加权因子。

实验

作者在 nuScenes [4]和一个自有数据集上评估SuperFusion的远程高精地图生成任务。

实施细节

作者使用 ResNet-101[17]作为相机分支骨干网络，使用 PointPilars [21]作为激光雷达分支骨干网络。对于深度估计，作者修改 DeepLabV3[6]来生成像素级的深度概率分布。使用在 MS-COCO 数据集上预先训练的 DeepLabV3[6]模型初始化相机骨干和深度预测网络[28]。所有其他组件都是随机初始化的。作者将图像尺寸设置为256 × 704，并对 LiDAR 点云进行0.15 m 分辨率的体素化。作者使用[0,90] m × [-15,15] m 作为 BEV HD 图的范围，其结果尺寸为600 × 200。作者设置离散深度bins 2.0-90.0米间隔1.0米。作者使用初始学习率为0.1的随机梯度下降对模型进行了30个epoch的训练。使用步长为10的步长调度器更新学习速率。对于实例嵌入，作者设置 α = β = 1，δ = 3.0，δ = 0.5。对于不同的加权因子，设 λ = 1.0，λ = 1.0，λ = 1.0，λ = 0.2。

评价指标

IoU 预测的 HD 映射 M1与真值HD 映射 M2之间的IoU定义为：

倒角距离 用以下公式给出了预测曲线与真值曲线之间的倒角距离(CD)

其中 C1和 C2是预测曲线和真值曲线上的点集。CD 用于计算两条曲线之间的空间距离。单独使用 CD 进行高精地图评估时存在一个问题。较小的IoU往往会导致较小的CD。在这里，作者结合 CD 和 IoU 选择真正的积极因素，以更好地评估高精地图生成任务。

平均精度 平均精度(AP)度量实例检测能力，定义为：

其中是召回率 r 的精度。正如在[22]中介绍的，他们使用 CD 来选择真正的正实例。除此之外，这里作者还增加了一个IoU阈值。实际上，只有当CD低于规定的最低阈值，而且IoU高于规定的最低阈值时，才被认为是一个真正的正例。作者将 IoU 的阈值设置为0.1，CD 的阈值设置为1.0 m。为了评价不同方法的远程预测能力，作者提出了一种新的度量方法，将真值划分为三个区间: 0-30米、30-60米和60-90米。作者计算不同方法在三个时间间隔上的 IoU、 CD 和 AP，以彻底评估 HD 地图生成结果。

评估结果

nuScenes 数据集 作者首先评估作者对公开可用的 nuScenes 数据集的方法[4]。作者专注于引入[22]的自动高精地图分割和实例检测任务，并考虑三个静态地图元素，包括车道边界、车道分割器和人行道。下表1对语义图分割的 IoU 得分进行比较。作者的SuperFusion在所有情况下都取得了最好的结果，并且有显著的改进，特别是对于远程高精地图的生成(下图5) ，这显示了作者方法的优越性。

此外，作者可以观察到，激光雷达-相机融合方法总体上优于只有激光雷达或相机的方法。仅激光雷达方法的性能在远距离上迅速下降，特别是在60-90米，这反映了作者在图3a 分析的情况。AP 结果综合 IoU 和 CD 来判断真正的正例，显示出更全面的评价。如下表2所示。

本文提出的融合网络实例检测方法在大范围情况下，尤其是在远距离情况下，能够获得最佳的实例检测结果，验证了本文提出的融合网络的有效性。自有数据集。为了测试该方法的良好泛化能力，作者在实际驾驶场景中收集了自己的数据集，并对该数据集上的所有基线方法进行了评估。作者的数据集有一个类似于 nuScenes 的设置，它有一个 LiDAR 和相机传感器配置。静态地图元素用手工标注，包括车道边界和车道分隔符。有21000帧数据，其中18000帧用于训练，3000帧用于测试。下表3显示了在作者的数据集上运行的不同基线方法的比较结果。

可以看到作者的方法与在 nuScenes上保持一致的优越性。作者的SuperFusion技术在所有情况下都有很大的改进，其性能优于SOTA方法，特别是在远距离生成高精地图方面。作者在补充材料中加入了更多关于数据集和评估结果的细节。

消融研究与模块分析

作者进行消融研究，以验证作者提出的融合网络的每个组成部分的有效性，如下表4。

在没有深度监督的情况下，不准确的深度估计会影响相机到 BEV 的转换，使后续的对齐模块失效，从而导致最差的性能。由于没有激光雷达点云的稀疏深度图，深度估计在具有挑战性的环境下是不可靠的，从而产生了较差的结果。由于没有预测模块，激光雷达在长距离间隔内无法进行测量，只有相机信息有用，从而降低了系统的整体性能。在“ W/o cross-attention”设置中，作者添加了编码器-解码器的 LiDAR BEV 预测结构，但是去除了与相机 FV 特征的cross-attention交互作用。在这种情况下，网络试图从数据中隐式地学习 LiDAR 完成，而无需从图像中获得指导。这种设置的性能显著下降，表明作者提出的图像引导激光雷达预测模块的重要性。在最后的设置中，作者去掉了 BEV 对齐模块，并直接从相机和激光雷达中连接 BEV 特征。可以看到，由于深度估计不准确和外部参数，无对齐的性能比使用作者提出的 BEV 对齐模块更差。模块选择分析。在下表6的上部分，作者证明了作者的 BEVAlign 模块比以前的工作中提出的对齐方法更好地工作[26,32]。

[32]使用一个简单的基于卷积的编码器进行对齐，当深度估计不准确时，这是不够的。在[26]中提出的动态融合模块在3D 目标检测任务上运行良好，但在语义分割任务上有局限性。

洞察和应用

这一部分提供了更多的洞察，作者的方法在远程高精地图生成的性能，并表明这种良好的远程高精地图生成对下游路径规划和自动驾驶的运动控制是重要的。转弯场景中高精地图的生成 实验结果表明，本文提出的方法在转弯场景的远程高精地图生成中具有一定的优势，这对于下游路径规划是必不可少的，因为更好地预测转弯可以使路径更加平滑。作者在nuScenes[4]验证集中选择所有的转向情况，并分别对转向样本进行评估。如下表5所示。

与 HDMapNet [22]相比，该方法对转弯场景的预测能力进一步提高，表明该方法能够更好地预测转弯。有用的路径规划。如下图6所示，作者直接对生成的高精地图执行路径规划。红色的汽车代表汽车的当前位置，蓝色的星星是目标。

作者使用相同的动态窗口方法(DWA)[12]对由 HDMapNet 和作者的 SuperFusion 生成的 HD 地图进行路径规划。得益于对远距离和转向情况的准确预测，DWA 可以始终根据作者的 SuperFusion 生成的高精地图找到合适的路径。对于 HDMapNet 提供的地图，DWA 要么找到一条与人行道相交的路径，要么由于其远程高精地图预测性能较差而无法进行规划。这将导致由于快速变化的控制，降低用户的舒适水平，甚至需要由人类驾驶员接管。

结论

本文提出了一种新的激光雷达相机融合网络 SuperFusion，来解决远程高精地图生成任务。它利用激光雷达和相机数据在多个级别上的融合，并在长达90米的距离上生成精确的高精地图。作者广泛评估了其在nuScenes 数据集和作者自有数据集在自动驾驶环境中的性能。实验结果表明，该方法在大幅度高精地图生成中，特别是在远程预测中，优于现有的高精地图生成方法。作者进一步表明SuperFusion方法生成的远程高精地图更有利于下游路径规划的任务。

尽管作者的SuperFusion技术取得了显著的进步，但是方法的一个潜在的局限性是它同时依赖于激光雷达和相机传感器数据，因此当其中一个数据丢失时，性能会降低。在实际应用中，作者可以使用多线程框架[45]来解决这个问题，并提高其鲁棒性。

在线局部高精地图生成将大大提高自动驾驶车辆的鲁棒性和安全性。作者的 SuperFusion 可以准确地生成远距离的高精地图，使规划算法计划更早，更好地避免缓慢移动的行人，如老年人或婴儿车。

参考

[1]SuperFusion: Multilevel LiDAR-Camera Fusion for Long-Range HD Map Generation and Prediction

往期回顾

Radar-LiDAR BEV融合！RaLiBEV：恶劣天气下3D检测的不二之选

【知识星球】日常干货分享

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球（三天内无条件退款），日常分享论文+代码，这里汇聚行业和学术界大佬，前沿技术方向尽在掌握中，期待交流！