高精地图新方案！MV-Map：多视图一致性如何助力大规模离线地图生成？

最新推荐文章于 2024-11-05 22:52:18 发布

自动驾驶之心

最新推荐文章于 2024-11-05 22:52:18 发布

阅读量370

点赞数

本文链接：https://blog.csdn.net/CV_Autobot/article/details/132062813

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

今天自动驾驶之心很荣幸邀请到Ziyang Xie来分享离线高精地图生成新方案—MV-Map，如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心【高精地图】技术交流群

论文作者 | Ziyang Xie

编辑 | 自动驾驶之心

大家好，很荣幸来分享我们的工作。高精地图虽然正在被轻地图替代，但不可否认高精地图的优势也是很香的，虽然鸟瞰图(BEV)感知模型可以用于用更少的人力构建高精地图(HD maps)，但它们的结果往往不可靠，并表明从不同角度预测的HD maps存在明显的不一致性。这是因为BEV感知通常是以“车载”方式设置的，这限制了计算，从而阻止了算法同时推理多个视图。本文克服了这些限制，并基于高精地图是数据中心中常见的可重复使用的基础设施这一事实，倡导一种更实用的“非车载”高精地图生成设置，以消除计算限制。为此，我们提出了一种称为MV-Map的新型非车载pipeline，该pipeline利用了多视图一致性，并可以通过“以区域为中心”的框架的关键设计来处理任意数量的帧。在MV-Map中，目标HD Map是通过聚合车载预测的所有帧来创建的，这些帧由“不确定性网络”分配的置信度分数加权。为了进一步增强多视图的一致性，我们用体素化神经辐射场(Voxel NeRF)优化的全局3D结构来增强不确定性网络。在nuScenes上的扩展实验表明，MV-Map显著提高了HD Map的质量，进一步强调了非车载方法对HD Map生成的重要性。

简介

高精地图(HD maps)通过提供有关道路要素的基本位置和语义信息，在确保自动驾驶汽车的安全导航方面发挥着至关重要的作用。理想情况下，构建高精地图的过程非常简单，只需在驾驶时收集大量传感数据，然后使用自动算法提取道路元素，如下图1所示。

然而，主流解决方案通常涉及人工标注，如广泛使用的数据集那样。人工标注的费用阻碍了自动驾驶向新位置的扩展，我们的目标是开发可靠的算法，以减少或取代高精地图构建中对人力的需求。

为了实现这一目标，最近有人尝试使用鸟瞰图(BEV)感知自动生成高精地图。然而，他们的结果往往是不可靠的，如从不同角度预测的高精地图中明显的不一致。我们认为，多视图一致性是HD Maps的固有特性，HD Maps是刚性和静态的，违反这种一致性的原因是现有的BEV感知算法没有明确计算所有视图，因此没有对齐它们的预测。这个问题进一步归结为他们的车载设置，在那里，模型只允许访问自动驾驶汽车中的车载设备，只能处理单个帧或几个相邻帧。我们的非车载设置与高精地图的基础设施作用非常一致：构建高精地图可以而且应该利用强大的数据中心来最大限度地提高预测的保真度，从而确保高精地图的安全性和可靠性。

我们提出了一个称为多视图地图(MV-Map)的框架，该框架利用来自每一帧视点的信息，并生成与所有视点一致的统一高精地图。与当前车载方法中以帧为中心的设计(在输入级合并固定数量的帧)不同，提出了一种受“非车载3D检测”启发的以区域为中心设计，以充分利用来自不同视图的数据。设计将每个高精地图区域与覆盖其区域的任意数量的输入帧连接起来。框架的pipeline包括提取与该HD Map区域相关的现成车载模型预测的所有HD Map补丁，然后将它们融合为与所有视图一致的最终结果，如上面图1中的箭头所示。

为了给可靠的帧赋予更多的权重，例如那些目标区域清晰可见的帧，我们引入了一个“不确定性网络”作为关键组件，它为车载结果分配置信度分数，并在置信度的指导下对HD-Map补丁进行加权平均。通过用跨视图一致性信息增强不确定性网络，进一步增强了所有框架之间的一致性。关键见解是从不同的视角学习相干的3D结构，并将其作为不确定性网络的辅助输入。为此，我们利用了神经辐射场(NeRFs)，这是一种最先进的方法，可以表示场景的3D结构。如图2所示，我们的NeRF模型合成了高质量的场景结构。与其他3D重建策略(如运动结构(例如，COLMAP))相比，从实践的角度来看，NeRF更受欢迎，因为它的运行时间随着帧数线性增长，而COLMAP是二次增长的。此外，与MVSNet等多视图立体方法不同，NeRF是完全自监督的，不需要额外的标注。为了进一步提高NeRF的可扩展性，我们利用NeRF的体素化变体来提高效率，并提出了隐式引导NeRF在与HD Map生成相关的近地几何体上的集中的损失函数。此外，我们强调了NeRF对任意数量视图的灵活性和可扩展性，使其在非车载高精地图生成中至关重要。

综上所述，我们做出了以下贡献：

是第一个研究如何非车载生成高精地图的问题的人，也是第一个以视觉为导向的非车载研究。
提出了一种有效的以区域为中心的框架MV-Map，该框架可以从任意大量的帧中生成多视图一致的HD Map。
引入并扩展了体素NeRF，以对所有帧的3D结构进行编码，用于HD Map生成任务，进一步指导了多视图一致性的融合。在nuScenes上的大规模实验表明，MV-Map显著提高了HD Map的质量。值得注意的是，MV-Map可以有效地利用越来越多的输入帧，使其对现实世界的应用具有吸引力。

车载高精地图生成

给定一系列传感器数据，高精地图生成的目标是预测BEV空间中道路元素的位置和语义，包括道路分隔符、道路边界和人行横道。

问题描述。 HD Map生成的输入为，，其中表示第i个传感器帧，是相关联的传感器姿态的集合，N是数据库中表示由移动的自车捕获的场景的不同视图的帧的总数。输出表示为，其中是第i帧上自车辆附近区域的高精地图。根据HDMapNet，我们将定义为BEV上的局部语义图。注意，上述公式对传感器类型是不可知的。在主要论文中，我们主要关注面向视觉的高精地图生成，并倾向于利用额外激光雷达数据。具体地说，每个帧Ii包含nuScenes上的K=6个RGB图像，，并且，对应相机的内在矩阵和外在矩阵的乘积。

非车载设置与车载设置。 与传统的车载设置相比，我们的非车载设置在速度和计算资源方面提供了更大的灵活性。车载高精地图生成算法经常受到效率要求的限制，不能在一次运行中使用所有的N帧。相比之下，非车载算法可以访问所有N帧，然后可以利用非车载设置和丰富的计算资源来生成更高质量的高精地图。从以框架为中心到以区域为中心的设计。有不同的策略来利用来自N帧的时间数据，类似于非车载3D检测。直接解决方案是以帧为中心的，其中我们显著增加了现有车载HD Map构建方法(通常是BEV分割模型)的帧数，并将其扩展为长序列。虽然先前的工作已经说明了较长时间范围的好处，但多帧BEV分割模型只能处理固定数量的输入帧，并且增加帧数量需要GPU容量的线性增长。因此，简单地放大现有车载模型的输入帧并不是利用车载数据的有效方法，车载数据通常具有不同的大帧数。为了克服以帧为中心设计的局限性，我们提出了一种新的以区域为中心的设计，该设计针对每个HD Map区域自适应地从任意数量的可用帧中分离信息。我们的设计灵感来自3D检测中以目标为中心的概念，但扩展到了HD Map构建的任务。这样做可以实现从不同角度拍摄的跨帧视觉效果。

方法：多视图地图概述。

下图3展示了我们的多视图地图(MV-Map)的总体框架。

车载HD Map模型处理每帧，，并生成其响应的BEV特征图和HD Map语义。然后，不确定性网络评估HD Map上每个区域的单帧信息的可靠性。同时，体素化优化所有N帧的全局3D结构，并向不确定性网络提供多视图一致性信息。HD Map上每个区域的最终预测由单帧语义的加权平均值产生，这使得能够处理任意数量的帧。

车载模型

车载模型是pipeline的入口。大多数现有的高精地图生成方法遵循编码器-解码器设计。编码器根据输入，生成BEV特征图Fi作为编码器，，并且解码器将特征图Fi转换为作为解码器。由于我们的pipeline只需要BEV特征图来激活后续模块，因此MV-Map适用于特定的编码器-解码器设计。不失一般性，这里我们主要采用Simple-BEV中的编码器，并使用轻量级卷积解码器。

编码器。 对于每一帧，卷积主干首先将其K个图像转换为2D图像特征图，。然后，通过编码器预定义的以自车辆为中心的形状为X×Y×Z的一组体素，将特征提升到3D世界中：基于每个体素在图像上的投影位置，对2D特征进行双线性采样，从而生成体素化 3D特征图。最后，减小的Z轴产生形状为X×Y×C的BEV特征图，其中C是特征维度。

解码器。 我们的解码器是一个全卷积分割头，它预测Fi中每个BEV网格的语义逻辑。它生成周围的HD Map作为形状为X×Y的语义分割结果。

以区域为中心的扩展。 我们以区域为中心的设计将每个BEV网格视为高精地图区域。如果一个网格被N′个帧覆盖，它会从不同的角度接收N′个特征和预测。MV-Map然后融合N′视图特定信息，为该区域创建多视图一致性特征。

通过不确定性网络的全局聚合——以区域为中心的不确定性感知融合。

我们以区域为中心的非车载pipeline学习将N帧独立的HD-Map预测聚合为每个区域的多视图一致预测。我们的关键设计是引入一个不确定性网络。对于来自所有视点的HD Map预测，不确定性网络为每个BEV网格分配一个置信度分数，从而产生N×X×Y分数，该分数反映了视点对HD Map区域的成对可靠性。

不确定性网络以BEV特征为输入，并生成置信图，的形状为X×Y。然后，我们将每帧语义和确认聚合到最终的HD Map中。假设在世界坐标系中指定了任意的目标位置，，我们将其转换到姿态的每个帧的局部坐标系，并对相应位置的语义图和置信度得分进行采样。最后，根据每帧语义的置信度，通过加权平均得到对，的预测。KL散度损失用于增强的不确定性学习。除了生成置信度得分外，我们还将多层感知器(MLP)头添加到不确定性网络中，以推理预测语义和真值语义之间的KL差异。在训练过程中，通过鼓励所讨论的分歧接近语义和的真值之间的真正分歧，形式上，

我们明确区分可靠预测和不可靠预测。我们在每个位置，的融合结果和真值语义之间的交叉熵损失以及我们在等式中的辅助损失来训练不确定性网络。假设加权平均运算是可微的，则可以将梯度反向传播到置信度得分，以更新不确定性网络。

用于多视图一致性MV-Map的体素NeRF

进一步利用体素化NeRF从N帧有效地构建场景的统一3D结构，该结构与不确定性网络相结合，以提高HD Map的多视图一致度。

用于交通场景的体素NeRF。 NeRF将3D场景表示为连续函数θσ，它将3D空间中的每个点x映射到其颜色c和密度σ，相对于观看方向θ。通过在神经渲染过程中对相机投影进行显式编码，所学习的NeRF模型对来自输入图像的相应场景的3D几何结构进行编码。尽管普通NeRF取得了成功，但将其应用于自主驾驶数据集带来了重大挑战，因为场景的无边界性质和所涉及的大量数据(例如，nuScenes上的850个场景)。因此，我们引入了一种基于DVGO的体素化NeRF，以提高训练速度和可扩展性。我们的体素NeRF为户外场景捕捉多视图一致的几何图形，而不是像传统的NeRF那样捕捉小目标。为了实现这一点，我们初始化形状为的体素网格，以覆盖整个场景，这比单帧区域的板上模型中使用的X×Y×Z要大。对于每个摄影机光线，体素NeRF中的神经渲染操作同时查询与光线相交的每个体素。这种对体素的一致查询大大加快了我们的体素NeRF的训练，对于nuScenes中的任何场景，从数小时到数分钟，从而为MV-Map提供了合理的计算预算。

增强不确定性网络。 从概念上讲，当某个位置的预测语义位于目标曲面上时，它更可靠。一旦NeRF产生了多视图一致的结构，就可以计算每个体素中心与其最近表面之间的距离。这样的线索可以用来评估语义图的可靠性。为此，对于BEV上的任意(x，y)，首先将BEV坐标(x，y)处的所有体素中心位置恢复为＝，，，然后计算它们在图像上的对应像素位置ï¼Œ。通过沿着穿过这些像素的相机光线进行体绘制，重建这些像素的3D位置，称为，，，这些位置通常是它们的相机光线和表面之间的交点。通过计算，，，我们评估了体素中心和全局3D结构之间的一致性。最后，在上使用MLP，并将其输出与BEV特征连接起来，然后将其用作不确定性网络的增强输入。

将NeRF专用于具有总方差损失的高精地图。 请注意，我们的目标是促进高精地图的生成，而不是优化渲染质量。由于高精地图元素主要位于地面，我们对NeRF进行了修改，以减少对空气中像素质量的关注。为此，引入了一种简单而有效的“总方差损失”，该方法隐含地指导了近地几何形状的优化。该总方差损失是通过累积每个BEV位置的总方差TV(·)获得的：

这里，总方差TV(·)被定义为沿Z轴的占用率差的L2范数，由

给出，其中O[x，y，Z]表示由NeRF预测的体素(x，y，Z)的密度，而表示L2范数。我们在等式中强调“负”符号。2表示方差“最大化”，因为精确的地平面在Z轴上具有体素占用的峰值分布，而不是均匀分布。TV损失使体素NeRF能够比瞬态目标为地平面分配更大的密度，从而产生高质量的3D结构，如上面图2所示。

训练和推理

非车载pipeline程序遵循三个步骤：(1)采用现有的车载模型，(2)在序列上训练体素NeRF，以及(3)训练和推理不确定性网络。在推理过程中，我们将不确定性网络独立应用于所有N帧，并使用区域中心聚合将单帧数据融合到统一的HD Map中。

实验

数据集和实现细节数据集

我们在大型无人驾驶数据集nuScenes上进行了实验。它包含850个视频，其中28130帧和6019帧分别用于训练和评估。

与最先进方法的比较

由于我们的工作代表了对非车载高精地图生成的首次研究，因此没有现成的竞争方法。此外，MV-Map可以使用任何现成的车载模型作为其内部组件。为了确保有意义和公平的比较，将下表1中的实验结果和分析整理如下。

首先，车载模型采用了简单而有效SimpleBEV的设计。如“车载”系列所示，车载模型在短程和远程设置方面已经持续优于以前的基线。其次，与我们已经有效的车载模型相比，我们的MV-Map带来了约7%mIoU的显著改进。值得注意的是，我们的非车载方法比HDMapNet好50%左右，在所有类别上都增加了超过15%的IoU。最后，开发了一种称为“平均融合”的非车载基线算法。它不考虑不同视点的质量，而是通过对单帧语义图进行平均来执行以区域为中心的聚合。与“平均融合”相比，MV-Map在长距离设置下仍将HD Map质量提高了约7%mIoU。

消融研究

MV-Map组件。我们在下表2中量化了每个非车载模块的改进。

以区域为中心的融合基线。 从车载模型(第1行)开始，首先将平均融合(第2行)作为基线。这一改进表明，以区域为中心的设计确实有助于将多帧融合到统一的高精地图中。

不确定性网络。 用不确定性网络(第3行)代替平均融合(第2行)可以从更可靠的帧中获得更大的贡献，mIoU的~5%的增加证明了评估质量对于更好的HD Map质量至关重要。

KL散度损失。 使用或不使用KL散度损失的～0.5%mIoU(第3行和第4行)支持明确监督不确定性网络的值。

体素NeRF。 将NeRF添加到完整的不确定性网络中进一步提高了mIoU(第4行和第5行)。在类别级分析中，强调NeRF对于融合至关重要，特别是在具有较小区域的具有挑战性的结构上，例如人行横道。这一证据证明了全局几何在多视图一致性中的重要性。

总差异损失。 利用它进一步提高了所有场景中的性能，验证了将NeRF用于下游高精地图生成的努力。

处理更多帧。 证明了融合策略可以处理大量的帧，并从中受益匪浅，这对非车载高精地图的生成至关重要。在下图4中的可变输入框架下评估了我们的非车载框架。

MV-Map可以利用nuScenes中的所有关键帧(40帧)，并且该数字仅受序列长度的限制。如上图4的蓝色曲线所示，MV-Map受益于更多的帧，这表明其在非车载场景中的可扩展性，特别是与平均融合基线相比，平均融合基线在使用超过15帧后性能下降。这表明，我们以区域为中心的融合策略能够识别帧之间的互补区域，而不是盲目地对它们进行平均。

定性比较。 在下图5中可视化生成的高精地图。MV-Map纠正了车载模型的错误，并实现了更好的完整性和细节。此外，与真值相比，非车载生成的高精地图具有高保真度，尤其是在被更多帧覆盖的中心区域。

分析KL散度和置信度得分。 我们对下图6中的不确定性网络的输出进行了实证分析。至于置信度得分，观察到它们实际上降低了不可靠区域的贡献，例如图6a中有遮挡的部分，用实点高亮。此外，将KL散度预测头转移到验证集，并发现预测合理地反映了预测和真值之间的差异，如图6b所示。进一步注意到，具有较高KL散度值的区域(图6a)也具有较低的置信度(图6b)，用虚线圆突出显示。

使用来自数据驱动先验的几何信息。 体素NeRF以完全自监督的方式提供几何信息。同时，MV-Map框架是通用的，可以利用其他方法来提供几何信息，例如从大规模数据集中学习数据驱动的先验。调研了这种类型的方法，并考虑了以现成的具有代表性的单目深度估计器。具体来说，用NeWCRFs。如下表3所示，单目深度也可以提高不确定性融合(第2行和第3行)。我们进一步注意到，NeRF的性能稍好，因为它在共享的3D结构中一致地编码多个视图，而单目深度独立地考虑每个视图，并且在帧之间存在比例变化。受这两种不同类型的计量信息的好处的鼓舞，未来的工作是将NeRF与可学习先验结合到现有框架中。

融合语义与BEV特征。 以区域为中心的框架对语义图而不是BEV特征执行加权平均。在下表4中，证明了我们的设计选择，其中融合BEV特征比融合语义图更糟糕。主要原因是当有大量的非车载数据输入帧时，训练和推理之间的域转换。此外，模糊BEV特征也不太实用，因为需要显著更多的磁盘空间来存储高维特征。

全局一致的高精地图生成

我们的非车载MV地图可以处理许多帧。它的应用是将高精地图的生成范围从ego车辆周围的局部区域扩展到覆盖所有输入帧的全局区域，这节省了在现实世界中拼接多个局部预测的劳动力。我们在下图7中的全局图在两个具有挑战性的场景中展示了复杂拓扑的高保真度。虽然有些区域与真值不匹配，但我们认为这些区域超出了收集的框架和感知范围，这超出了非车载算法的范围。因此，MV-Map可以构建高质量的高精地图。

结论

我们提出了一种新的非车载高精地图生成设置，以解决车载BEV感知的不可靠性问题。通过消除计算约束，模型可以完全再现所有帧，并构建多视图一致的高精地图。具体来说，提出了一个非车载高精地图生成框架，称为MV-Map。为了处理多帧，MV-Map设计了以区域为中心的聚合，以统一所有帧的HD Map。关键设计是一个不确定性网络，该网络衡量不同帧的贡献，并利用体素NeRF提供多视图一致的3D结构信息。经验表明，MV-Map可扩展到大量非车载数据，并显著提高了HD Map的质量。希望MV-Map框架能够成为车载算法的有效补充器，并启发未来对非车载问题的研究。

尽管我们的体素NeRF以可扩展的方式改进了非车载pipeline，但仍存在一些挑战，包括在交通场景中移动目标，以及利用数据驱动的先验来获得更好的几何信息。此外，我们试图将工作与自动标注联系起来，并将其与人类标注质量进行比较，以探索更多潜在的应用，如无人驾驶车辆导航和城区路径规划。

参考

[1]. MV-Map: Offboard HD-Map Generation with Multi-view Consistency

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）