BEVDiffLoc:基于BEV的端到端LiDAR定位新框架!

编辑 |  智驾实验室

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

本文只做学术分享,如有侵权,联系删文


定位是现代机器人技术的核心组成部分之一。经典的定位方法通常遵循检索-注册范式,取得了显著的成功。近年来,端到端定位方法的出现提供了独特的优势,包括简化了系统架构并消除了存储大量地图数据的需求。

尽管这些方法展示了有 promise 的结果,但当前的端到端定位方法在鲁棒性和准确性方面仍然存在局限性。

鸟瞰图(Bird's-Eye-View,BEV)图像是在自主驾驶中广泛采用的数据表示之一。它显著降低了数据复杂度,同时保留了空间结构和尺度一致性,使其成为定位任务的理想表示形式。

然而,基于BEV的端到端定位研究仍然明显不足。为了弥补这一不足,作者提出了BEVDiffLoc,这是一种新颖的框架,将LiDAR定位问题表述为姿态的条件生成。

利用BEV的特点,作者首先引入了一种特定的数据增强方法来显著增强输入数据的多样性。然后,作者使用最大特征聚合模块和视觉 Transformer 来学习稳健的特征,并在此过程中保持对显著旋转视图变化的鲁棒性。

最后,作者结合了一个扩散模型,该模型迭代地细化学习到的特征以恢复绝对姿态。在Oxford Radar RobotCar和NCLT数据集上的广泛实验表明,BEVDiffLoc的表现优于基准方法。

作者的代码可从https://github.com/nubot-nudt/BEVDiffLoc获得。

1. INTRODUCTION

基于LiDAR的定位是现代机器人技术的核心技术之一,因其能够提供无与伦比的精确环境几何信息而受到重视。本文重点关注在先验环境知识存在情况下基于LiDAR的定位问题。目前,主流方法通常包括从预先构建的数据库中检索目标点云,随后进行配准以确定 Query 目标的姿态。然而,这种策略不仅需要计算密集型的配准过程,还要求大量内存资源来存储地图点和描述符。最近,无地图定位系统展示了通过训练隐式编码环境信息到网络参数的巨大潜力。所有作者均来自中国国防科技大学智能科学与技术学院和国家装备状态感知与智能保障重点实验室。

允许直接基于当前传感器观测进行姿态估计。通过仅存储网络参数,这些方法显著减少了对内存密集型地图和描述符的需求,如图1所示。

LiDAR 点云的稀疏性和非均匀性是该领域公认的重大挑战。一种广泛采用的解决方案是将点云投影到范围图像中 [6]、[7]。这种做法通过减少点云数据处理的复杂性获得了令人期待的结果。然而,由于球面投影的本质,范围图像容易产生尺度失真,最终限制了其定位精度。

基于鸟瞰视角(Bird's-Eye-View, BEV)的点云表示在自主驾驶感知与定位中正逐渐受到重视。BEV显著简化了数据复杂性,并清晰地展示了物体的位置和尺寸。对于定位任务而言,相比于距离图像,BEV图像提供了更为稳定的靶标尺度和空间关系,以及更好的泛化能力。然而,在生成BEV图像的过程中,可能会出现点云堆叠现象,导致信息丢失。因此,尽管具备这些优势,根据王等人[8]近期的研究,基于BEV的端到端LiDAR定位研究仍然相对有限。本文旨在填补这一空白。

在本文中,作者提出了BEVDiffLoc,这是一种基于BEV表示的新颖框架,实现了一流的端到端定位。作者的方法集成了一个最大特征聚合(MFA)模块来提取方向不变性特征,并随后使用视觉 Transformer (ViT)[9]来增强网络对空间场景结构的理解。借助方向不变性的特性,ViT 能够有效地处理显著的旋转视图变化,从而更好地捕获地图中的位置信息。对于姿态回归,作者采用了一个基于鲁棒特征的扩散模型,逐步从噪声输入中精化姿态。为了充分发挥BEV表示的优势,作者引入了一种专门的数据增强策略,用于BEV图像。该策略首先将BEV图像拼接成地图,然后从随机位置和随机方向采样新的BEV图像,极大地增强了输入数据的多样性。

作者的贡献可以总结如下:

作者提出了BEVDiffLoc,这是一种基于BEV的新颖端到端定位框架,在现有工作中实现了最先进的性能。该框架结合了最大特征聚合(MFA)模块和Vision Transformer(ViT)模块进行特征提取,使网络能够稳健地处理显著的视角旋转变化,并在端到端的定位任务中展示了其有效性。

为了最大限度地利用BEV表示的优势,作者将BEV图像进行连接,并通过从地图中随机采样位置来生成输入数据,从而增强训练数据的多样性并提升定位性能。作者开源了该方法以造福研究界。

作者在多个数据集上评估了作者的方法,展示了该方法的领先性能,并验证了每个提出组件对整体性能提升的贡献。

II. RELATED WORK

在本节中,作者介绍了与端到端定位任务相关的研究工作,这些任务可以大致分为两类方法:绝对姿态回归(APR)和场景坐标回归(SCR)。

A. Absolute pose regression

绝对姿态回归(APR)方法旨在学习场景的特征描述,然后回归其姿态。PointLoc [10] 是首个基于激光雷达(LiDAR)的 APR 方法,它使用 PointNet-++ [11] 编码特征,随后通过一个自注意力模块进行处理。Yu 等人 [12] 提出了四种不同方式用于特征提取。一些研究 [13], [14] 探索了序列约束并取得了显著改进。HypLiLoc  [8] 在双曲欧几里得空间中融合多模态特征,实现了更好的效果。

FlashMix [15] 使用冻结、场景不确定的主干网络来提取局部点描述符,并利用 MLP 混合器进行聚合以预测传感器的姿态,大大减少了训练时间。DiffLoc [16] 是当前最先进的 APR 方法。它使用基本模型和静态目标感知池来学习范围图像的稳健特征,并采用扩散模型作为条件来提取用于姿态恢复的特征。由于激光雷达对光照条件变化的鲁棒性,基于激光雷达的 APR 在大规模室外场景中取得了显著成果。

与作者的研究最为密切的相关工作包括HypLiLoc [8]和DiffLoc [16]。尽管HypLiLoc展示了令人鼓舞的结果,但作者发现其单一BEV模态特征提取策略存在局限性。它使用CNN Backbone 网络从BEV图像中提取局部特征,并直接回归姿态,而没有考虑不同BEV图像之间的全局上下文关系。为了解决这些问题,作者提出了一种新的方法来增强特征提取。此外,DiffLoc对去噪过程如何提高APR方法鲁棒性的全面分析为作者提供了宝贵的见解。基于这些洞察,作者将该方法整合到了作者的框架中,进一步提升了性能。

B. Scene coordinate regression

场景坐标回归方法涉及将像素或点回归到其对应的场景三维坐标。该方法主要依赖于随机森林[17]、[18]或卷积神经网络[19]、[20]来匹配场景。SGLoc[21]在RANSAC循环中使用Kabsch算法预测每个点的三维场景坐标,用于姿态估计。Lisa[22]利用基于扩散的蒸馏技术在三维语义分割模型中学习多尺度特征提取器,用于场景坐标回归和后续的姿态估计。

Chen等[23]提出了一种方法,利用快速训练的场景坐标回归模型作为场景表示,并预训练一个姿态回归网络以学习场景坐标预测与其相应相机姿态之间的关系。通过利用这种通用关系,姿态回归器可以在数百种不同的场景下进行训练,有效地解决了绝对姿态回归模型训练数据不足的问题。场景坐标回归方法的限制在于它只能回归 Query 数据与三维世界坐标的关联关系,定位精度受RANSAC的影响较大。此外,由于BEV图像中的点云堆叠导致了场景结构细节的丢失,因此不适用于SCR方法进行姿态回归。

III. OUR APPROACH

作者提出了一种名为BEVDiffLoc的方法,用于端到端的LiDAR定位。如图2所示,作者的方法首先处理输入数据,将点云投影到BEV图像中,然后将这些BEV图像拼接成地图,并通过从随机位置采样生成新的BEV图像来增强输入数据的多样性,详情见第MI-A节。接下来,在特征提取模块中,作者提取具有方向不变性特性的特征,随后使用ViT来增强特征表示和几何感知能力,详见第MI-B节。最后,提取出的特征被输入到一个扩散模块中,逐步恢复姿态,详细见第IHI-C节。

A. Input Generation

基于现有工作[24]和[5],作者假设地面车辆在局部区域内行驶在一个大致平坦的表面上。基于这一假设,作者通过正交投影生成BEV图像,并专注于估计三维自由度(DoF)的姿态,包括(x, y, yaw)。借鉴Luo等人的方法[25],作者使用归一化的点密度构造BEV图像。与存储像素中点的最大高度的方法相比,这种方法可以减少传感器姿态对BEV图像的影响,并增强其对视角变化的鲁棒性[26]。

给定点云集合  ,其中共有   个点。作者采用右手笛卡尔坐标系,其中 x-y 平面代表地面。参考 Luo 等人 [5] 的做法,为了平衡精度和计算复杂度,作者首先应用边长为   的 Voxel 网格滤波器,均匀分布这些点。随后,作者定义一个以坐标原点为中心、大小为   的正方形窗口。BEV 图像可以解释为一个尺寸为   的图像。BEV 图像中的像素值   计算如下:

其中,  表示位置   处网格中的点数,  是归一化因子,  是点云密度的最大值。

为了增强训练数据的多样性,作者提出了一种新的数据增强机制。首先,作者通过每隔S帧拼接连续的M帧点云来构造一个局部地图。随后,从该局部地图中随机采样一个新的观测位置和新的观测方向,其中 服从均值为0、方差为 的高斯分布,而俯仰角则在范围 内服从均匀分布。这种数据增强方法显著地从多个观测位置和角度丰富了场景信息。

B.Feature Extraction Module

稳健的特征对于定位至关重要。现代卷积网络[5]可以有效地作为BEV图像的特征编码器,提供平移不变性。然而,这些方法在处理显著的旋转视角变化时存在困难。受近期研究工作[5]的启发,作者提出了一种新的特征提取模块,以提取具有旋转和平移变化的稳健特征。

该架构结合了两个核心组件:一个最大特征聚合(MFA)模块和一个视觉 Transformer (ViT)模块,并 ConCat 连接形成完整的系统。

考虑到CNN主干不具备方向同构特性,无法很好地处理方向问题。作者设计了基于CNN的MFA模块来解决这一问题。给定输入BEV图像 ,作者使用一组角度 对其进行旋转,并使用共享权重的CNN主干提取其焦点特征。然后,对相反旋转角度的局部特征进行旋转并使用最大池化处理它们。这种方法在不同旋转角度下捕捉到最突出的特征并将其结合。当旋转次数 足够多时,通过这种方法提取的特征将具备方向同构特性。通过在整个 个旋转特征图上应用最大池化,获得的最大特征 即为此方法的结果。

其中,  和   分别代表1000FA 特征图的高度、宽度和特征通道数,而   表示一个 CNN  Backbone 网络。实践中,一个小的   即可实现满意的性能。

基于MFA提取的特征,作者采用Vision Transformer(ViT)来增强特征表示能力和几何感知能力。在标准的ViT框架中,图像被分割成大小为 的小patches,并通过线性嵌入生成 维视觉Token。为了弥合特征图与RGB图像之间的潜在领域差距,作者将嵌入层替换为非线性卷积干细胞[27],这些干细胞已被证明可以提高ViT的优化稳定性和预测性能。然后,将输出送入ViT[28],以获得特征图 ,其中 分别是不包含分类 Token 的Token数量和特征维度。

为了增强学习到的特征并生成相应的全局特征,作者采用了以下操作。首先,作者使用一个全连接(FC)层将 的通道数O减少至1,生成全局特征表示。第二步是使用sigmoid操作符将全局特征表示归一化至[0, 1]范围内。然后,作者与 进行点乘和加法运算以权重关键特征并保留原始特征的细节。最后,作者应用全局平均池化(GAP)来获得全局特征 ,表达式如下:

其中,  是sigmoid函数,  是点积。

C. Denoiser for pose refinement

受[16]的启发,作者将激光雷达定位建模为一个从噪声姿态到真实姿态的去噪过程,使用基于编码特征 的扩散模型。在训练阶段,作者训练一个扩散模型以通过从被污染的姿态恢复真实姿态来学习激光雷达姿态的潜在分布。在每次训练迭代 中,作者按照预定义的方差计划 ,根据累积噪声计划向真实姿态 引入噪声,从而获得噪声姿态 ,其计算公式为:

其中 (\alpha_{k}=1-\beta_{k}) 且 (\overline{\alpha}{k}=\prod{i=1}^{k}\alpha_{i})。然后,去噪器 (\mathcal{D}{\theta}) 预测 (\epsilon) 以逐步去除噪声。作者使用一个 Transformer (\tau) 实现去噪器 (\mathcal{D}{\theta}),因此去噪器可以表示为:

其中,  表示连接操作,  的输入是一个噪声姿态元组序列  、唯一的步长嵌入   以及特征嵌入  。在这里,  表示通过正弦函数生成的第   步去噪结果。

跟随Denoising Diffusion Implicit Model (DDIM)的方法,在推理阶段,作者使用训练好的 逐步去除纯噪声序列 中的噪声,以获得预测的姿态 。为了加速推理过程并更新姿态,姿态更新的操作执行如下:

其中   被输入到去噪器   中以进行下一步处理。这种迭代去噪过程一直重复,直到达到  ,将其视为最终预测。

D. Loss function

跟随DiffLoc [16],作者采用以下损失函数来引导模型预测噪声变量 ,其由

其中,  和   的定义参见式(4)。

IV. EXPERIMENTAL EVALUATION

实验旨在展示所提出的BEVDiffLoc在基于LiDAR的定位中的有效性。作者提出了三个核心论点:(i) 它实现了最先进的定位精度,超越了现有方法;(ii) 得益于BEV表示和作者设计的功能提取模块,作者的方法显著提升了定位的鲁棒性和精度;(iii) 通过引入专为BEV表示设计的数据增强方法,作者的方法进一步提高了定位性能。

A. Experimental Setup

数据集。作者使用两个室外基准数据集评估BEVDiffLoc 对激光雷达定位的影响:Oxford Radar RobotCar [29] 和NCLT [30]。Oxford Radar RobotCar (Oxford) [29] 收集于城市场景中,每条轨迹大约覆盖10公里的距离。Oxford数据集包含了多样的天气和交通条件,使其成为全面评估模型的理想选择。NCLT [30] 数据集提供了多种场景,包括具有不同结构复杂度的室外和室内环境,每条轨迹长度约为5.5公里。该数据集包含来自激光雷达、全景相机和GPS/INS的数据。在作者的实验中,仅使用激光雷达信息。

实现细节。作者的BEVDiffLoc是基于PyTorch [31] 实现的。去噪器被实现为一个具有8个编码层和4个注意力头的Transformer [32],用于特征聚合,其中隐含嵌入维度设置为512。

对于BEV图像,作者将正方形窗口的边长设置为50米,并将离散网格的分辨率设置为0.4米。MFA特征图的大小配置为[32,32,128],并设定了块大小为[4, 4]。

为了多帧数据增强,作者通过连续连接间隔为20帧的5个点云来构建局部场景。场景的中心位置遵循高斯分布,旋转角度随机采样自[0,360°]。作者定义总去噪步骤为(K=100),并使用批量大小为16。输入点云序列是一个间隔为2帧的3元组。作者使用AdamW优化器[28]训练BEVDiffLoc,并采用单一周期的余弦退火策略[33]和线性预热。预热周期和峰值学习率分别设置为5和(5 \times 10^{-4})。训练在单个RTX 4090 GPU上进行。对于Oxford数据集,作者配置迭代去噪步骤为10;而对于NCLT数据集,该值设置为15。

B.Experimental results

为了验证BEVDiffLoc的表现,作者将其与以下最先进的 Baseline 方法进行了比较:HypLiLoc [8]、DiffLoc [16]、PosePN (PPN) [12]、H osePN++ (PPN++) [12]、PoseMinkLoc (PML) [12] 和 PoseSOE (PSOE) [12]。对于DiffLoc,作者采用了其开源预训练模型。

而对于其他 Baseline 方法,由于它们均未提供预训练模型,因此作者使用了其公开发布的代码,并根据论文中指定的训练配置来训练这些模型。作者使用平均位置误差 和平均方向误差 来评估所有 Baseline 方法的3-自由度估计值。此外,作者在2米和5°的阈值下计算所有方法的位置定位成功率(SR)。

牛津数据集上的实验结果。作者首先在牛津数据集上评估了所提出的BEVDiffLoc。如表1所示,作者的方法在局部化精度方面与现有最佳方法DiffLoc相当,并且在稳健性方面达到了最先进的表现,相较于第二优方法,SR指标平均提升了35.7%。图3展示了预测轨迹。作者将轨迹按照成功率着色,从而更直观地展示了每种方法的局部化稳健性。如图所示,作者的结果与表1中的发现一致。具体来说,与 Baseline 方法相比,BEVDiffLoc表现出更为稳定的全局局部化性能,且异常值较少。

NCLT 数据集上的实验结果。接下来,作者在 NCLT 数据集上评估了所提出的 DiffLoc。如表2 所示,作者的方法在定位性能方面表现出更大的优势,位置平均改进了  ,方向平均改进了 

作者还可视化了由作者的方法预测的轨迹,并将其与 DiffLoc 和 HypLiLoc 进行比较。如图4 所示,作者的 BEVDiffLoc 在预测轨迹时表现出更为稳定的定位性能,并且异常值较少。这进一步表明,在处理具有挑战性的 NCLT 数据集时,提出的 BEVDiffLoc 的有效性。作者的方法在牛津和 NCLT 数据集上都展现出优越的定位鲁棒性,这得益于引入了 BEV 表征和特征提取模块,使得网络可以直接处理视角观测的大幅变化,从而显著降低 NCLT 上的定位难度。此外,通过数据增强,作者的方法大大丰富了数据集,使其能够处理更多的应用场景。

位置精度提高了,方向精度提高了45.1%。值得注意的是,数据增强机制在NCLT数据集上的定位成功率提高了46.0%。这一改进可归因于NCLT数据集中较大的角度变化。作者的数据增强机制有效地使网络能够学习并适应这些变化,从而增强了定位的鲁棒性。

C. Ablation study

MFA 模块的消融研究。为了研究 MFA 模块的效果,作者对其进行了消融实验,并使用 ResNet [34] 提取 BEV 特征。如表2 所示,在 Oxford 数据集上,MFA 模块使位置精度提高了 36.8%,方向精度提高了 26.1%。在 NCLT 数据集上,它使位置精度提高了 51.3%,方向精度提高了 33.2%。这些结果表明,MFA 模块提取的方向同构特征显著提升了平移和方向估计的准确性。

数据增强的消融研究。接下来,作者探讨了所提出的数据增强技术。如表1001所示,所提出的数据增强技术显著提升了性能,与牛津数据集相比,在位置准确性上提高了18.0%,在方向准确性上提高了27.3%。在NCLT数据集上,它带来了60.4%的提升。

D. Runtime

Oxford和NCLT数据集的标准LiDAR帧率为每秒20赫兹和10赫兹。作者使用Intel(R) Xeon(R) Platinum 8474C处理器、64 GB内存和一块NVIDIA RTX 4090 GPU对作者的方法进行了测试。在Oxford和NCLT数据集中,作者的方法分别实现了平均每秒91赫兹和47赫兹的帧率。这一结果表明,作者的方法能够满足在线运行的要求。

V. CONCLUSION

在本文中,作者探讨了BEV表示在解决端到端定位问题中的应用,并提出了BEVDiffLoc方法。为了充分利用BEV的优势,作者将多帧BEV图像缝合成分局部地图,并通过随机采样观测位置和角度生成新的BEV图像,显著增强了训练数据的多样性并提高了性能。此外,作者采用了一个最大特征聚合模块,随后使用视觉Transformer从BEV图像中提取特征。

特征网络能够更直接地捕捉场景的几何结构,从而学习到更加稳健且精确的定位特征。作者将姿态估计过程视为噪声姿态的去噪过程,并利用扩散模型输出学习到的特征作为姿态。广泛的实验结果表明了本方法的先进性能,并验证了每个提出模块对最终结果的贡献。

参考

[0]. BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model  .

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值