论文标题:
MapLocNet: Coarse-to-Fine Visual Neural Re-Localization in Navigation Maps
论文作者:
Hang Wu, Zhenghao Zhang, Siyuan Lin, Xiangru Mu, Qiang Zhao, Ming Yang, Tong Qin∗
导读:
基于导航地图的定位是当前自动驾驶的主流技术,其复杂的匹配策略导致了不可接受的推理延迟,无法满足实时性要求。本文提出的MapLocNet框架,受人类自我定位的启发,提出一种通过从粗略到精细的特征匹配,实现了仅利用导航地图的亚米级定位,在定位精度和实时速度上均超越了现有方法。它为自动驾驶提供了一种无需高清地图的定位方法,在具有挑战性的驾驶环境中提供了高性价比、可靠和可扩展的性能。©️【深蓝AI】编译
1. 背景介绍
在GPS无法使用的区域,自动驾驶车辆的自主定位面临挑战。因为GPS信号在传播过程中容易受周围基础设施(如建筑物、隧道、桥梁等)的影响而产生多路径传播误差,从而严重影响GPS定位精度(尤其是在城市环境中),在这样状况下容易产生定位偏差和位置漂移。
解决GPS信号缺失下的定位问题,通常采取主动定位的办法。例如,通过利用提前构建好地图(三维点云和视觉特征),并基于LiDAR或视觉SLAM技术进行定位。但是,这种方法并不适用于自动驾驶各种环境中。高精地图(HD map)一定程度可以在解决GPS信号缺失下的定位问题,但制作和维护HD map高昂的成本限制了其在不同环境和地理区域的应用扩展,这也成了限制自动驾驶发展的一大障碍。随着感知算法的发展,如HDMapNet和MapTR等方法实现了在线生成高清地图,即使在低精度定位的情况下,也能够实现自动驾驶。
另一方面,面对GPS无法使用的区域,人类驾驶员往往会利用认知能力将视觉观察与导航地图匹配进行自我定位。目前,在机器人技术和增强现实(AR)领域,已经提出了类似的方法来模拟人类的定位方法。然而,这种方法通常采用复杂的匹配策略进行定位,无法进行实时推断。
为此,本文提出一种通过从粗略到精细的特征匹配,实现仅利用导航地图的亚米级定位方法—MapLockNet(如图1的工作流程),该方法在定位精度和推理延迟方面都全面超过当前SOTA方法。主要贡献如下:
●提出了MapLocNet,通过融合环视视图图像和导航地图实现了稳健的亚米级定位能力, 尤其在GPS信号丢失导致较大位置漂移的区域;
●采用分层的粗到细特征配准策略,将BEV和地图特征对齐,相比现有方法实现了更高的定位精度和推理速度;
●提出了一种新的训练准则,将感知任务作为辅助任务进行姿态预测。该框架在nuScenes和Argoverse数据集上均达到了SOTA的定位精度。
值得一提的是,该方法是一种去高精地图(HD map-free)、可靠且类人的定位方法,且能达到亚米级的定位精度能力。
图1|MapLocNet的工作流程©️【深蓝AI】编译
2. 论文综述
2.1 Localization Using Navigation Maps
在去高精地图的工作中,研究主要集中在基于轻量级导航地图的定位。例如,利用图像与二维地图之间的语义匹配,是基于图像的城市环境定位方法。Samano等基于学习低维嵌入空间,设计了一种在二维导航地图上对全景图像进行地理定位的新方法。还有人提出了一种基于2.5D地图的跨视图定位方法,该方法融合了2D图像特征和2.5D地图,以增加位置嵌入的独特性。而OrienterNet提出了一种深度神经网络,通过将神经BEV与开放街图(OSM)的可用地图匹配来估计查询图像的位姿,并达到了亚米级别的定位精度。其他方法做到了跨视角地理定位,将来自车辆的相机图像与航空图像或卫星图像进行匹配,以确定车辆的位姿。本文基于上述工作的启发,提出了一种将视觉环境感知与导航地图相结合的定位方法。
2.2 BEV Representation for Visual Localization
将图像特征转换到BEV网格,一般包括几何方法和基于学习的方法。Cam2BEV和VectorMapNet使用了一种利用逆透视映射(IPM)的几何方法,通过平面假设将图像特征转换到BEV空间。HDMapNet提出了一种新颖的由神经特征提取和几何投影两部分组成的视图转换器来获取BEV特征。LSS、BEVDepth、BEVDet学习了图像特征的深度分布,将每个像素提升到3D空间。然后使用相机外参和内参将所有视锥投射到鸟瞰视图(BEV)中。GKT提出了一种高效且稳健的2D到BEV表示学习方法,利用几何先验引导transformer关注具有判别性的区域,并展开核特征以获得BEV特征。BEVFormer利用预定义的网格状BEV查询在时空空间中查找并聚合时空信息,在3D目标检测任务上取得了最先进的性能。
2.3 Image Registration
图像配准旨在找到一张图像中的像素与另一张图像之间的空间映射,广泛应用于医学成像和机器人研究。传统的基于特征的方法利用从图像中检测的关键点及其描述子来匹配不同的图像。最近出现了基于CNN和transformer的图像配准方法,以加快配准时间和提高准确性。DIRNet 提出了一种用于可变形图像配准的深度学习网络,包括一个ConvNet回归器、一个空间变换器和一个重采样器。C2F-ViT利用视觉transformer的全局连接性和局部性以及多分辨率策略来学习图像之间的配准。受此启发,本文设计了一个分层特征配准模块来实现视觉定位。
2.4 End-to-end Localization Neural Networks
端到端网络是一种高效的结构,可直接从传感器输入和先前地图中估计车辆的位置,而无需进行几何计算和手工规则。PixLoc采用可微分优化方法,设计了一个端到端的神经网络,通过将深度特征与参考3D模型对齐来估计图像的姿态。I2D-Loc提出了一个基于局部图像-激光雷达深度配准的有效网络用于相机定位,并使用BPnP模块计算后端姿态估计的梯度,实现端到端训练。BEV-Locator设计了一种新颖的端到端架构,用于基于多视图图像和矢量化全局地图的视觉语义定位。它基于跨模态transformer结构,解决了相机图像和语义地图元素之间跨模态匹配的关键挑战。EgoVM构建了一个端到端的定位网络,使用轻量级矢量化地图实现厘米级定位精度。该方法采用可学习的语义嵌入和transformer解码器,弥补了矢量化地图和BEV特征之间的鸿沟。在此基础上,本文构建了一个基于transformer的端到端定位网络,实现了导航地图的精确定位。
图2|MapLocNet架构概览©️【深蓝AI】编译
3. 方法精析
3.1 Problem Formulation and System Overview
给定含噪声的GPS下的初始车辆定位 p ˇ = ( x , y ) \check{\mathbf p} = (x, y) pˇ=(x,y),目标是估计将初始含噪位置转换为地面真实位置 p \mathbf p p的矩阵 Δ T = { R , t } \Delta \mathbf T = \{ \mathbf R, \mathbf t\} ΔT={ R,t}。由于重定位是在2D导航地图上进行的,因此典型的6-DoF位姿变换可以简化为2D旋转 R ∈ S O ( 2 ) \mathbf R \in SO(2) R∈SO(2)和2D平移 t ∈ R 2 \mathbf t \in \mathbb R^2 t∈R2的3-DoF变换。这种转换可以通过公式(1)解决:
min Δ T ^ ∥ Δ T ^ ⋅ p ˇ , p ∥ ( 1 ) \min\limits_{\Delta \hat{\mathbf T}} \parallel \Delta \hat{\mathbf T} \cdot \check{\mathbf p}, \mathbf{p} \parallel\qquad(1) ΔT^min∥ΔT^⋅pˇ,p∥(1)
其中, Δ T ^ \Delta \hat{\mathbf T} ΔT^表示从错误定位到估计定位的转换 T ^ e s t ← e r r \hat{\mathbf T}_{\mathbf {est} \leftarrow \mathbf {err}} T^est←err。目标是最小化 T ^ e s t ← e r r \hat{\mathbf T}_{\mathbf {est} \leftarrow \mathbf {err}} T^est←err与地面真值变换 T G T ← e r r \mathbf T_{\mathbf {GT} \leftarrow \mathbf {err}} TGT←err之间的差异。 Δ T ^