HFNet论文

From Coarse to Fine: Robust Hierarchical Localization at Large Scale 由粗到精:大规模鲁棒层次定位

代码https://github.com/ethz-asl/hfnet
摘要 - 稳健和准确的视觉定位是许多应用的基本能力,如自动驾驶、移动机器人或增强现实。然而,这仍然是一项具有挑战性的任务,特别是对于大规模环境和存在重大外观变化的情况。最先进的方法不仅与这样的场景作斗争,而且对于某些实时应用程序来说,往往过于耗费资源。在本文中,我们提出了HF-Net,这是一种基于单层CNN的分层定位方法,它同时预测局部特征和全局描述符,以实现准确的6-DOF定位。我们利用了从粗到精的定位范式:我们首先执行全局检索来获得位置假设,然后再匹配这些候选位置内的局部特征。这种层次化的方法大大节省了运行时间,并使我们的系统适合实时操作。通过利用学习的描述符,我们的方法在大范围的外观变化中实现了显著的本地化健壮性,并为大规模本地化设置了两个具有挑战性的基准。

1.引言

相机在现有3D模型中的精确6自由度(DoF)定位是计算机视觉的核心功能之一,它可以解锁许多新的应用程序。这些包括在GPS被拒绝的环境中的自动驾驶[8,31,33,6],以及具有增强现实功能的消费设备[32,24],其中厘米精度的6-DOF姿势分别对于保证可靠、安全的操作和完全身临其境的体验至关重要。更广泛地说,视觉定位是计算机视觉任务的关键组成部分,例如运动结构(Structure-From-Motion,SFM)或SLAM。视觉定位的应用范围越来越广,无论天气、光照或季节变化如何,室内和室外都需要可靠的操作。
因此,对如此大的变化的稳健性以及有限的计算资源至关重要。维护允许在多个环境中进行准确定位的模型的同时保持紧凑是很重要的。在这项工作中,我们研究了在移动设备资源有限的大规模变化环境中稳健定位的可能性。更具体地说,我们的目标是估计查询图像的6-DOF姿势,对于具有最高可能精度的给定3D模型。目前的主流方法大多依赖于使用局部描述符来估计查询中的2D关键点与稀疏模型中的3D点之间的对应关系。这种直接匹配要么在移动[51,55,43]上是健壮但难以处理的,要么在效率上优化但脆弱[29]。在这两种情况下,经典定位方法的稳健性都受到手工局部特征不变性较差的限制[9,28]。卷积神经网络(CNN)最近出现的特征在低计算成本下表现出无与伦比的健壮性[14,15,34]。然而,直到最近,它们才被应用于视觉定位问题,而且只是以密集、昂贵的方式。习得的稀疏描述符[14,38]承诺了在定位中重新获得但尚未探索的巨大好处。
最近,基于图像检索的其他定位方法在稳健性和效率方面显示出良好的结果,但在精度方面并不具有竞争力。中间检索步骤的好处早些时候已经被证明[42],但还达不到城市规模本地化所需的可扩展性。在本文中,我们建议利用学习特征方面的最新进展来弥合分层定位范例中稳健性和效率之间的差距。与人类的定位方式类似,我们采用了一个自然的从粗到精的姿势估计过程,该过程利用了全局描述符和局部特征,并且可以很好地适应大型环境(图1)。我们表明,学习的描述符在具有挑战性的条件下具有无与伦比的健壮性,而学习的关键点由于其更高的重复性而在计算和存储方面提高了效率。为了进一步提高这种方法的效率,我们提出了一种分层特征网络(HF-NET),这是一种联合估计局部特征和全局特征的CNN,从而最大化了计算的共享。我们展示了如何使用多任务蒸馏以灵活的方式训练这样的压缩模型。通过将多个最先进的预测器联合提炼到一个模型中,我们获得了无与伦比的快速、健壮和准确的定位。这种性质的蒸馏量不适用于视觉本地化,这既需要多模式昂贵的预测和计算效率。总体而言,我们的贡献如下:

  • 我们在几个公共基准中设置了一个新的最先进的标准,用于大规模本地化,在特别具有挑战性的条件下具有出色的健壮性
  • 我们引入了HF-Net,这是一种单片神经网络,它可以有效地预测分层特征,从而实现快速而稳健的定位
  • 我们展示了多任务精馏的实用性和有效性,以实现具有不同预测器的运行时间目标
    在这里插入图片描述

2. 相关任务

在这一部分中,我们回顾了与我们的方法的不同组件相关的其他工作,即:视觉定位、可伸缩性、特征学习和在资源受限设备上的部署。
传统的6-DOF视觉定位方法分为基于结构的视觉定位和基于图像的视觉定位。形成器在查询图像2D关键点和3D SfM模型中的3D点之间执行局部描述符的直接匹配[51,55,43,27,52]。这些方法能够确定准确的姿势,但通常依赖于穷举匹配,因此需要大量的计算。随着模型尺寸的增大和感知混叠的出现,这种匹配变得模糊,削弱了定位的稳健性,特别是在外观变化强烈的情况下,如白天-夜晚[44]。
有些方法直接从单个图像中回归姿势[7,22],但在精确度方面没有竞争力[46]。基于图像的方法与图像检索相关[2,56,57],并且只能提供接近数据库离散化的姿态,这对于许多应用来说是不够精确的[44,52]。然而,它们比直接的局部匹配更稳健,因为它们依赖于全局图像范围的信息。这是以增加计算为代价的,因为最先进的图像检索是基于大型深度学习模型的。
可扩展的定位通常通过使用提取、存储和匹配成本较低的特征来处理额外的计算机约束[9,26,39]。这些改进了移动设备的运行时间,但进一步损害了定位的健壮性,将它们的操作限制在稳定的条件下[29]。分层定位[21,32,42]采取了一种不同的方法,将问题分为全局、粗略搜索和精细姿势估计。最近,[42]提出使用图像检索在地图级别进行搜索,并通过将手工创建的局部特征与检索到的3D点进行匹配来进行定位。正如我们在第3节中进一步讨论的那样,其健壮性和效率受到底层局部描述符和异质结构的限制。
学习过的局部特征最近已被随意开发,以取代手工制作的描述符。密集的像素级特征自然地出现在CNN中,并提供了用于图像匹配[11,15,37,40]和定位[52,44]的强大表示。在计算能力有限的情况下,匹配密集功能是一件多么困难的事情。稀疏的学习功能由关键点和描述符组成,提供了一种有吸引力的替代手工制作的同类功能,最近显示出出色的性能[14,38,18]。它们可以很容易地从密集特征中采样,预测速度快,因此适合移动部署。CNN关键点检测也被证明比经典方法更好,尽管它们明显很难学习。SuperPoint[14]从自我监督中学习,而Delf[36]使用注意力机制来优化地标识别任务。
移动设备上的深度学习。虽然学习定位流程的一些构建块可以提高性能和健壮性,但在移动设备上部署它们并不是一项微不足道的任务。最近在多任务学习方面的进展允许在不需要手动调整[23,10,50]的情况下有效地在任务之间共享计算,从而减少了所需的网络规模。蒸馏[20]可以帮助从已经训练但通常不应用于多任务设置的较大网络训练较小的网络[41,59,60]。
据我们所知,我们的方法是第一个将上述领域的进步结合在一起的方法,以优化效率和健壮性。提出的方法寻求利用这些算法的协同效应来提供具有竞争力的大规模本地化解决方案,并使该技术更接近于在资源有限的情况下实时在线应用。

3.层次定位

我们的目标是在保持易处理的计算要求的同时最大化本地化的健壮性。我们的方法松散地基于我们在这里总结的分层定位框架[42]。
先验检索:通过使用全局描述符将查询与数据库图像匹配来执行地图级别的粗略搜索。K近邻(NN)称为先前帧,表示地图中的候选位置。考虑到数据库图像比SfM模型中的点少得多,这种搜索是有效的。
共视聚类:先前的帧基于它们共同观察的3D结构被聚集。这相当于在将数据库图像链接到模型中的三维点的共可见性图中查找连接的组件(称为位置)。
局部特征匹配。对于每个位置,我们连续地将查询图像中检测到的2D关键点与该位置中包含的3D点进行匹配,并尝试在RANSAC方案内使用PNP[25]几何一致性检查来估计6-DOF姿势[16]。这种局部搜索也是有效的,因为所考虑的3D点的数量在该位置明显低于在整个模型中。一旦估计出有效的姿势,算法就会停止。
讨论。在[42]的工作中,一个大型的最先进的图像检索网络NetVLAD[2]被提炼成一个较小的模型MobileNetVLAD(MNV)。这有助于实现给定的运行时约束,同时部分保留原始模型的准确性。然而,局部匹配步骤是基于SIFT[28]的,其计算成本很高,并且生成大量的特征,使得这一步骤特别昂贵。虽然这种方法在小规模环境中表现出良好的性能,但它不能很好地扩展到更大、更密集的模型。此外,SIFT与最近学到的功能相比没有竞争力,特别是在光照变化较大的情况下[18,38,14,34]。最后,局部描述符和全局描述符的计算有很大一部分是多余的,因为它们都是基于图像的低层线索。因此,手工制作的特征和CNN图像检索的异构性在计算上是次优的,在资源受限的平台上可能是关键的。

4.提出的方法

现在,我们将展示如何解决这些问题并实现更高的健壮性、可扩展性和效率。我们首先鼓励使用具有同构网络结构的学习特征,然后在第4.1节中详细说明体系结构,并在第4.2节中详细介绍我们的新培训过程。
习得的特征看起来很适合层次化的定位框架。最近的方法,如SuperPoint[14],已经证明在关键点可重复性和描述符匹配方面优于SIFT等流行的基线,这两个方面都对定位至关重要。此外,一些学习特征比SIFT稀疏得多,从而减少了要匹配的关键点的数量,并加快了匹配步骤。我们在5.1节中展示了图像检索中最先进的网络和本地特征的组合自然实现了最先进的定位。这种方法在极具挑战性的条件下尤其出色,例如夜间查询,远远超过竞争对手的方法,以及更小的3D模型尺寸。
虽然这种网络的推理速度明显快于在GPU上计算SIFT,但它仍然是所提出的定位系统的一个很大的计算瓶颈。为了提高在移动设备上进行在线定位的能力,我们引入了一种新颖的分层特征神经网络HF-Net,实现了从粗略到精细的有效定位。它在单次拍摄中检测关键点并计算局部和全局描述符,从而最大限度地共享计算,同时保持较大基线网络的性能。我们在图2中展示了它在分层定位框架中的应用。
在这里插入图片描述

4.1 HF-Net架构

卷积神经网络本质上呈现出一种层次结构。这种范例很好地适应了局部和全局特征的联合预测,并且具有较低的额外运行时间成本。HF-Net结构(图3)由单个编码器和三个头部组成预测:i)关键点检测分数,ii)密集局部描述符和iii)全局图像范围描述符。这种计算共享是很自然的:在最先进的图像检索网络中,全局描述符通常是根据局部特征映射的聚集来计算的,这可能有助于预测局部特征。
HF-Net的编码器是MobileNet[41]主干,这是一种针对移动推理进行优化的流行架构。与MNV[42]一样,全局描述符由在MobileNet的最后一个特征地图上的NetVLAD层[2]计算。对于局部特征,SuperPoint[14]结构的效率很高,因为它以固定的非学习方式解码关键点和局部描述符。这比应用转置卷积对特征进行上采样要快得多。它预测稠密的描述符,这些描述符是快速采样的,导致运行时独立于检测到的关键点的数量。另一方面,像LF-Net[38]这样的基于补丁的体系结构将暹罗网络应用于以所有关键点位置为中心的图像补丁,导致计算成本与检测数量成比例。
为了提高效率和灵活性,我们采用了针对关键点和局部描述符的SuperPoint解码方案。局部特征头部在比全局头部更早的阶段从MobileNet编码器分支出来,因为需要更高的空间分辨率来保留空间区分特征,局部特征处于比图像范围描述符更低的语义级别上。

4.2 训练过程

数据稀缺。局部和全局描述符的训练通常使用度量学习,使用基本事实、正和负局部块对和完整图像。这些基本事实的对应尤其难以获得训练大型CNN所需的规模。虽然全局监督自然从局部对应中产生,但目前还没有这样的数据集:i)在全局图像级别上表现出足够的感知多样性,例如,在各种条件下,例如白天、夜晚、季节,以及ii)包含匹配图像之间的地面真实局部对应。这些对应关系通常是从SfM模型[47,49]计算的密集深度[38]中恢复的,这是难以建立在图像检索所需的规模上的。
数据增强。不依赖于对应关系的自我监督方法,如SuperPoint,需要大量的数据扩充,这是局部描述符不变性的关键。虽然数据增强通常能够很好地捕捉真实世界在局部水平上的变化,但它可以打破图像的全局一致性,使全局描述符的学习非常具有挑战性。
多任务蒸馏是我们对这个数据问题的解决方案。我们使用蒸馏直接从现成的训练的教师模型中学习表示法。这通过允许使用任意数据集的更简单和更灵活的训练设置来缓解上述问题,因为可以从教师网络的推理中获得无限数量的标签数据。
直接学习预测教师网络的输出还可以简化学习任务,允许直接训练较小的学生网络。我们注意到与SuperPoint有一个有趣的相似之处,它的检测器通过引导进行训练,并通过不同的训练运行由自己监督。这一过程也可以被称为自蒸馏,并显示了蒸馏作为一种实用的训练方案的有效性。
对局部和全局特征的监督可以来自不同的教师网络,导致允许利用最先进的教师的多任务精馏培训。在多任务学习方面的最新进展[23]使学生能够最佳地复制所有教师 t 1 , 2 , 3 t_{1,2,3} t1,2,3,而无需手动调整权重以平衡损失:
在这里插入图片描述
其中 d g , d l d^g,d^l dg,dl是全局和局部描述子, p p p是关键点得分,W1,2,3是优化的变量。
更广泛地说,我们的多任务提取公式可以应用于任何需要多次预测的应用,同时保持计算效率,特别是在收集所有任务的基本事实数据成本很高的情况下。它还可以应用于一些手工创建的描述符,这些描述符被认为计算过于密集。

5.实验

在这一部分中,我们给出了对HF-Net的构建块和整个网络的实验评估。我们想要证明它在具有挑战性的条件下对大规模定位问题的适用性,同时保持计算上的简易性。在5.1节中,我们首先对当前性能最好的经典局部特征检测和描述方法以及基于学习的局部特征检测和描述方法进行了全面的评价。我们的目标是解释这些见解如何影响5.2节中介绍的高频网络的设计选择。然后,我们在第5.3节中评估了我们挑战大规模本地化基准的方法[44],并演示了从粗略到精细的定位范例的优势。为了解决我们关注的实时定位问题,我们在5.4小节中总结了运行时注意事项。

5.1 局部特征评估

我们首先研究了在两个数据集HPatches[4]和SfM[38]上不同设置下的局部匹配方法的性能,这两个数据集在2D和3D场景的图像对之间提供了密集的地面真实对应。
数据集。HPatches[4]包含116个包含照明和视点变化的平面场景,每个场景和地面真实单应具有5个图像对。SFM是由[38]构建的数据集,由[19,53]收集的照片旅游集合组成。从密集的每幅图像深度图和使用COLMAP[47]计算的相对6-DOF姿势中获得地面真实对应关系。我们选择了10个序列进行评估,对于每个随机样本,50个图像对具有给定的最小重叠。三维尺度不能通过SfM重建恢复,但对于计算局部化度量是重要的。因此,我们使用在谷歌地图中测量的公制距离手动标记每个SfM模型。
指标。我们计算并聚合由[14]在每个数据集的所有对上定义的成对度量。对于探测器,我们报告了关键点位置的重复性和定位误差。两者对于视觉定位都很重要,因为它们会影响内匹配的数量、匹配的可靠性以及3D模型的质量。我们计算描述符之间的最近邻匹配,并报告平均精度和匹配得分。前者反映了该方法拒绝虚假匹配的能力。后者一起评估检测器和描述符的质量。我们还计算了姿势估计的召回率,无论是HPatches的单应性还是SfM数据集的6-DoF姿势,阈值分别为3像素和3米。
方法:我们评估了Gauss(DOG)和Harris[17]的经典检测器差异以及描述符Root-SIFT[3]。对于基于学习的方法,我们评估了SuperPoint[14]和LF-Net[12]的检测和描述子。此外,我们还评估了DOAP[18]的密集版本和NetVLAD[2]的特征映射Conv3_3,并对两者使用SuperPoint检测。附录中提供了更多详细信息
检测器。我们在表1中报告了结果。Harris显示出最高的重复性,但也有最高的定位误差。相反,DOG的可重复性较差,但误差最小,这可能是由于多尺度检测和像素细化所致。SuperPoint似乎在重复性和误差之间表现出了最佳的权衡。

在这里插入图片描述
描述符。DOAP在SfM数据集的所有指标上都优于SuperPoint,但不能在HPatches上进行评估,因为它是在此数据集上训练的。NetVLAD在SfM上具有良好的姿态估计,但匹配精度较差,当关键点数量有限或Inlier比率很重要时,例如对于定位,这是不利的。总体而言,学习特征的表现优于手工制作的特征。
有趣的是,当从Harris检测中提取时,SuperPoint描述符的性能很差,尽管后者也是一个重复性很高的角点检测器。这暗示学习的描述符可以与对应的检测高度耦合。
LF-Net和SIFT这两种具有亚像素检测和基于块描述的多尺度方法都被DOAP和SuperPoint等密集描述符所取代。因此,经过适当监督训练的简单表示可能比复杂且计算繁重的体系结构更有效。我们注意到,SuperPoint需要显著更少的关键点来估计一个像样的姿势,这对运行时敏感的应用程序非常有用。

5.2 详细实现

基于5.1节中提出的结果,本节简要介绍了HF-Net的设计和实现。下面,我们解释我们对蒸馏教师模型、训练数据集和对基线2D-3D局部匹配的改进的选择。
教师模型。我们在5.3节中评估了两个最好的描述符DOAP和SuperPoint对定位的影响。结果表明,后者对昼夜外观变化的鲁棒性更强,因为它的训练集包含了弱光数据。最终我们选择它作为HF-Net描述符头的导师网络。全局头部由NetVLAD监督。
训练数据。在这项工作中,我们以白天和夜间的城市环境为目标。为了最大限度地提高学生模型在该数据上的性能,我们选择了适合该分布的训练数据。因此,我们对来自Google Landmark数据集[36]的185k图像进行训练,其中包含各种白天城市场景,以及来自Berkeley Deep Drive数据集[58]的夜间和黎明序列的37k图像,这些图像由带有运动模糊的道路场景组成。我们发现,将夜间图像包括在训练数据集中对于全局检索头到夜查询的泛化至关重要。例如,一个只针对白天图像进行训练的网络很容易混淆夜间黑暗的天空和白天的黑暗树木。我们也使用光度数据增强进行训练,但使用在干净图像上预测的目标。
高效的层级定位。Sarlin等人。[42]认为局部2D-3D匹配是管道的瓶颈。我们的系统大大提高了他们的方法的效率:i)使用修改的比率测试来过滤虚假的局部匹配,该比率测试仅在第一和第二最近邻描述符对应于不同3D点的观测时才适用,类似于[35],从而在高度可见的区域中保留了更多的匹配。Ii)将学习到的全局和局部描述符归一化,并与GPU上的单个矩阵乘法进行匹配。附录中提供了其他实施详细信息和超级参数。

5.3大尺度定位

根据本地的评估,我们现在评估我们在三个具有挑战性的大型基准上的分层定位,这些基准是由[44]提供。
数据集。每个数据集由一个稀疏的SfM模型组成,该模型由一组参考图像构建。亚琛昼夜数据集[45]包含4,328张来自欧洲古镇的日间数据库图像,以及分别在白天和夜间条件下进行的824和98个查询。RobotCar Seasons数据集[30]是一个跨越多个城市街区的长期城市道路数据集。它由20862张阴天参考图像和11934张在太阳、黄昏、黑夜等多种条件下拍摄的查询图像组成。最后,记录了CMU季节数据集[5]在8.5公里的城市和郊区环境中。它包含7,159张参考图像和75,335张不同季节记录的查询图像。该数据集的比例要低得多,因为查询是针对每个包含约400个图像的孤立子模型进行本地化的。
大尺度模型建设。使用RootSIFT使用COLMAP[47,49]构建的SFM模型由数据集作者提供。然而,当使用基于不同特征检测器的方法进行局部化时,这些是不合适的。因此,我们建立了新的3D模型,利用SuperPoint和HF-Net检测关键点。该过程如下:i)我们使用我们的特征和初始滤波率测试在参考帧之间执行2D-2D匹配;ii)使用双视图几何在COLMAP内进一步过滤匹配;iii)使用提供的地面真实参考姿势对3D点进行三角剖分。这些步骤将生成与原始模型具有相同比例和参考坐标系的3D模型。
模型质量比较。HF-Net Aachen模型每幅图像包含更少的3D点(685k比1899k)和更少的2D关键点(2576比10230)。然而,原始2D关键点的匹配比例更大(SIFT为33.8%比18.8%),并且每个3D点平均从更多的参考图像中观察到。因此,将查询关键点与此模型匹配更有可能成功,这表明我们的特征网络生成了更适合定位的3D模型。
方法:研究方法。我们首先基于NetVLAD[2]和SuperPoint[14]提取的学习特征来评估我们的分层定位。它被命名为NV+SP,它使用了可用的最强大的预测值。然后,我们使用HF-Net计算的全局描述子和局部特征来评估更有效的定位。我们还考虑了几个由基准作者评估的本地化基线。主动搜索(AS)[43]和城市尺度定位(CSL)[51]都是2D-3D直接匹配方法,在精度方面代表了当前最先进的技术。DEN-seVLAD[56]和NetVLAD[2]是通过顶部检索的数据库图像的姿势来近似查询的姿势的图像检索方法。最近引入的语义匹配一致性(SMC)[55]依赖于语义分割来拒绝异常值。它假设已知的重力方向和相机高度,并且对于RobotCar数据集,使用地面真实语义标签对评估数据进行训练。我们引入了一个附加的基线,NV+SIFT,它以RootSIFT为局部特征进行分层定位,并且是MNV+SIFT方法的上界。
结果。我们报告了每个序列在位置和方向上的不同阈值,正如基准[44]所定义的那样。表3显示了不同方法的定位结果。三个最具挑战性的序列的累积曲线图如图4所示。
在这里插入图片描述
在这里插入图片描述
使用NV+SP进行定位。在Aachen数据集上,NV+SP在白天查询上具有竞争力,在夜间查询时性能优于所有方法,而夜间查询的性能下降w.r.t.这一天比直接匹配方法要小得多,直接匹配方法受到比赛不确定性增加的影响。在RobotCar数据集上,它的执行与在黄昏序列上的其他方法类似,后者的精度往往会饱和。在更具挑战性的序列中,图像检索方法往往比直接匹配方法工作得更好,但远远超过NV+SP在精确度和粗精度区都有。在困难的CMU数据集上,NV+SP与所有基线(包括最新的SMC)相比具有出色的鲁棒性。总体而言,NV+SP在CMU数据集以及Aachen和RobotCar数据集的挑战性序列上设定了新的最先进水平。在精细和粗精度两种情况下的优越性能表明,我们的方法既更准确,也更健壮。
与NV+SIFT比较。我们观察到,NV+SIFT始终优于AS和CSL,尽管所有方法都基于相同的RootSIFT功能。这表明,我们的具有粗糙初始先验的分层方法带来了显著的好处,特别是在具有挑战性的条件下,其中图像范围的信息有助于消除匹配的歧义。因此,它比AS和CSL中使用的复杂领域特定启发式算法提供了更好的异常值拒绝。NV+SP的优势突出了像SuperPoint这样的学习功能的简单获得。NV+SP的优势突出了像SuperPoint这样的学习特征的简单获得。在最简单的亚琛夜晚和机器人-汽车黄昏序列中,NV+SIFT在精细阈值方面的表现略好于NV+SP。这可能是由于SuperPoint关键点的定位精度较低,如5.1节中突出显示的那样,因为DOG执行亚像素细化。
使用高频网络进行定位。在大多数序列中,HF-net的性能与其上限NV+SP相似,召回率平均下降2.6%。我们在图5和附录中给出了定性结果。在RobotCar夜间序列中,HF-Net明显比NV+SP差。在RobotCar夜间序列中,HF-Net明显比NV+SP差。我们将这归因于提取的全局描述符在模糊的低质量图像上表现不佳。这突出了我们方法的一个明显的局限性:在大的、自相似的环境中,高频网络的模型容量成为限制因素。全局检索的完全失败直接转化为分层定位的失败。
在这里插入图片描述
消融研究。在表4中,我们评估了分层本地化框架内不同预测因素的影响。比较NV+SP和NV+HF,我们注意到本地HF网络特征比用于训练它们的SuperPoint模型表现得更好。这表明了多任务精馏的好处,其中来自全局教师的监督信号可以改善中间特征并帮助局部描述符。我们还观察到,DOAP的局部化在夜间显著恶化,这可能是因为SuperPoint所基于的复杂的增强方案。最后,将HF-Net与NV+HF-Net进行了比较,结果表明,与原来的NetVLAD相比,HF-Net的全局描述符有一定的容量限制,并且限制了性能。
在这里插入图片描述

5.4 运行时评估

由于我们提出的定位解决方案是在考虑到计算限制的情况下开发的,因此我们分析了它的运行时,并将其与5.3节中提供的基线进行了比较。这些测试是在一台配备了英特尔酷睿i7-7820X CPU(3.6 GHz)、32 GB RAM和NVIDIA GeForce GTX 1080图形处理器的PC上进行的。表5列出了详细的时间安排。
在这里插入图片描述
层级定位。NV+SP和HF-Net的计时表明,我们的方法从粗到精可以很好地扩展到大型环境。全局搜索速度很快,并且仅取决于用于构建模型的图像数量。它成功地减少了潜在候选对应关系的集合,并实现了易于处理的2D-3D匹配。这强烈依赖于SfM模型-共可见性图越密集,每个先前帧检索和匹配的3D点就越多,这就增加了运行时间。因此,NV+SIFT的速度慢得令人望而却步,因为它的SfM模型要密集得多,尤其是在亚琛。NV+SP在此基础上显著改进,因为更稀疏的SfM模型生成的集群具有更少的3D点。NetVLAD和SuperPoint How-ever的推理占其运行时的75%,因此,正如前面提到的那样,这是瓶颈。HF-Net的推理速度提高了7倍,缓解了这个问题。
现有的方法。表5中没有列出CSL和SMC,因为它们每次查询都需要几十秒,因此比我们的最快方法慢三个数量级。AS在此基础上有所改进,但仍然较慢,特别是在成功率较低的情况下,例如在机器人汽车之夜。总体而言,我们的基于HF-Net的定位系统可以在超大规模环境中以20FPS的速度运行。它比AS快10倍,为提高效率而设计,在所有数据集上都更准确。

6.结论

本文提出了一种同时具有健壮性、准确性和实时性的视觉定位方法。我们的系统遵循从粗略到精细的本地化范例。首先,它执行全局图像检索以获得一组数据库图像,随后使用3D SfM模型的共可见性图将这些图像聚集到不同的位置。然后,我们在候选位置内执行局部2D-3D匹配,以获得摄像机姿势的准确6-DOF估计。
我们的方法的一个版本是基于现有的用于图像检索和特征匹配的神经网络。在几个大规模基准上,它的表现优于最先进的本地化方法,这些基准包括昼夜查询和跨天气条件和季节的显著外观变化。然后,我们提出了HF-Net,这是一种新型的CNN,可以一次计算关键点以及全局和局部描述符,从而提高了算法的效率。我们证明了多任务精馏的有效性,以灵活的方式训练它,同时保持原有的性能。由此产生的定位系统大规模地以超过20 FPS的速度运行,并在查尔拉长条件下提供了无与伦比的健壮性。

附录

A.1网络结构

HF-Net建立在MobileNetV2[41]编码器的顶部,深度倍增器为0.75。局部头部与原始SuperPoint[14]相同,并在第7层分支。全局头部由NetVLAD层[2]和降维组成,实现为与可学习矩阵的乘法,以匹配目标教师描述符的维度。全局头部附加到MobileNet第18层。详细架构如图
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值