图像检索论文--第1篇:From Coarse to Fine: Robust Hierarchical Localization at Large Scale(CVPR-2019)

摘要

   针对大规模环境和视觉外观严重变化的挑战,提出HF-Net:一个基于单层CNN网络的分层定位方法,能同时预测局部特征和全局描述符以获取精准的6D位姿。
  由粗到精的定位规范:首先执行全局检索以获得位置假设,然后再匹配那些候选位置内的局部特征。这种分层方法可节省大量的运行时间,并使系统适合于实时操作。
  其方法在外观变化很大的情况下实现了卓越的定位鲁棒性,并在两个具有挑战性的大规模定位基准数据集上取得了最新的技术水平。

1. Introduction

   基于图像检索的替代定位方法最近在鲁棒性和效率方面已显示出令人满意的结果,但在准确性方面没有竞争力。
  在分层定位规范下,利用在特征学习方面的最新研究进展,去缩小鲁棒性和高效性之间存在的差距。利用全局描述子和局部特征实现由粗到精的位姿估计过程。其中描述子在鲁棒性方面展现出无与伦比的特性,而关键点由于较高的重复性,在高效性方面表现显著。通过将多个最新的预测变量融合到一个模型中,以获得无与伦比的快速,强大而准确的定位性能。
  
主要贡献:

  1. 在大规模公开定位的几个公共数据集中取得最新的技术水平,特别是在具有挑战性的条件下具有出色的鲁棒性;
  2. 提出一个完整的神经网络HF-Net,能有效的分层预测特征,并进行快速鲁棒定位;
  3. 实验表明多任务分离的实际有用性和有效性,利用组合预测器实现运行时目标。

2. Related Work

2.1 6-DoF visual localization:基于结构和基于图像

   基于结构的视觉定位采用直接匹配3D点和2D关键点的局部描述子方式,虽然能估计准确的位姿,但是依赖详尽的匹配,计算量大。由于模型尺寸和感知堆叠的出现,以及外观出现严重变化时,导致匹配的图像模棱两可,并且削弱了定位的鲁棒性。
   基于图像的视觉定位与图像检索密切相关,可以从离散的数据库中得到一个大约的位姿,但是对于多数应用来讲其精度仍不足够。但是由于图像检索依赖于全局图像信息,其鲁棒性是非常显著的。以增加计算为代价,最新的图像检索任务基于更大的深度学习模型。

2.2 Scalable localization:可扩展定位

   可扩展定位通过使用廉价的特征来提取,存储和匹配,从而应对额外的计算约束。虽然改善了移动设备上的运行时间,但进一步削弱了定位的鲁棒性,限制了在稳定条件下的操作。分层定位将问题分为全局粗略搜索,然后进行精细姿态估计。

2.3 Learned local features:局部特征

   稠密特征由于计算能力的受限显得很棘手,但是稀疏特征是由特征点和描述子构成,从稠密特征中采样是很容易的,而且CNN关键点提取器对于分类任务具有杰出的表现,尽管训练过程很困难。其中SuperPoint采用自监督模型训练,而DELF对于路标识别任务采用注意力机制优化。

2.4 Deep learning on mobile:移动端深度学习

   分离法可以已训练的大网络分离成小的网络,以此减小网络的尺寸。其提出的方法试图利用目前最新的算法之间的协同作用来提供有竞争力的大规模定位解决方案,并使该技术更接近于资源受限的实时在线应用程序。

3. Hierarchical Localization

   图像检索(MobileNetVLAD);可行性聚类;局部特征匹配。

4. HF-Net Architecture

   HF-Net由一个编码器和三个预测头组合,(1)关键点提取分数;(2)稠密局部描述子;(3)全局图像描述子。在最新的图像检索网络中,全局描述符通常是根据局部特征图的聚合来计算,有助于预测局部特征。
   编码器由MobileNet组成,在MobileNet最后一个特征图的后面使用NetVLAD以聚合成一个全局描述子。使用SuperPoint架构将MobileNet生成的局部特征进行解码,以得到关键点和局部描述子。
   为了提高效率和灵活性,对关键点和局部描述符采用了SuperPoint方案。局部特征标头比全局特征标头更早地从MobileNet编码器分支出来,因为需要更高的空间分辨率来保留空间判别性特征,局部特征的语义级别比全图像描述符低。

4.1 Training Process:

  • Data scarcity:数据匮乏
    目前并没有数据集同时满足下面两种情况:
  • [1] 在全局图像水平上表现出足够的感知多样性,例如具有各种条件,例如白天,晚上,季节;
  • [2] 图像匹配之间包含真实的局部对应关系,而这些对应关系通常是从SfM模型计算出的密集深度中恢复的,很难以图像检索所需的规模来构建。
  • Data augmentation:数据增强
       自监督方法不依赖对应关系,但是需要繁重的数据增强,其关键是局部描述子的不变性。尽管数据增强通常可以很好地捕获局部级别的真实世界中的变化,但它可能破坏图像的全局一致性,并使全局描述符的学习非常具有挑战性。
  • Multi-task distillation:多任务蒸馏
       多任务蒸馏时解决数据问题的方案,采用蒸馏法直接从现有经过训练的教师模型中学习表达式。通过使用更简单,更灵活的训练设置来缓解上述问题,其训练设置允许使用任意数据集,因为可以从教师网络的推论中获得无限量的标记数据。
       利用目前最新的网络作为teacher网络,用于监督局部和全局特征的生成。通过学习最新网络的输出来优化当前网络的权重参数,以得到学习的表达式。多任务学习的最新方法使student网络能够最佳地复制所有teacher网络t1,2,3,而无需手动调整权重以平衡损失。
       已知teacher网络t1,2,3,sstudent网络s(自己搭建的网络),求解权重参数w1,2,3
    在这里插入图片描述
    式中dg和dl分别表示全局和局部描述子,p表示关键点分数,w是待求解的权重变量;
       上述公式适用于所有的多任务蒸馏应用,而这些应用需要多个预测,同时保持计算效率,特别是在所有任务的真实数据收集成本很高的环境中。

5. Experiments

   介绍了HF-Net和整个网络构建块的实验评估。为了证明在大规模具有挑战性状况下可以解决定位问题,同时能保持计算的易用性,从以下三个方面进行论证:

  • 评估当前最杰出的传统和基于学习的局部特征提取和描述子计算方法;
  • 证明这些见解是如何影响HF-Net的设计选择;
  • 在大规模挑战性定位基准数据集上进行评估,以证实由粗到精分层定位规范的优越性;
  • 证明该方法可以实时运行;

5.1 Local Features Evaluation

   通过考察在两个数据集下的进行局部匹配的执行能力来评估本文的方法。

  • Datasets 数据集
       HPatches和SfM:提供了2D和3D场景下图像匹配对之间稠密的真实对应关系;
       HPatches:包含光照和视角改变的116个地面场景,每个场景包含5个图像匹配对(5个图像可能是视角改变或者是光照变化)以及真实的位姿变换矩阵(单应矩阵);
       SfM:由收集的照片旅游集合组成的数据集;
  • Metrics 性能指标
       对于特征提取器,报告了关键点位置的可重复性和定位误差。两者对于视觉定位都很重要,因为它们会影响内部匹配的数量,匹配的可靠性以及3D模型的质量。
       计算描述符之间的最近邻匹配,并得到平均平均精度和匹配分数。前者反应剔除假的匹配的能力;后者同时评估检测器和描述符的质量;设定阈值计算HPatches数据集的位姿估计召回率。
  • Methods 方法
       传统方法:提取器采用DoG和Harris,描述子计算采用Root-SIFT;
       基于学习的方法:SuperPoint和LF-Net。
       使用了SuperPoint检测同时评估了密集DOAP 和NetVLAD的特征图conv3_3。
  • Detectors 提取器
       Harris具有很高的关键点位置重复性和最高的定位误差;
       DoG具有很少的关键点可重复性和较低的定位误差;
       SuperPoint在可重复性和误差之间的取得最佳权衡;
    关键点提取器的评估(rep可重复性,MLE平均定位误差)
  • Descriptors 描述子
    局部描述子评估(MS匹配分数,mAP平均平均精度)
    SuperPoint需要很少的关键点来估计一个合适的位姿,这对运行灵敏的应用程序非常有利。

5.2 Implementation Details

(1) Teacher models 监督网络模型
   选择SuperPoint作为HF-Net局部描述符的监督网络。NetVLAD作为HF-Net全局描述符的监督网络。
(2) Training data 训练数据
   Google Landmarks dataset :185K张,包含各种各样的白天城市场景;
   Berkeley Deep Drive dataset:37K张,包含从黑夜到黎明的序列场景,以及道路场景下产生的运动模糊;
   发现在训练数据集中包含夜景图像对于夜间查询的全局检索至关重要。
(3) Efficient hierarchical localization 高效的分层定位

  • L使用修改后的比率测试过滤掉了虚假的局部匹配,该比率测试仅在第一和第二最近邻描述符对应于不同3D点的观测值的情况下适用,从而在高度可见的区域中保留更多匹配。
  • 将学习到的全局和局部描述符归一化并与GPU上的单个矩阵乘法匹配。 附录中提供了其他实现细节和超参数

5.3 Large-scale Localization

(1) Datasets 数据集
   Aachen Day-Night dataset:包含训练集4328个白天图像,查询图像824个白天和98个黑夜;图像类型—欧洲老城镇;
RobotCar Seasons dataset:包含训练集20,862个图像,查询图像119347个图像,其蕴含多种情况(雨天、黑夜、昏暗等);图像类型—牛津城市道路;
   CMU Seasons dataset:参考图像7159张,查询图像75335张,蕴含不同季节下的图像;图像类型—城市和郊区环境(不同季节下) 该数据集的规模明显较低,因为查询是针对每个包含约400张图像的独立子模型进行定位的。
(2) Results 结果
在这里插入图片描述
(3) Localization with NV+SP
   在三大数据集基准上,NV+SP在精细和粗精度两种情况下均具有出色的性能,这表明NV+SP方法在解决定位问题上更准确和鲁棒。(NetVLAD + SuperPoint)
(4) Ablation study
   将NV + SP与NV + HF进行比较,我们注意到局部HF-Net特征的性能要优于用于训练它们的SuperPoint模型,证实了多任务蒸馏的有效性。
   最后,将HF-Net与NV+HF-Net进行比较后发现,与原始NetVLAD相比,HF-Net全局描述符的容量有所限制,并限制了性能。
the Aachen Day-Night dataset recall [%]

5.4 Runtime Evaluation

   分层定位的不同步骤:特征提取、全局检索、合理聚类、局部匹配、PnP位姿估计。
Timings [ms](每一步骤)
(1) Hierarchical localization
   上述图表的NV+SP和HF-Net时间对比显示,HF-Net从粗到精的方法能很好的适应大型环境。而且NetVLAD和SuperPoint的推断占其运行时间的75%,是限制运行时间提升的重要缓解。而HF-Net可以将推理速度提高7倍,从而缓解了这一问题。
   总体而言,基于HFNet的定位系统可以在非常大的环境中以20 FPS的速度运行。

6. Conclusion

   在本文中,提出了一种视觉定位方法,该方法同时具有鲁棒性,准确性和实时性。该系统遵循由粗到精的定位步骤规范。简述流程如下:
   首先,执行全局图像检索以获得一组候选数据库图像,这些候选图像随后使用3D SfM模型的可视性图聚类到各个位置。然后,在候选位置内执行局部2D-3D匹配,以估计相机的6自由度准确位姿。
   本文首先基于现存的神经网络进行图像检索和特征匹配。在几个大型基准数据集测试中,测试其性能优于最新的定位方法,其中包括昼夜查询以及跨天气条件和季节的外观变化很大。之后提出一种新颖的CNN网络HF-Net,可以一次性计算关键点以及全局和局部描述符,从而提高其效率。同时证实了多任务蒸馏方法在保持原始性能的同时灵活地进行训练的有效性。最终的定位系统在大规模环境下运行速度在超过20 FPS,并在挑战性条件下提供了无与伦比的鲁棒性。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值