SuperPoint: Self-Supervised Interest Point Detection and Description

摘要

本文提出了一种自监督特征提取框架,用于训练感兴趣点检测器和描述符,适用于计算机视觉中的大量多视图几何问题。与基于补丁的神经网络相反,全卷积模型(VGG-style)在全尺寸图像上运行,并在一个正向通道中联合计算像素级兴趣点位置和相关描述符。本文介绍了Homographic Adaptation(单应自适应),是一种多尺度,多种多样的方法,用于提高兴趣点检测的可重复性和执行跨域自适应(其主要针对虚拟数据,使虚拟数据更加能反映真实场景)。本文模型在使用Homographic Adaptation对MS-COCO通用图像数据集进行训练时,能够重复检测比初始预适应深度模型和任何其他传统角点检测器更丰富的兴趣点集。与LIFT,SIFT和ORB相比,本文的SuperPoint在HPatches上产生了最先进的单应性估计结果。

1. 前言

本文提出了一种基于自我训练的自监督解决方案,而非利用人工监督来定义确定真实图像中的兴趣点。在本文中,在真实图像中创建一个大的伪地面真实兴趣点位置数据集,由兴趣点检测器本身监督,而不是大规模的人类标注。

在这里插入图片描述

  • 为了生成伪真实兴趣点,首先使用合成数据集训练一个全卷积网络(VGG-style),本文称为MagicPoint(SuperPoint的前身),该网络对于合成的虚拟数据集具有良好的兴趣点检测性能。为了弥补真实图像上的性能差距,开发了一种多尺度、多变换的技术- Homographic Adaptation(单应自适应)。
  • Homographic Adaptation多次扭曲输入图像以帮助兴趣点检测器从许多不同的角度和尺度看到场景(参见第5节)。使用Homographic Adaptation结合魔点检测器来提高检测器的性能,并生成伪地面真相感兴趣点(见图2b)。由此产生的兴趣点检测结果在更大范围的刺激上更容易重复和激发,因此被命名为Superpoint。
  • 在检测出鲁棒性和可重复感兴趣点之后,在每个点上附加一个固定的维描述符向量,用于更高层次的语义任务,例如图像匹配。因此,最后,我们将SuperPoint与描述符子网络组合在一起(参见图2c)。由于超点体系结构由一组深层次的卷积层组成,这些层提取多尺度特征,因此很容易将兴趣点网络与计算兴趣点描述符的附加子网络结合起来(参见第3节)。结果的系统如图1所示。

在这里插入图片描述

2. SuperPoint结构

设计的全卷积网络体系结构被称为Superpoint,该网络对一整副图像进行操作,并在一次前向传播中检测兴趣点和固定长度描述符(256*N)。该网络使用单一的共享编码层来处理和降低输入图像的维数(VGG-style),编码后将特征图进行分别解码操作,一个用于兴趣点检测,另一个用于兴趣点描述。因此该网络的大部分参数时共享的,有别于传统先检测后描述。
在这里插入图片描述

2.1 共享编码层

网络的全卷积结构使用VGG-style的编码器来降低图像的维数。编码器由卷积层、空间下采样池和非线性激活函数组成。编码器使用三个最大池层(max-pooling, 每次特征图缩小一倍),图像大小为H×W的图像,并定义 H C = H / 8 H_C=H/8 HC=H/8 W C = W / 8 W_C=W/8 WC=W/8。编码层的输出为 H C ∗ W C ∗ 128 H_C*W_C*128 HCWC128

2.2 兴趣点检测

对于兴趣点检测,输出的每个像素对应于输入中该像素的“点-度”的概率。用于稠密预测的标准网络设计涉及编码器-解码器对,其中空间分辨率通过池或跨区卷积降低,然后通过上卷积操作上采样返回到完全分辨率。然而上采样层往往会增加大量的计算量,并且可以引入不必要的棋盘伪影[18],因此,设计了具有显式Decoder的兴趣点检测头,以减少模型的计算。

在这里插入图片描述

2.3 描述符解码层

先执行双三次插值,然后使用L2操作,将描述符的数值进行归一化处理。
在这里插入图片描述

2.4 损失函数

最后的损失是两个中间损失的总和:一个用于兴趣点检测器Lp,另一个用于描述符Ld。我们使用综合扭曲的图像,它们同时具有(A)伪地面真值感兴趣点位置和(B)与这两幅图像相关的随机生成的同形H的地面真值对应。这允许我们同时优化这两个损失,给定一对图像,如图2c所示。我们使用λ来平衡最后的损失:

在这里插入图片描述
在这里插入图片描述

3. 合成数据集预训练

在本节中,描述训练一个基本检测器的方法(如图2a所示),它被称为魔点,它与 Homographic Adaptation 相结合,以自监督的方式为未标记的图像生成伪地面真实感兴趣点标签。

3.1 合成形状

目前还没有大型的兴趣点标记图像数据库。因此,为了引导我们的深度兴趣点检测器,我们首先创建一个大规模的合成数据集,称为合成形状,它由简化的二维几何组成,通过四边形、三角形、直线和椭圆的合成数据绘制。这些形状的例子如图4所示。在这个数据集中,我们可以通过用简单的Y-连接、L-连接、T-连接以及微小椭圆和线段端点的中心来建模兴趣点,从而消除标签的歧义。
在这里插入图片描述

3.2 魔点

我们很惊讶地发现MagicPoint表现得很好,真实的世界图像,尤其是在强大的场景中角状结构,例如桌子、椅子和窗户。不幸的是,在所有自然图像的空间中,与相同的经典探测器相比,它表现不佳。在视点变化下的可重复性。这激发了我们关于真实世界图像训练的自监督方法我们称之为Homographic Adaptation。
在这里插入图片描述

4. Homographic Adaptation

在这里插入图片描述

单应性给出了相机运动的精确或几乎精确的图像转换,其中仅围绕相机中心旋转,具有与对象的距离大的场景,以及平面场景。此外,由于世界上大多数都是合理的平面,所以从不同的观点看,同一3D点的情况下,单应性是很好的模型。因为单应性不需要3D信息,所以它们可以被随机采样并容易地应用于任何2D图像,涉及很少的双线性内插。出于这些原因,同系物是我们自我监督的方法的核心。让f(·)表示我们希望适应的初始兴趣点函数,i输入图像,x表示所得到的兴趣点和h的随机同描记法,以便:
在这里插入图片描述
实际上,检测器不会完全协变——等式9中的不同单应性将导致不同的兴趣点x。单应性自适应背后的基本思想是在足够大的随机H样本上执行经验求和(见图5)。由此产生的样本聚集产生了一种新的改进的超点检测器:
在这里插入图片描述

4.1 选择单应性变换矩阵

不是所有的3×3矩阵都是同形适应的好选择。
我们将一个潜在的单应性分解成更简单、表达能力更弱的转换类。我们使用截断正态分布在预先确定的平移、缩放、面内旋转和对称透视变形范围内进行采样。这些转换与初始根中心裁剪一起组成,以帮助避免边界工件。这个过程如图6所示。

主要包括:中心裁剪、平移、缩放、面内旋转、对称透视变换。共同构成单应性变换矩阵。
在这里插入图片描述

4.3 Iterative Homographic Adaptation

在训练时应用单应性自适应技术,以提高基于真实图像的MagicPoint体系结构的泛化能力。该过程可以反复重复,以不断自监督的形式改进兴趣点检测器。将应用同形适应后得到的模型称为叠加点。
在这里插入图片描述

5. 实验细节

在本节中,我们将提供一些实现细节,用于培训魔点和超点模型。这个编码器有一个类似vgg的结构,有8个3x3卷积层,大小为64-64-64-64-128-128-128。每两层有一个2x2的max池化层。每个解码器头具有单个3x3卷积层(256),其次是1x1卷积层(65)和256单元(兴趣点检测器和描述符)。网络中的所有卷积层都遵循重线性激活和批归一化。

对MagicPoint模型进行了200,000次合成数据迭代的训练。我们使用MSCOCO2014培训数据集拆分生成伪地面真实标签,该数据集具有8,000个图像和MagicPoint基础检测器。这些图像的尺寸被确定为240*320的分辨率并且被转换为灰度。根据第4.2节的结果,使用NH=100的Homographic Adaptation 生成标签。所有实验中使用的描述符大小为d=256。我们使用λd=250的加权项来保持描述符学习的平衡。广义铰链损耗采用正裕度MP=1,负裕度Mn=0.2,我们采用λ=0.0001的因子来平衡这两种损失。所有培训均采用具有最小批量大小为3219]和具有Lr=0.001和Lr=(0.9;0.999)的默认参数的ADAM解算器完成。使用标准数据增强技术,如随机高斯噪声、运动模糊、亮度水平变化来改善网络对照明和视点变化的鲁棒性。

5.1 HPatches Homography Estimation

为了评估SuperPoint兴趣点检测器和描述符网络的性能,我们比较了HPATCHES数据集上的匹配能力。我们用三个著名的探测器和广义系统来评估SuperPoint:Lift,SIFT和ORB。

在这里插入图片描述
在这里插入图片描述

6. 结论

提出了一种基于自监督域自适应框架的兴趣点检测和描述的全卷积神经网络结构。实验证明:(1)将知识从合成数据集转移到真实图像上是可行的;(2)稀疏兴趣点检测和描述可以转化为一个单一、高效的卷积神经网络;(3)该系统适用于几何计算机视觉匹配任务,如同形估计。
  今后的工作将研究同音适应是否能提高模型的性能,例如用于语义分割(例如SegNet)和目标检测(例如SSD)的模型。它还将仔细研究兴趣点检测和描述(以及潜在的其他任务)相互受益的方式。
  最后,我们相信我们的SuperPoint网络可以用来解决像SLAM和SFM这样的3D计算机视觉问题中的所有视觉数据关联,而基于学习的视觉SLAM前端将在机器人和增强现实中提供更强大的应用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值