【论文精读】SuperPoint:Self-Supervised Interest Point Detection and Description

SuperPoint:Self-Supervised Interest Point Detection and Description

论文链接:CVPR 2018 Open Access Repository

1.Introdction

研究背景:

1.提取特征点是许多视觉任务的第一步,例如SLAM、SfM、相机校准以及图像匹配等。

2.卷积神经网络在图像作为输入的任务上表现优越。

3.训练基于强监督的卷积神经网络来检测特征点很难。

研究方法:

1.提出了一种自监督方法,通过特征点检测器它自己来监督,创造一个真实图片的特征点的伪基准标准(ground truth)的数据集。

2.首先在一个合成数据集上(“Synthetic Shapes” )训练一个卷积神经网络(fully-CNN),得到检测器(MagicPoint).MagicPoint在合成数据集上表现不错,但是在不同纹理和图案集上的表现不如经典检测器,因此本文又提出了Homographic Adaptation。

3.Homographic Adaptation扭曲图像,和MagicPoint一起训练来提升它的表现,生成伪基准特征点。最终训练出来的检测器叫做SuperPoint。

4.将SuperPoint和描述器子网络结合,生成特征点的描述子。

2.Related Work

第一个基于机器学习的特征点检测器:“The FAST corner detector [21]”

最著名的传统方法:“SIFT [15]”

与本文方法相似:“UCN [3]” 、“DeepDesc [6];” 。

基于卷积神经网络与传统方法相似,需要SfM系统的监督:“LIFT [32],”

无监督、patch-based、浅层神经网络(2 layers):“QuadNetworks [23]”

与Homographic Adaptation原理类似:“TILDE [29]”

“synthetic-to-real domain-adaptation methods” ,缺乏特征点检测和点对应关系:

与Homographic Adaptation相似:“Honari et al. [10] under the name “equivariant landmark transform.””

用相似的自监督策略生成训练数据:“Geometric Matching Networks [20] and Deep Image Homography Estimation [4]”

3.SuperPoint Architechture

输入一整张图片,通过共享编码器编码来降低输入图像的维度;然后通过两个并行的解码器来得到特征点和特征描述子。

3.1.Shared Encoder

用“VGG-style [27] encoder” 降低输入图片的维度,增加通道数。

3.2.Interest Point Decoder

设计了一个带有显示解码器(没有参数)的特征点检测头来减少模型对计算资源的消耗。

3.3.Descriptor Decoder

首先,用一个类似“UCN [3]” 的模型生成特征描述子的版稠密网格,以减少训练时间。然后通过双三次插值和L2正则化来得到描述子。

3.4.Loss Functions

损失:

特征点检测损失:

描述子损失:

4.Synthetic Pre-Training

训练一个基础检测器MagicPoint

4.1.Synthetic Shapes

由于没有现存的大的标注好的特征点图片数据集,本文首先设计了一个大规模合成数据集叫做“Synthetic Shapes” 。

4.2.MagicPoint

本文使用SuperPoint检测器的结构(除描述子头)在Synthetic Shapes上训练,得到MagicPoint。

MagicPoint在Synthetic Shapes上表现很好;真实图像上表现也不错,尤其是有强棱角的结构上;但是在自然图像上表现得不如传统检测器。于是,本文继续提出了一个在真实图像上进行训练的基于自监督的Homographic Adaptation模型。

5.Homographic Adaptation

该系统通过基础特征点检测器和未标注的图片来自引导训练。该方法的核心步骤(homographic adaptation)是通过random homographies来扭曲输入图像的副本然后组合所有的结果。

5.1.Formulation

假设covariant:

实际上,检测器不是perfectly covariant:

5.2.Choosing Homographies

 

超参数Nh、Ns 的设置:

8.Conclusion

本文设计了一个自监督的框架Homographic Adaptation,基于此提出了fully-CNN架构用来做特征点检测和描述训练。

实验证明:

1.将合成的数据集的知识转移到真实图片上是有可能的。

2.单个、有效的CNN可以用来进行稀疏特征点的检测和描述。

3.该系统的结果可以很好的运用到几何计算机视觉匹配任务上,例如Homographic Estimation。

未来工作:

1.研究Homographic Adaptation是否可以提升语义分割、目标检测等任务的表现。

2.研究特征点检测和描述子生成能否互相受益。

应用场景:SLAM、SfM。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值