SuperPoint 论文详解

最新推荐文章于 2025-04-13 20:44:00 发布

无比机智的永哥

最新推荐文章于 2025-04-13 20:44:00 发布

阅读量3.2w

点赞数 30

分类专栏：计算机视觉图像局部特征文章标签： SuperPoint 局部特征基于深度学习的特征特征学习

本文链接：https://blog.csdn.net/honyniu/article/details/87483613

版权

计算机视觉同时被 2 个专栏收录

12 篇文章

订阅专栏

图像局部特征

9 篇文章

订阅专栏

SuperPoint

该论文是 magic leap 公司在18年的一篇工作，而且提供了代码，基于 pytorch 的，不过遗憾的是训练代码和相应的渲染的训练数据没提供。

主要思路

本文提出了一个自监督的方式去训练网络来提取特征点以及计算描述符。

基本流程

整体框架

整体框架如下图，下面会abc三个步骤分别介绍：

特征点提取预训练

如果要使用有监督的深度学习方案来解决该问题，不同于其他传统的像分类、检测和分割这样视觉任务，对于任意给定的一张图像，有确定的语义上的真值。对于特征点提取这个任务来说，很难人为的去判断哪一个像素点可以作为特征点，所以也很难让用户去标注，所以现在要在没有标注数据前提下去解决。
该文作者提出了一种迂回的方式，具体流程如下：

利用基本形状元素渲染得到训练集和真值，如下图：
对于任意的图像很难去确定特征点位置，但是如果图像上只有线段、三角形、矩形和立方体等基本形状元素的话，那么特征点的位置一般都是在端点和定点上，那么真值就很好确定了。但是也很难获取这种只包含基本形状元素的图像，所有作者使用渲染的方式来获取对于任意的图像很难去确定特征点位置，但是如果图像上只有线段、三角形、矩形和立方体等基本形状元素的话，那么特征点的位置一般都是在端点和定点上，那么真值就很好确定了。但是也很难获取这种只包含基本形状元素的图像，所有作者使用渲染的方式来获取训练图像，那么真值自然就获得了。
利用上面的训练数据和真值训练起来，这样就得到可以提取基本形状元素特征点的模型了，文章中叫做MagicPoint，结构如下（只关注上面，下半部分是提取描述符的）：
其实这里面也有一些问题，点的数目不固定怎么来映射，比较直观的想法是利用类似关节点提取的方法，但可能会有点问题，就是后面的heatmap需要保证和输入图像分辨率一致，不然网络降采样会导致找不到精确的特征点。作者采用了另外的方式，类似语义分割的方式，就是网络整体就做8次降采样，最后会输出65个通道的heatmap，65通道对应原始图像的8x8的一个patch，表示该点是特征点的概率值，多出一个值表示不存在特征点，这样就把特征点提取转换成分类问题。
上面论文中实现其实有个细节是，如果同一个8x8的patch上存在多个特征点，因为分类只能有一个真值，所以只会选择其中一个特征点当做真值去训练，测试过程利用阈值来截取，同一个8x8的patch可以获得多个特征点，这是需要注意的。但是训练时的选取的策略没仔细看，需要注意一下？？？

真实图像自标注

真实图像自标注主要使用单应适应的方法，这也是该文的核心贡献，主要是通过单应变换把上面的MajicPoint的能力传递到一般图像上，主要流程如下图：
前面的MagicPoint只是在基本形状元素的图像上训练出来的，对于一般的图像提取效果可能不太好。主要思路是想利用MS-COCO上的大量的图像来进一步训练得到一般性的模型。但该数据集没有特征点真值的，所以方案就变成通过之前训练好的MagicPoint获取MS-COCO数据集的特征点的真值。这里主要是对MS-COCO数据集的每张图像做n种单应变换（文章中最后用的100种），得到n张变换后的图像，在这些图像上利用MajicPoint模型分别提取特征点，可以得到n个特征点的heatmap，把这n个heatmap累加到一起，得到最终的heatmap，然后使用阈值截取获得每个位置上的特征点，这个就是原始图像的特征点的真值，用来训练。
单应适应
关于单应变化，论文中拆分成多个子变换，如下图：
在这里插入图片描述

特征点提取和描述符计算联合训练

首先MS-COCO真实图像集，目前通过前面的步骤已经获取图像对应的特征点的真值了。但同特征点一样，描述符也存在真值的问题，任意两张图像，真值是没法确定和标注的。这里的描述符直接由深度学习网络的feature map输出，但是这样的feature map不一定满足描述符的特性，简单来说就是需要同样的特征点之间描述符的距离尽可能的近，而不同特征点之间的描述符的距离尽可能远。（这里的近和远只是表示在一定度量方法下的描述符的相似程度）
该文对原始图像做warp，然后两张图像都能特征点对应关系也是知道的，由warp函数决定，对于两张图像中任意的两对点都会求loss，去优化使匹配点距离小，非匹配点距离大，这样最后得到的描述符就是满足需求的。
需要注意的是描述符的feature map是通道为D的，但是分辨率是原始图像的1/8，也就是8x8的图像patch需要公用同一个描述符，描述符的维度是D。

试验

后面补充