Superpoint论文详细解读

最新推荐文章于 2025-03-14 17:23:11 发布

爱吃糖的小北

最新推荐文章于 2025-03-14 17:23:11 发布

阅读量7.3k

点赞数 10

分类专栏：立体视觉文章标签：计算机视觉神经网络算法机器学习

本文链接：https://blog.csdn.net/weixin_42730997/article/details/108315380

版权

立体视觉专栏收录该内容

28 篇文章

订阅专栏

Superpoint论文详细解读

对于一篇论文，应该用何种框架去解构？
之于背景的目的、之于目前challenge的出发点、新的idea、验证实验、不足和后续。
对于Learning-based方法，又该如何弄清楚它？
输入、输出、结构、loss、训练方法、metric

背景

Superpoint的作者Daniel DeTone来自Magicleap，一家做AR的独角兽。作者在Superpoint之前，还发过几篇相关的文章，可以看作是Superpoint的酝酿过程。第一篇是做单应矩阵估计的‘Deep image homography estimation’，这篇文章说是做单应估计，实际上就是回归图像边界的角点坐标，也正因为如此（猜测），作者注意到网络检测角点的可能性，在之后的工作中又提出了Magicpoint，一个专门用于interest points检测的网络，同时也是Superpoint的主要结构之一。这两个工作之后，作者又从SIFT算法中得到启发，最终提出了基于自监督的特征点提取算法（Superpoint）。

目的和出发点

特征点是指图片中不随环境光和视角变化的点，在视觉任务中往往是作为前提的存在，因此从图片中提取特征点是计算机视觉中很基础的任务。随着目前神经网络的发展，特征点提取任务可以很自然地定义为有监督的学习任务，以人工标注为监督信息，通过训练最先进的网络来检测特征点就可以实现。
然而，作者认为对于语意特征点，比如人体姿态估计时的手肘、肢端等等，目前人为的特征点定义并不能体现其语意特征，进而会影响以这些点为监督信息训练的网络性能。（原文没有说清楚是怎么影响的）针对这一点，作者提出用神经网络自己检测出的点来作为监督信息训练网络，是所谓自监督。

Methods

Superpoint的出发点是自监督，那么这些自监督信息从哪里来呢？这就要用到作者之前提出的Magicpoint，一种用于特征点提取的网络。

Magicpoint

Magic
Magicpoint的输入是图片，输出是和图片相同size的heatmap，每个像素处的值是这个点作为interest point的概率，通过NMS（非极大值抑制）就可以得到最终的sparse interest points（稀疏特征点）。Magicpoint的结构是传统的encoder-decoder结构，其中encoder是VGG-style的网络，将输入边长降低到原始的1/8，同时增加64个通道，在decoder部分，先做通道间的softmax，然后舍弃掉softmax后概率最小的通道（舍弃多余信息），再做reshape，得到原始size的张量，经过NMS得到的结果就是稀疏特征点。
Magic
Magicpoint采用的loss是分类的交叉熵。然后就是Magicpoint最特殊的一点–训练方法，Magicpoint用的是作者自己合成的数据集训练（虚拟的三维物体），其中包括线、立方体、三角形等等基础的几何结构，同时因为是合成的，所以真值特征点也有，为了增加泛化性，还在其中增加了高斯噪声和无特征点的圆形。
Magic
Magicpoint在虚拟数据集上取得了远胜于传统算法的结果，但是当应用于真实数据时，对于不同视角的图片，其检测出的特征点的可重复性不如传统算法，也就是换个视角，其之前能检测到的点就可能检测不到了。
Magic

Homographic Adaptation

针对Magicpoint在真实数据上的缺点，作者提出了Homographic Adaptation，也就是把真实图片做几次单应变换，将这些单应变换的结果都输入Magicpoint，然后将检测到的特征点投影到原始的图片上，合起来作为最后的特征点真值。这样使检测到的特征点更丰富，也具备了一定的单应不变性。
Magic

Superpoint

Superpoint的输入是两张图片，其中一张是另一张单应变换得到的，为啥要用这样的两张输入呢，这就和它的输出有关了。类似于传统的SIFT算法，Superpoint的输出不仅仅是特征点还有特征点的描述子。由上可知，特征点是有真值的，而描述子没有，于是作者用两张单应变换的图片做输入（点的匹配是已知的），用这两张图片的特征点之间的匹配关系，来约束特征点描述子（具体看后面loss）。
关于什么是特征点的描述子，简单来说，描述子是用于不同图片特征点之间的匹配的，可以直接根据描述子间的欧氏距离来做匹配。因为特征点应该具有光、尺度等等的不变性，将图片做旋转、尺度、平移等等变换，然后对变换后的特征点求一定范围内的梯度，再在这些梯度中寻找共性，集合成一个矢量，就作为特征点的描述子。
Magic
Superpoint的结构也是encoder-decoder，encoder和Magicpoint相同，在decoder分为特征点和描述子的部分，特征点部分也和Magicpoint相同，在描述子部分，则是先学习半稠密的描述子（不使用稠密的方式是为了减少计算量和内存），然后进行双三次插值算法（bicubic interpolation）得到完整描述子，最后再使用L2标准化（L2-normalizes）得到单位长度的描述。
Magic
Superpoint的loss也分为特征点和特征描述子。
Magic
特征点的loss用的是全卷积交叉熵。
Magic
描述子部分则是用点之间的匹配情况来作为loss。
Magic
Magic
最后作者的实验也验证了Superpoint在特征点检测和描述上的优势，其中描述子的准确性是用匹配的精度来衡量的。
Magic

Conclusion

Superpoint是作者Daniel DeTone一系列工作的总结。展现出神经网络对于特征点提取的强大能力，以及用另一个网络检测的结果作为监督信息的一种自监督的训练方式。

Reference

[1] D. DeTone, 2018, “Superpoint: Self-supervised interest point detection and description,” CVPR.
[2] D. DeTone, “Toward Geometric Deep SLAM,” pp. 1–14, Jul. 2017.
[3] D. DeTone, T. Malisiewicz, A. R. A. P. A. 1606.03798, 2016, “Deep image homography estimation,” arxiv.org