NeurIPS 2019 作者:NAVER LABSEurope
本篇文章提出了同时完成稀疏特征检测和特征描述(detect-and-descibe),作者认为显著的区域不一定具有判别性,因此会影响描述的性能,所以为描述子添加增加了一个置信度。输出稠密的描述子+可靠性(匹配)和可重复性(检测)的置信度,得到的匹配是两个置信度的最大化。---无监督学习
Background
传统的特征检测和描述是先检测特征点再完成局部描述符,人工设计的方法受限于先验知识,深度学习的方法可以自动找到适合的表示方法,但目前的许多方法都只关注关键点检测的重复性
度量学习的方法在检测到的可重复性的关键点上训练得到描述子,但难以准确匹配
![](https://img-blog.csdnimg.cn/img_convert/2bdc720b232bb9de3d6741edfbae6c97.png)
目前特征描述常用的方法是度量学习,使用the triplet loss或者a contrastive loss
特征检测传统方法依赖先验,深度学习方法有的对关键点的显著图峰值进行激励,有的通过自然图像变换来保留
检测+描述:LIFT、Superpoint、D2-NET(定义特征点为局部最大值)
Motivation
显著的区域不一定具有判别性,比如棋盘
Idea
关键点应该同时具备可重复性和可靠性(这两个性质互补,应该独立预测)
Method
![](https://img-blog.csdnimg.cn/img_convert/be5339c85ed8a373f3d904f8c50477bf.png)
通过全卷积神经网络得到
H×W×128的特征图,经过L2归一化得到描述子;经过平方运算+1×1的卷积+softmax得到可靠性和可重复性的置信度
可重复性:
![](https://img-blog.csdnimg.cn/img_convert/3c11e5eae2e9f3227b873f6b0324e838.png)
核心思想是最大化S和S'u的相似度(cos),上图展示的过程没有考虑遮挡、边界影响和warp伪影。因此重新定义为每个块的平均相似度,其中P是一系列有重叠的N×N的块
![](https://img-blog.csdnimg.cn/img_convert/b079e1e035b4bcf52e2b6ba328de0ec3.png)
上述损失在S和S'u取常数时可以极小化为定的常数,为避免该情况,引入了第二个损失最大化局部的峰值
![](https://img-blog.csdnimg.cn/img_convert/9cc8d46af4095b37d30d48ad4496cee4.png)
最终损失为两个的加权和
![](https://img-blog.csdnimg.cn/img_convert/14f60b092be675ada64d043e9589d865.png)
可靠性:
目的是使网络在高置信度和高判别性之间选择,将描述子匹配问题看作是排序优化问题。直接优化每个块的AP(AP比triplet loss更具全局性排序)
图A的descriptors和同一批其余图片的所有descriptors计算距离,得到距离矩阵(每一行则是A图与其余图B中所有块的距离),计算AP
训练目标是最大化每个查询的AP,在整个批次中平均
![](https://img-blog.csdnimg.cn/img_convert/4a52c42f86629736f37136d6e7f73784.png)
本文认为一样的区域或者1D的图形不具有匹配的判别性,提出了一个新的损失稀疏化网络,避免浪费资源计算不必要的区域。其中K是一个阈值,如果AP小于该阈值则认为R=0
![](https://img-blog.csdnimg.cn/img_convert/458e04900aa9ba0712491f5f2550cf4a.png)
最终保留SR乘积最大的K个描述子
Experiment
![](https://img-blog.csdnimg.cn/img_convert/4813ef5c90cd8b4655b6d634d0405ed4.png)
![](https://img-blog.csdnimg.cn/img_convert/4121fa6e229f5a93c9a3ead4ceab8647.png)
![](https://img-blog.csdnimg.cn/img_convert/7d7c7eb1d6c71e53d6e9007b020ed65a.png)