内容来自将门计算机视觉社群;作者:边佳旺
本文为新栏目——将门好声音第9期。
作者是来自将门计算机视觉社群群友、阿德莱德大学的在读博士边佳旺,他刚参加完上周在英国举办的BMVC,就马不停蹄地赶来分享新鲜出炉的研究工作,掌上鼓励 。
如果你也想与广大群友分享自己的研究工作、文章观点、出坑经验,点击“阅读原文”填写申请表单!只要内容合适,我"门"送你头条出道!
边佳旺,阿德莱德大学博士生在读。导师为Ian Reid和沈春华教授。研究方向包括图像匹配,深度学习,以及Visual SLAM。个人主页:https://jwbian.net
- 项目主页:
- Github:
- 论文链接:
图像特征匹配问题涉及Detector, Descriptor, Matching, 和RANSAC等相关算法。当前研究虽然对各类算法都有所评测,但是缺乏对整体匹配效果的分析,而后者才是高层视觉应用(如Visual SLAM或Structure-from-Motion)更关心的。
本文对整个匹配系统进行评估分析,通过控制变量法分析每个成份对系统性能的影响。实验结果揭示了最新算法与经典算法在多个层面上的性能对比。然后根据实验结果设计出几个高性能的匹配系统,这些新提出的方法在公开数据集上远超传统算法。
一、核心贡献
这篇文章提出对整个特征匹配系统进行评估,而不是只针对某个组成部分(比如特征)。这有利于设计更具实用性的匹配系统,并将其使用到更高层应用中(如三维重建)。
文章通过控制变量法分析了最新以及经典的各类匹配算法。这种系统性的评估能够反映哪类算法最能影响整体性能,以及在这类算法中哪个具体方法最能影响整体性能。
文章根据实验结果设计了几个高性能的特征匹配系统和一个通用的RANSAC算法。这些新提出的方法性能在公开数据集上远超传统算法。
二、实验设计
实验评测的对象包括四类算法:Detector, Descriptor, False-match removal, 和RANSAC。对于每类算法,文章选择几个经典的以及最新的方法进行评测。比如在特征这一类中选择SIFT和最新的deep descriptors.
实验在四个公开数据集上进行。其中包括两个Visual SLAM数据集TUM和KITTI,和另外两个Structure-from-Motion数据集Tanks and Temples和Community Photo Collection。注意 SLAM 数据集主要包含视频连续帧之间的匹配,而SfM数据集主要包含wide-baseline匹配。数据集信息见Figure 2与Table 1。
文章在每个数据集上随机抽取1000个image pair进行实验。作者通过fundamentalmatrix (FM) estimation来判断一对图像匹配是否正确。也就是说用匹配系统估计出的FM与GT做比较,误差小于一定阈值的认为是正确的匹配。这样做是因为只有好的匹配才能输出好的FM ,所以好的FM就代表了高质量的匹配。文章以最终的recall(正确率)作为指标评测匹配性能。另外也分析了匹配精度(正确匹配的比例)以及匹配数量。
为了对比两个FM之间的误差,文章使用张正友提出的方法。算法主要思想如下图所示:首先利用第一个FM随机产生大量符合其几何模型的匹配然后计算这些匹配与第二个FM之间的几何距离。接下来用第二个产生匹配计算与第一个之间的距离。最后将所有匹配到FM的距离的均值作为最终误差。注意因为误差是基于像素的,文中提出将误差除以图像对角线长度以使得在不同大小在图像上进行公平对比。这也能反映出不同数据集的匹配难度。
文章将经典的SIFT+RANSAC+8-point-algorithm系统作为实验的baseline。然后使用最新的算法替换baseline中的相应模块,根据最终性能判断这个所评测的算法对经典框架的贡献。比如使用最新的deep descriptor来替换SIFT 或用最新的RANSAC方案来替换经典的RANSAC。文章通过控制变量来保证同类算法之间的公平对比。也就是说,对于每类算法,系统的其他成份是一样的,所以同类算法之间的对比是公平的。
三、实验结果
首先文章分析了baseline系统在四个数据集上的性能。结果显示CPC最难,TUM次之,接下来是T&T,最后KITTI最容易。
- 对于特征提取算法:实验结果证明了RootSIFT-PCA,HesAffNet,和HardNet++等特征的优越性。
- 对于误匹配剔除算法:实验证明了使用GMS [1]和LPM等算法在进行RANSAC之间剔除误匹配能极大提升最终性能。其中GMS在性能上稍高于LPM, 在时间上明显更快。
- 对于RANSAC一类算法:实验证明了LMedS在初始匹配精度较高的情况下能提供最好的模型估计效果。有趣的是,实验发现最新的Graph-Cut RANSAC [2] 虽然不能提供稳定精确的模型估计,但是可以有效地剔除误匹配并且尽可能保留最大的匹配数量。
*更多具体结果及细节请参考文章。
四、提出的方法
首先文章提出使用实验中性能最优的几种特征提供初始匹配,然后使用GMS剔除误匹配,最后使用LMedS在高质量的匹配上进行FM估计。
受到实验结论3和4的启发,文章提出了一个新的Coarse-to-FineRANSAC算法:先使用Graph-Cut RANSAC剔除误匹配,然后使用LMedS在保留下来的高质量匹配上面进行模型估计。这里GC-RSC起到了相当于GMS的作用。然而因为他是通用的RANSAC算法,所以可以generalize到其他模型估计问题上(GMS目前只能用于2D的两张图像间的匹配)。
引用:
[1] JiaWang Bian, Wen-Yan Lin, Yasuyuki Matsushita, Sai-Kit Yeung, Tan Dat Nguyen, and Ming-Ming Cheng. GMS: Grid-based motion statistics for fast, ultra-robust feature correspondence. In CVPR, 2017.
[2] Daniel Barath and Jiri Matas. Graph-Cut RANSAC. In CVPR, 2018.
-The End-
戳右上角【+关注】关注我门↗
如果喜欢,点个【▲赞同】分享给你的小伙伴吧~笔芯❤