CVPR‘24开源 | 超强特征点XFeat:速度直追ORB!精度吊打SuperPoint!

CVPR'24开源 | 超强特征点XFeat:速度直追ORB!精度吊打SuperPoint!

0. 这篇文章干了啥?

这篇文章提出了XFeat:一种新颖的卷积神经网络(CNN)架构,使用精心设计的策略进行关键点检测和局部特征提取,以尽量减少计算占用,同时保持鲁棒性和准确性。 XFeat被设计为硬件无关,确保在各种平台上都具有广泛的适用性,但这并不排除在特定硬件配置上优化XFeat的可能性。此外,XFeat适用于基于关键点的稀疏特征匹配和粗特征图的密集匹配。这种多功能性带来了两全其美的效果:基于关键点的方法更适合于基于运动结构(SfM)地图的高效视觉定位,而在纹理较差的场景中,密集特征匹配可能更有效地进行相机姿态估计。与当前可用于图像对应的方法相比,XFeat在匹配精度和计算效率之间显著改善了权衡比,在速度上超过了所有轻量级深度学习局部特征的替代方法,同时在准确性上与SuperPoint和DISK等更大模型相当。

下面一起来阅读一下这项工作~

1. 论文信息

标题:XFeat: Accelerated Features for Lightweight Image Matching

作者:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento

机构:Universidade Federal de Minas Gerais、Universit´e de Bourgogne、Google Research、Universit´e de Lorraine、Microsoft

原文链接:https://arxiv.org/abs/2404.19174

代码链接:https://github.com/verlab/accelerated_features

官方主页:https://www.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24/

2. 摘要

我们介绍了一种轻量级而准确的资源高效视觉对应的架构。我们的方法,被称为XFeat(加速特征),重新审视了卷积神经网络在检测、提取和匹配局部特征方面的基本设计选择。我们的新模型满足了对于适用于资源有限设备的快速和稳健算法的迫切需求。特别是,准确的图像匹配需要足够大的图像分辨率------出于这个原因,我们尽可能地保持分辨率的大小,同时限制网络中通道的数量。此外,我们的模型被设计为在稀疏或半密集级别进行匹配的选择,其中每种级别可能更适合不同的下游应用,比如视觉导航和增强现实。我们的模型是第一个高效提供半密集匹配的模型,利用了一种依赖于粗糙局部描述符的新型匹配细化模块。XFeat是多才多艺且与硬件无关的,以比当前基于深度学习的局部特征更快的速度(最多快5倍)和可比较或更好的准确性,证明了在姿态估计和视觉定位中的效果。我们展示了它在廉价笔记本电脑CPU上实时运行,没有专门的硬件优化。代码和权重在下方提供!

3. 效果展示

在XFeat中,准确性与效率相遇。XFeat在Megadepth-1500数据集上提供了出色的速度和相对姿态估计准确性之间的良好折衷,正如橙色Pareto前沿曲线所证明的那样。其轻量级架构使其能够在无GPU设置和资源受限设备上实时提取特征,而无需硬件特定的优化。在预算友好的笔记本电脑(Intel(R) i5-1135G7 @ 2.40GHz CPU)上,以VGA分辨率进行推断速度。∗表示半密集提取。

1b2805a42e0600ec25dd609d42705f39.png

稀疏(上)和半密集(下)匹配。XFeat 凭借其双重能力,既能执行稀疏匹配,又能执行半密集匹配,为从具有稀疏匹配的视觉定位到具有更密集对应关系的姿态估计和三维重建等广泛应用提供快速特征,这些更密集的对应关系提供了额外的约束和更完整的表示。

954004c28a826151bc1678df67732d67.png

4. 主要贡献

为了减少计算成本,同时保持竞争性的准确性,这项工作提供了三个主要贡献:

(1)一种新颖的轻量级CNN架构,可部署在资源受限的平台上,以及需要高吞吐量或计算效率的下游任务,而无需耗时的硬件特定优化。XFeat可以很容易地替换现有的轻量级手工制作解决方案、昂贵的深度模型和轻量级深度模型在诸如视觉定位和相机姿态估计等下游任务中的应用;

(2)设计了一种简约、可学习的关键点检测分支,快速且适用于小型提取器骨干,在视觉定位、相机姿态估计和单应性注册中显示其有效性;

(3)提出了一种新颖的匹配细化模块,用于从粗糙的半密集匹配中获取像素级偏移。与现有技术相,XFeat除了局部描述符本身外,不需要高分辨率特征,大大减少了计算量。

5. 基本原理是啥?

加速特征提取网络架构。XFeat提取一个关键点热图K,一个紧凑的64-D密集描述符映射F,和一个可靠性热图R。它通过早期下采样和浅层卷积,然后在后续编码器中进行更深的卷积以实现无与伦比的速度。与典型方法相反,它将关键点检测分离成一个独立的分支,使用1×1的卷积在一个8×8的张量块变换图像上进行快速处理。

d36c526096a327b2c1c9ae351b8b3c5c.png

密集匹配设置的匹配细化模块。该模块学习通过仅考虑原始粗糙级别特征中原始空间分辨率的1/8处的最近邻对来预测像素级偏移,从而显着节省内存和计算。

ca13982f0175a9bd73c3c83a5697a481.png

6. 实验结果

在Megadepth-1500上相对摄像机姿态估计任务的指标。XFeat比最快的基于学习的解决方案(ALIKE)快得多(5×),并在几个指标上在稀疏设置下取得了竞争性结果。此外,与DISK∗进行公平比较,考虑相同数量的描述符时,它可以在AUC@20◦、Acc@10◦和MIR上提供最先进的密集匹配配置结果,DISK∗是一个更重的模型。值得一提的是,由于需要对描述符进行插值并在较粗分辨率下预测偏移量,XFeat在更松散的阈值下获得了最先进的结果。

6776d6e9ff2d03ffaa1b04e6eca064c0.png

图5显示了XFeat在现有解决方案上的突出表现示例。与DISK和SuperPoint相比,XFeat还允许使用低维描述符(64-f)进行更高效的匹配。

d7ee1e2940b4d141ae790f4f64151785.png

表2显示了ScanNet-1500室内图像中最具竞争力的方法的AUC值。请注意,没有任何方法被重新训练。DISK和ALIKE显示出对地标数据集的偏见迹象,而XFeat则表现出更好的泛化能力。

1d42a1a5d8c632151140a86015091b79.png

表3显示,XFeat与最准确的描述符相当,强化了关键点和描述符头的稳健性。相反,其他轻量级解决方案如ORB和SiLK的性能在光照和视角分离方面受到严重影响,因为它们在处理最难的图像对中的侵略性视角和光照变化方面能力有限。

3b3296c322200d7a49c14491d0804eb6.png

表4呈现了视觉定位实验的结果。XFeat表现出与领先方法SuperPoint和DISK相似的性能,同时实现了显著的速度优势,至少快9倍,并且具有更紧凑的描述符。这些发现挑战了文献中使用大型和更复杂模型进行下游任务的普遍趋势。相反,它们强调了简单模型的有效性,这些模型不仅匹配准确性,而且还提供了在资源受限系统上高效运行的好处。

99f0d7058527e87e9f7c546bf9707916.png

7. 总结 & 未来工作

这篇文章介绍了XFeat,一种用于加速特征提取的轻量级CNN架构,适用于稀疏和半稠密图像匹配。通过对三种不同任务的实验和消融分析,表明可以在不依赖于先进的低级硬件优化的情况下实现快速准确的图像匹配。这与部署越来越大型和复杂模型的普遍趋势形成对比。XFeat为增强现实和移动机器人领域的下一代应用铺平了道路,其中高效和通用的数据驱动解决方案仍然对实际部署至关重要,特别是在移动应用中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值