点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?
一句话总结:在保持与现有无检测器特征匹配精度相当的前提下,加速50%。
相比预定义关键点检测器,无检测器特征匹配很鲁棒,典型方法就是LoFTR。但是,Transformer架构中计算和内存成本呈二次增长,效率较低。
这篇文章是第一个探索无检测器方法加速的研究,旨在通过令牌剪枝在Transformer架构内部减少语义层面的复杂性,以保留密集匹配的优势。在令牌剪枝的概念基础上,作者介绍了HCPM,这是一种在保留无检测器方法的密集优势的同时分层剪除不必要候选项的方法。HCPM旨在模拟人类行为,优先考虑视觉上重要的特征,如共视区域内的静态建筑和路标,这些特征通常比瞬时的自然元素如树木或天空更重要,对于局部特征匹配而言。HCPM采用分层剪枝过程来选择匹配候选项。在初始阶段,使用自我剪枝来基于从简单而有效的激活机制生成的置信度分数识别前k个候选项,其中k由超参数比率α确定。然后,选定的候选项进入交互剪枝阶段,逐渐聚合信息并消除无关的候选项。这个阶段的特点是多个自我交叉注意力模块,通过交叉注意力机制促进相关特征的提取和整合。此外,作者借鉴了OETR的灵感,使用共视区域监督可微分选择过程,每次迭代的共视区域监督将网络的焦点集中在共视候选项上。为了完全自动化选择过程,提出了在每个自我交叉注意力层之后学习的Gumbel-Softmax掩码。这种方法不需要手动设置阈值就能细化最终的候选集,提高了方法的整体效率和有效性。
下面一起来阅读一下这项工作~
1. 论文信息
标题:HCPM: Hierarchical Candidates Pruning for Efficient Detector-Free Matching
作者:Ying Chen, Yong Liu, Kai Wu, Qiang Nie, Shang Xu, Huifang Ma, Bing Wang, Chengjie Wang
机构:腾讯优图实验室、杜克大学、香港理工大学
原文链接:https://arxiv.org/abs/2403.12543
代码链接:暂未开源
2. 摘要
基于深度学习的图像匹配方法在计算机视觉中起着至关重要的作用,但往往会受到大量的计算需求的影响。为了解决这一挑战,我们提出了HCPM,一种高效且无需检测器的局部特征匹配方法,它采用分层修剪来优化匹配流程。与最近依赖于详尽的粗级候选集进行匹配的无需检测器方法相比,HCPM 选择性地集中在简洁的信息候选集上,从而减少了计算候选集并提高了匹配效率。该方法包括一个自我修剪阶段用于选择可靠的候选集,以及一个交互修剪阶段,用于在粗级别确定相关的补丁。我们的结果表明,HCPM 在速度上明显超过了现有方法,同时保持了较高的准确性。源代码将在发表时提供。
3. 效果展示
HCPM与LoFTR的比较。在HCPM中,层次剪枝阶段包括两个剪枝过程:自然整枝,单独剪枝候选项;交互剪枝,利用交互信息在Transformer架构中逐级确定相关候选项。HCPM保留了与LoFTR相同的准确性,同时减少了大约25 %的推理时间。此外,通过使用FP16精度,实现了高达50 %的推理时间的减少。

4. 主要贡献
(1)介绍了HCPM,一种有效的无检测器匹配方法,它采用了自我剪枝和交互剪枝来减少匹配的冗余和干扰。
(2)提供了一种可微分的选择策略,利用共视信息来监督选择过程。
(3)实验表明,HCPM在几乎减少了50%的计算成本的情况下取得了有竞争力的性能,在许多视觉任务中接近最先进的方法。
5. 具体原理是啥?
HCPM的架构。在获得来自特征编码器模块的粗糙特征图FAc,FBc后,它们被馈送到一个自修剪模块进行静态比例的前k个选择,表示所选特征为FAc topk,FBc topk。随后,FAc topk,FBc topk和掩码被输入到交互修剪块中,其中包括自交叉注意力和可微交互候选选择(DICS)模块。自交叉注意力增强特征,然后通过DICS进行自动选择过程,产生修剪的候选者。经过Nc次迭代,我们获得修剪后的候选特征FAc p和FBc p。最终,修剪后的粗级特征生成匹配矩阵,并与细级特征合作,以回归匹配位置。

所有粗特征在自交叉(SC)注意力模块中的贡献是相等的。分层粗到细修剪模块(HCPM)利用分层修剪技术来简化候选选择,从而通过以分层方式选择信息匹配候选者,提高了效率和有效性。提出的HCPM遵循LoFTR中的主要粗到细方法,主要包括与自修剪和交互修剪相结合的分层修剪策略。

6. 实验结果
根据表1所示,基于检测器的方法通常比无检测器的方法具有更短的运行时间。然而,基于无检测器的方法HCPM,优于所有基于检测器的方法,而且在保持几乎与SuperGlue相同的运行时间的情况下,表现指标更好。尽管与一些其他无检测器的方法相比,HCPM的准确率略低,但速度提升更显著。准确率与速度之间的这种权衡凸显了HCPM的效率,将其定位为单应变换估计任务的竞争性替代方案。

表2表明,基于检测器的方法通常比基于无检测器的方法运行时间更短。然而,在根据现有匹配计算姿态时,基于检测器的方法比无检测器的方法需要更长的时间。使用的RANSAC方法通过选择点并基于内点比率和误差终止迭代来估计姿态。这表明,无检测器的方法产生更高的匹配精度,从而导致更少的迭代。HCPM基于LoFTR,在保持可比较的准确性的同时,显著减少了计算时间。与最先进的LightGlue方法相比,HCPM在几乎相同的运行时间内实现了更好的性能指标。此外,通过利用FP16精度,HCPM实现了更快的处理速度。尽管准确性略有下降,但HCPM在速度上表现出更大的改进,突显了其在室外相对姿态估计任务中的效率和有效性。

表3报告了消融结果。使用自修剪和隐式修剪的完整HCPM方法在性能上与LoFTR和LightGlue相比具有竞争力。进一步通过移除自修剪(a)、交互修剪(b)和用直接交互修剪替换隐式修剪(c)来研究每种修剪策略的影响。结果表明,移除自修剪(a)导致性能略微下降,并且计算时间增加到178.7 ms。类似地,移除交互修剪(b)也导致性能下降,尽管计算时间略微减少到140.7 ms。最后,当用直接交互修剪(c)替换隐式修剪时,性能略微下降,但计算时间进一步减少到122.8 ms。

7. 总结
这篇文章提出了一种创新的方法HCPM,用于解决无检测器方法中准确性和效率之间的权衡问题。HCPM采用分层修剪过程,包括初始的自修剪阶段和交互修剪阶段,这些阶段汇集信息并移除无信息的候选项。通过利用共可见区域监督进行可微选取策略,HCPM增强了匹配描述符的性能并减少了冗余。受分割和检测任务中应用的标记修剪技术的启发,HCPM将这些技术调整为图像匹配任务,保留了无检测器方法的密集优势,同时最小化了计算复杂性。此外,作者提出了Gumbel-Softmax学习掩码来自动化选择过程,提高了方法的整体效率和效果。HCPM方法有望为特征匹配社区提供有价值的见解,并推动有效的局部特征匹配技术的进一步发展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

3D视觉相关硬件
图片 | 说明 | 名称 |
---|---|---|
![]() | 硬件+源码+视频教程 | 精迅V1(科研级))单目/双目3D结构光扫描仪 |
![]() | 硬件+源码+视频教程 | 深迅V13D线结构光三维扫描仪 |
![]() | 硬件+源码+视频教程 | 御风250无人机(基于PX4) |
![]() | 配套标定源码 | 高精度标定板(玻璃or大理石) |
添加小助理:cv3d007或者QYong2014 咨询更多 |
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~