【论文笔记】数据驱动的图像匹配与相对pose估计:Grounding Image Matching in 3D with MASt3R

Abstract

        图像匹配是 3D 视觉中所有性能最佳算法和pipeline的核心组件。 然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何结构有内在联系,但它通常被视为一个 2D 问题。因为匹配的目标是建立 2D 像素字段之间的对应关系,但这是一个具有潜在危险的选择。 在这项工作中,我们换一种视角,使用 DUSt3R(一种基于 Transformers 的最新且强大的 3D 重建框架)将匹配作为 3D 任务

         该方法基于点图回归,在匹配具有极端视点变化的视图方面显示出令人印象深刻的鲁棒性,但精度有限。 我们的目标是提高这种方法的匹配能力,同时保持其稳健性。首先, 我们建议用一个新的神经网络头来增强 DUSt3R 网络,该头输出密集的局部特征,并用额外的匹配损失进行训练。 进一步,我们解决了密集匹配的二次复杂度问题,如果不仔细处理,下游应用程序的速度会变得非常慢。 我们引入了一种快速相互匹配方案,该方案不仅可以将匹配速度提高几个数量级,而且还具有理论保证。大量实验表明,我们的方法在多个匹配任务上显着优于现有技术。 特别是,在极具挑战性的无地图定位数据集上,它的 VCRE AUC 比最好的已发布方法高出 30%(绝对改进)。

1.Introduction-我们要解决什么问题?如何解决?

        能够在同一场景的不同图像之间建立像素之间的对应关系(称为图像匹配),构成了所有 3D 视觉应用的核心组件,spanning mapping [14,61]、local-ization [41,72], navigation [15], photogrammetry摄影测量 [34,64] and autonomous robotics in general一般自主机器人技术 [63,87],例如,最先进的视觉定位方法绝大多数依赖于离线映射阶段的图像匹配,例如 使用 COLMAP [75],以及在线本地化步骤,通常使用 PnP [30]。在本文中,我们专注于这一核心任务,目标是在给定两个图像的情况下生成一个成对对应列表,表示为匹配。 特别是,我们寻求输出高度准确和密集的匹配,这些匹配对视点和照明变化具有鲁棒性,因为这些最终是现实世界应用的限制因素[36]。

        传统方法是基于局部的方法,实际上,全局信息也很关键

        在过去,传统的匹配方法是分三步进行的,首先提取稀疏和可重复的关键点,然后用局部不变的特征来描述它们,最后通过比较关键点在特征空间中的距离来配对离散的关键点集。这条管道有几个优点:关键点检测器在低到中等光照和视点变化下都是精确的,关键点的稀疏性使问题在计算上很容易处理,无论何时在类似条件下查看图像,都能在毫秒内实现非常精确的匹配。这解释了SIFT[52]在COLMAP[75]这样的3D重建管道中的成功和持久性。

        但是,基于关键点的方法通过减少对关键点包问题的匹配,丢弃了对应任务的全局几何上下文 这使得它们在重复模式或低纹理区域的情况下特别容易出错,这实际上对于局部描述符来说是不适定的解决这个问题的一种方法是在配对步骤中引入全局优化策略,通常利用一些学习到的匹配先验知识,SuperGlue 和类似的方法成功实现了 [51,72]。 然而,如果关键点及其描述符尚未编码足够的信息,那么在匹配期间利用全局上下文可能为时已晚。 因此,另一个方向是考虑密集整体匹配,即完全避免关键点,并一次匹配整个图像。 最近随着cross-attention的出现,这成为可能[96]。 这样的方法,如 LoFTR [82],将图像视为一个整体,并且生成的对应集是密集的,并且对于重复模式和低纹理区域更稳健 [43,68,69,82]。

匹配任务的制定本质上是一个 3D 问题,但是现有很多方法仍然没有考虑这一点,所以我们从3D角度来重新考虑这个问题

        尽管如此,即使像 LoFTR [82] 这样表现最好的方法,在无地图定位基准上的 VCRE 精度也相对令人失望,为 34%。 我们认为这是因为到目前为止,几乎所有匹配方法都将匹配视为图像空间中的二维问题。 实际上,匹配任务的制定本质上是一个 3D 问题:对应的像素是观察相同 3D 点的像素。 事实上,2D 像素对应和 3D 空间中的相对相机姿态是同一枚硬币的两个面,因为它们通过对极矩阵直接相关[36]。 目前在 Map-free 基准测试中表现最好的是 DUSt3R [102],这种方法最初是为 3D 重建而不是匹配而设计的,并且匹配只是 3D 重建的副产品,但是这个方法在匹配问题中具有很大潜力。

        在本文中,我们指出,虽然 DUSt3R [102] 确实可以用于匹配,但它相对不精确,尽管对视点变化非常鲁棒。 为了弥补这个缺陷,我们建议附加第二个头来回归密集的局部特征图,并使用 InfoNCE 损失对其进行训练。 由此产生的架构称为 MASt3R(“匹配和立体 3D 重建”),在多个基准测试中均优于 DUSt3R。 为了获得像素精确的匹配,我们提出了一种从粗到细的匹配方案,在此方案中在多个尺度上执行匹配。 每个匹配步骤都涉及从密集特征图中提取相互匹配,这可能与直觉相反,这比计算密集特征图本身要耗时得多。 我们提出的解决方案是一种更快的算法,用于查找相互匹配,速度几乎快两个数量级,同时提高了姿态估计质量。 总而言之,我们提出了三个主要贡献。 首先,我们提出 MASt3R,这是一种基于最近发布的 DUSt3R 框架构建的 3D 感知匹配方法。 它输出局部特征图,可实现高度准确且极其稳健的匹配。 其次,我们提出了一种与快速匹配算法相关的从粗到细的匹配方案,能够处理高分辨率图像。 第三,MASt3R 在几个绝对和相对姿势定位基准上显着优于最先进的技术。

2.Relation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值