Abstract
图像匹配是 3D 视觉中所有性能最佳算法和pipeline的核心组件。 然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何结构有内在联系,但它通常被视为一个 2D 问题。因为匹配的目标是建立 2D 像素字段之间的对应关系,但这是一个具有潜在危险的选择。 在这项工作中,我们换一种视角,使用 DUSt3R(一种基于 Transformers 的最新且强大的 3D 重建框架)将匹配作为 3D 任务。
该方法基于点图回归,在匹配具有极端视点变化的视图方面显示出令人印象深刻的鲁棒性,但精度有限。 我们的目标是提高这种方法的匹配能力,同时保持其稳健性。首先, 我们建议用一个新的神经网络头来增强 DUSt3R 网络,该头输出密集的局部特征,并用额外的匹配损失进行训练。 进一步,我们解决了密集匹配的二次复杂度问题,如果不仔细处理,下游应用程序的速度会变得非常慢。 我们引入了一种快速相互匹配方案,该方案不仅可以将匹配速度提高几个数量级,而且还具有理论保证。大量实验表明,我们的方法在多个匹配任务上显着优于现有技术。 特别是,在极具挑战性的无地图定位数据集上,它的 VCRE AUC 比最好的已发布方法高出 30%(绝对改进)。
1.Introduction-我们要解决什么问题?如何解决?
能够在同一场景的不同图像之间建立像素之间的对应关系(称为图像匹配),构成了所有 3D 视觉应用的核心组件,spanning mapping [14,61]、local-ization [41,72], navigation [15], photogrammetry摄影测量 [34,64] and autonomous robotics in general一般自主机器人技术 [63,87],例如,最先进的视觉定位方法绝大多数依赖于离线映射阶段的图像匹配,例如 使用 COLMAP [75],以及在线本地化步骤,通常使用 PnP [30]。在本文中,我们专注于这一核心任务,目标是在给定两个图像的情况下生成一个成对对应列表,表示为匹配。 特别是,我们寻求输出高度准确和密集的匹配,这些匹配对视点和照明变化具有鲁棒性,因为这些最终是现实世界应用的限制因素[36]。
传统方法是基于局部的方法,实际上,全局信息也很关键
在过去,传统的匹配方法是分三步进行的,首先提取稀疏和可重复的关键点,然后用局部不变的特征来描述它们,最后通过比较关键点在特征空间中的距离来配对离散的关键点集。这条管道有几个优点:关键点检测器在低到中等光照和视点变化下都是精确的,关键点的稀疏性使问题在计算上很容易处理,无论何时在类似条件下查看图像,都能在毫秒内实现非常精确的匹配。这解释了SIFT[52]在COLMAP[75]这样的3D重建管道中的成功和持久性。
但是,基于关键点的方法通过减少对关键点包问题的匹配,丢弃了对应任务的全局几何上下文。 这使得它们在重复模式或低纹理区域的情况下特别容易出错,这实际上对于局部描述符来说是不适定的。 解决这个问题的一种方法是在配对步骤中引入全局优化策略,通常利用一些学习到的匹配先验知识,SuperGlue 和类似的方法成功实现了 [51,72]。 然而,如果关键点及其描述符尚未编码足够的信息,那么在匹配期间利用全局上下文可能为时已晚。 因此,另一个方向是考虑密集整体匹配,即完全避免关键点,并一次匹配整个图像。 最近随着cross-attention的出现,这成为可能[96]。 这样的方法,如 LoFTR [82],将图像视为一个整体,并且生成的对应集是密集的,并且对于重复模式和低纹理区域更稳健 [43,68,69,82]。
匹配任务的制定本质上是一个 3D 问题,但是现有很多方法仍然没有考虑这一点,所以我们从3D角度来重新考虑这个问题
尽管如此,即使像 LoFTR [82] 这样表现最好的方法,在无地图定位基准上的 VCRE 精度也相对令人失望,为 34%。 我们认为这是因为到目前为止,几乎所有匹配方法都将匹配视为图像空间中的二维问题。 实际上,匹配任务的制定本质上是一个 3D 问题:对应的像素是观察相同 3D 点的像素。 事实上,2D 像素对应和 3D 空间中的相对相机姿态是同一枚硬币的两个面,因为它们通过对极矩阵直接相关[36]。 目前在 Map-free 基准测试中表现最好的是 DUSt3R [102],这种方法最初是为 3D 重建而不是匹配而设计的,并且匹配只是 3D 重建的副产品,但是这个方法在匹配问题中具有很大潜力。
在本文中,我们指出,虽然 DUSt3R [102] 确实可以用于匹配,但它相对不精确,尽管对视点变化非常鲁棒。 为了弥补这个缺陷,我们建议附加第二个头来回归密集的局部特征图,并使用 InfoNCE 损失对其进行训练。 由此产生的架构称为 MASt3R(“匹配和立体 3D 重建”),在多个基准测试中均优于 DUSt3R。 为了获得像素精确的匹配,我们提出了一种从粗到细的匹配方案,在此方案中在多个尺度上执行匹配。 每个匹配步骤都涉及从密集特征图中提取相互匹配,这可能与直觉相反,这比计算密集特征图本身要耗时得多。 我们提出的解决方案是一种更快的算法,用于查找相互匹配,速度几乎快两个数量级,同时提高了姿态估计质量。 总而言之,我们提出了三个主要贡献。 首先,我们提出 MASt3R,这是一种基于最近发布的 DUSt3R 框架构建的 3D 感知匹配方法。 它输出局部特征图,可实现高度准确且极其稳健的匹配。 其次,我们提出了一种与快速匹配算法相关的从粗到细的匹配方案,能够处理高分辨率图像。 第三,MASt3R 在几个绝对和相对姿势定位基准上显着优于最先进的技术。