升级到3D多个SOTA!TP3M:图像关键点配准新方法(ICRA'24)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

论文作者 | Liming Han

编辑 | 3D视觉之心

写在前面

在存在大视角变化、光照变化或低纹理等场景的图像匹配仍具有挑战性。TP3M提出了一种基于Transformer的伪3D图像匹配方法。该方法通过参考图像的辅助,将源图像中提取的2D特征升级为3D特征,并通过从粗到细的3D匹配与从目标图像中提取的2D特征进行匹配。发现,通过引入参考图像,源图像的精细点被筛选出来,并且它们的特征描述符从2D进一步丰富到3D,从而提高了与目标图像的匹配性能。在多个数据集上的实验结果表明,所提出的方法在单应性估计、姿态估计和视觉定位等任务中,特别是在具有挑战性的场景中,均达到了最先进的性能。

当前领域背景

图像匹配作为计算机视觉中的一项基本任务,旨在找到场景中两个或多个视图之间的对应点。例如,它是SfM、同时定位与地图构建(SLAM)和视觉定位的重要模块。基于检测器的图像匹配方法常常因为光照、纹理、视角、遮挡、模糊等变化,而无法在具有挑战性的现实图像对中获得鲁棒的匹配。无检测器的图像匹配方法,如LoFTR 和MatchFormer,即使从纹理较少的图像中提取特征,也取得了最先进的结果。不过,对于上述两种方法来说,提取鲁棒的特征对于正确的图像匹配都很重要,但仅从2D图像中提取特征往往具有挑战性。然而,伪激光雷达证明深度模型可以从多个2D图像中学习3D信息。而且,最近,视觉transformer(ViT)在图像匹配任务和点云配准任务中都取得了良好的性能。

733f30ef895c4c569c88670703a77de4.png

受到伪激光雷达和ViT的启发,这里尝试通过分别将2D特征和2D匹配扩展到3D特征和3D匹配来改进图像匹配,这一过程利用了ViT。与伪激光雷达不同,参考图像的引入旨在促进从源图像中提取3D特征,而不是以类似于源图像的方式重建深度或3D地图。通常,参考图像可能是源图像的不同视图,并且在各种任务中都是可用的。在这里,对于所提出的方法,将其命名为伪3D。此外,基于2D匹配,这里设计了从粗到细的3D匹配来找到源图像的3D特征与目标图像的2D特征之间的匹配。特征提取和特征匹配都是基于ViT构建的,这得益于ViT的上述优势。如图1所示,当存在强烈的光照变化和较大的视角变化时,TP3M获得了大量正确的匹配,而MatchFormer则得到了许多不匹配的匹配项。

总结来说,TP3M的贡献包括:

(1) TP3M是一个端到端的网络。与纯2D特征提取和匹配方法相比,方法通过参考图像的辅助,将特征细化和丰富到3D,从而提高了匹配性能。实验结果表明,它在多个数据集上的相对姿态估计和视觉定位任务中达到了最先进的性能。

(2) 设计了一种由2D边缘特征检测和3D特征融合组成的伪3D特征提取方法。它借助参考图像提取源图像的精细特征,这些特征包含具有边缘感知注意力的半密集和精确特征、场景的几何形状和描述信息。实验结果证明了这些特征在具有挑战性的场景中是鲁棒的。

(3) 提出了一种从粗到细的3D匹配方法,该方法结合了基于2D边缘特征的粗匹配和基于3D特征的细匹配。粗匹配和细匹配模块都是基于ViT构建的,其实验结果证明了其有效性。

TP3M方法介绍

如图2所示,给定由源图像和目标图像组成的具有挑战性的图像对,TP3M通过以下方式估计鲁棒且准确的匹配。首先,引入一个与视角相近的参考图像作为先决条件。然后,通过transformer从这三张图像中分别提取2D边缘特征。接着,通过另一个transformer计算源图像和参考图像之间的2D匹配,并将源图像的2D边缘特征融合以构建源图像的3D特征。最后,根据它们之间的2D匹配、源图像的3D特征和目标图像的2D特征,通过第三个transformer计算源图像和目标图像之间的3D匹配。

7d2b33ae21c68c017c02bc68502880a9.png

1)2D边缘特征检测

边缘特征包含图像的稳定纹理和几何信息。考虑到多尺度特征融合可以有效地提取边缘和描述符,这里使用一个3层的网络来提取金字塔特征,如图3所示。通常,ViT中的位置嵌入方法无法直接获得低级特征信息,这限制了局部特征匹配。在这里,在MatchFormer的位置块嵌入(Positional Patch Embedding,PE)的基础上改进了边缘特征,以解决这个问题。在MatchFormer中,位置PE通过增加深度卷积来增强块的位置信息并提取更密集的特征,之后通常使用Transformer中的自注意力机制进行图像本身的特征提取。然而,MatchFormer检测到的这些均匀分布的密集特征缺乏重要性判断。与MatchFormer不同,在位置PE和自注意力之后,使用了EDTER中提出的双向最大-最小池化层(BiMLA)来计算特征点的梯度。在提出的方法中,BiMLA应用于金字塔的前两个尺度,而不是分别进行全局和局部处理。因此,BiMLA只有3层,更加轻量级。

1530cd516b49168046d11cc45f5a33e8.png

2)2D Feature匹配

在提取了图像的多尺度边缘特征后,Transformer框架中的交叉注意力被用来逐层处理局部特征匹配。具体来说,对于和,即对应于图像和的金字塔顶层特征,我们计算它们的交叉注意力,并得到置信度矩阵P3。遵循LoFTR的做法,选择置信度高于阈值θ3的匹配,并进一步应用相互最近邻(MNN)准则,该准则过滤掉可能的异常粗匹配。当第三层的匹配数量高于给定阈值N3时,我们使用特征和计算第二层的置信度矩阵P2。类似地,如果第二层的匹配数量也高于阈值N2,计算与原始图像特征相对应的置信度矩阵。收集所有匹配项产生最终的2D特征匹配结果,一旦某一层的匹配数量低于阈值,该层的2D特征匹配就会停止并失败。通常,有两种失败情况:1) 和之间的场景重叠较小,因此获得的匹配项很少;2) 场景重叠足够大,但在大视角、光照变化和缺乏纹理方面存在很大挑战。通常,在相似条件下,和之间会产生大量匹配。但在具有挑战性的场景中,和之间产生的匹配项较少。考虑到这种特征匹配过程仅处理2D特征,也简单称其为2D-2D匹配。

3)伪3D特征提取

受到PETR 、VPFusion 以及使用Transformer进行多视角3D重建的启发,我们捕获了3D结构感知的上下文和像素对齐的图像特征。在上述在和之间进行2D特征匹配后,获得了位置特征,这些特征表示图像特征的空间关系。遵循PETR的做法,使用一个网络来转换位置特征。不同的是,为了使3D位置特征的维度与2D特征的维度一致,移除了PETR网络末尾的全连接(FC)层。然后通过加法运算符将转换后的3D位置特征与相应的2D特征融合,得到融合特征。因此,既包含了图像的2D描述信息,也包含了其3D空间几何信息。

4)伪3D匹配

对于具有大光线或视角变化的挑战性场景,2D特征匹配通常只能得到很少的匹配项,甚至一些错配。为了获得更好的匹配结果,我们提出了一种由两步组成的从粗到细的匹配方案:2D特征匹配作为粗匹配,3D特征匹配作为细匹配。受到BEV方法的启发,这些方法使用2D图像特征作为K、V,3D特征作为Q。将一个交叉注意力层引入3D特征匹配中,其中类似于图像引导。置信度矩阵衡量2D和3D特征的相似性。由于粗匹配的信息,细匹配更容易收敛并获得最优解。根据几何特征的连续性,设置了滑动窗口大小。当窗口内连续点的概率足够大时,这些特征成功匹配。

实际上,粗匹配是通过图像像素的统计和分布信息的互相关计算得出的。当光线或视角变化时,图像的像素会发生很大变化,因此粗匹配只能在少数明显特征之间建立正确的匹配。不同的是,额外引入了位置信息来形成包含几何信息以及图像统计信息的3D特征。因此,即使图像像素发生很大变化,由于几何特征的不变性,也能获得更好的结果。此外,对于低纹理场景,由于使用了边缘感知特征,也在图像的边缘点建立了更多的匹配项。考虑到这种特征匹配过程同时处理了2D特征和3D特征,我们也简单地称其为2D-3D匹配。

5)监督与训练

在TP3M中,2D边缘特征检测网络是单独训练的,而2D匹配、3D特征提取和3D匹配网络是一起训练的。对于后者,损失包括2D特征匹配损失L2D−2D、3D特征匹配损失L2D−3D和3D特征损失L3D。

071337f6ca7af990a2d033598f6de303.png 6613f25dc50fb6223428ce64c253c840.png 6bf74238b6b9c549d6c79447ed8b8960.png

实验结果对比

1)Homography Estimation

在具有显著光照变化和较大视角变化的HPatches基准上评估了匹配结果对计算单应性矩阵的影响。这里使用RANSAC方法估计单应性,并将其与真实值进行比较。分别在1、3和5像素的阈值下报告累积曲线下的面积(AUC)。对所有基线使用了原始实现中的默认超参数。

35a1ab47786f60c88c8b52f5c5705a87.png

如表I所示,TP3M在单应性实验中优于现有基线。对于MatchFormer,虽然在某些场景下建立了许多匹配,但在AUC方面并未观察到显著改善。TP3M在具有大视角和光照变化的场景中获得了比MatchFormer更多的正确匹配,并在HPatches上与SuperGlue+SuperPoint相比实现了最佳性能。这归因于其稳健的特征,如角和边缘。

2)Indoor Pose Estimation

室内姿态估计非常具有挑战性,因为存在低纹理、高自相似性和复杂的空间结构。这里利用具有挑战性的室内数据集ScanNet来展示TP3M是否能够从图像中学习3D特征以克服这些挑战。与SuperGlue一样,我们报告了姿态误差AUC在(5°,10°,20°)阈值下的结果,其中姿态误差是旋转和平移中角误差的最大值。通过RANSAC方法和匹配点计算基本矩阵,然后得到相对姿态并使用极线距离来计算匹配结果的准确性P。如表II所示,报告了姿态误差AUC的百分比和匹配精度(P)在5×10−4的阈值下。

与其他方法相比,TP3M取得了最佳性能。它从源图像和参考图像中提取相应的3D特征,即使在具有挑战性的室内场景中,匹配点的数量也足够多且精度高。首先,3D特征包含了边缘信息,提高了对变化的鲁棒性。其次,对于室内复杂的空间结构和重复的相似性,3D特征能够很好地关注全局匹配并提高匹配精度。

3)Outdoor Pose Estimation

由于室外数据中光照和季节变化的影响,图像匹配极具挑战性。选择室外数据集MegaDepth来与基线评估我们的方法,并采用与室内姿态估计任务相同的姿态误差AUC指标,匹配精度(P)在1×10−4的阈值下报告。

对于室外数据集,由于剧烈的光照变化,场景的外观在局部区域存在显著差异,这导致基于检测器的方法的特征匹配成功率严重下降。SuperGlue+SuperPoint无法处理许多图像对。而无检测器的方法获得了更多的匹配点,并且在室外挑战性场景中,正确的匹配点出现在一个区域的集中分布中。在其他区域则存在一些错误的匹配,匹配点数量的增加并没有助于提高姿态的准确性。

我们还发现,在MegaDepth数据集上,MatchFormer方法在样本图像的右下角存在一些错误的匹配,而TP3M方法中的准确匹配分布在一个更广泛的范围内。与其他方法相比,TP3M的边缘感知特征相对较少受到光照的影响,特别是3D特征可以利用全局几何匹配来抑制局部错误匹配,因此TP3M在室外评估中表现良好,如表III所示。

1de16d1590413fddbbc7228ea528ef9c.png

4)视觉定位

鲁棒的图像匹配对视觉定位非常有帮助。因此,我们在Aachen Day-Night数据集和InLoc数据集上评估了我们的方法。使用包括LoFTR、MatchFormer、SuperGlue+SuperPoint、ASpanFormer和我们的方法在内的各种特征提取和匹配方法,通过SfM构建场景的3D模型。基于该模型,在Hloc中通过2D-3D匹配计算查询图像的绝对姿态。最后,将查询的姿态与真实值进行比较。

表IV和表V分别展示了在Aachen Day-Night室外数据集和InLoc室内数据集上的视觉定位评估结果。在这里,MatchFormer和LoFTR被用作特征匹配模块,与定位流程HLoc一起完成视觉定位任务。结果显示,在使用多种图像特征时,TP3M在提高定位精度方面表现更好。尽管MatchFormer在弱纹理区域提取了许多特征以建立大量匹配(如表IV所示),但与SuperGlue+SuperPoint的准确率相比,MatchFormer的准确率并没有显著提高。MatchFormer提取的特征只能在每对图像中进行匹配,并且它们没有与更多图像相关联。3D模型中特征的数量和描述信息是实现准确2D-3D匹配的关键。当使用LoFTR和MatchFormer通过HLoc建立3D模型时,由于缺乏数据关联,很难捕获场景中足够的关键几何特征和描述信息。不同的是,TP3M的边缘感知特征巧妙地建立了多视图特征关联,因此TP3M的3D模型包含更多的几何信息,并预测了更多的正确匹配。

b1c44ac0ee4a5743f4ae32b0acd600ec.png 538a2120e5ad92c80c5eb24e472e736e.png

参考

[1] TP3M: Transformer-based Pseudo 3D Image Matching with Reference Image.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3d767d4a0a00d4313a0c7bc051425a8e.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

be63cafa2e91cd7d4583637bb22bb5f2.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

ba711a949f3b4455c7ec669acae14d20.jpeg

④【自动驾驶之心】全平台矩阵

85a71a676ff5209ffbe3b593b5ff96d2.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值