【读点论文】Segment Anything Model is a Good Teacher for Local Feature Learning通过SAM大模型学习局部特征匹配

Segment Anything Model is a Good Teacher for Local Feature Learning

Abstract

  • 局部特征检测和描述在许多计算机视觉任务中发挥着重要作用,这些任务旨在检测和描述“任何场景”和“任何下游任务”中的关键点。数据驱动的局部特征学习方法需要依赖像素级的对应关系进行训练,而忽略了人类描述图像像素所依赖的语义信息。然而,使用传统的语义分割模型来增强通用场景关键点检测和描述是不可行的,因为它们只能识别有限数量的粗粒度对象类。在本文中,我们提出了SAMFeat来引入SAM(分段任意模型),这是一个在1100万张图像上训练的基础模型,作为指导局部特征学习的教师,从而在有限的数据集上激发更高的性能。
  • 为此,首先,我们构建了像素语义关系提取(PSRD)的辅助任务,该任务将SAM编码器学习到的具有不可知类别语义信息的特征关系提取到局部特征学习网络中,以使用语义判别来改进局部特征描述。其次,我们开发了一种称为基于语义分组的弱监督对比学习(WSC)的技术,该技术利用从SAM导出的语义分组作为弱监督信号,来优化局部描述符的度量空间。第三,我们设计了一个边缘注意力引导(EAG),通过促使网络更多地关注SAM引导的边缘区域,进一步提高局部特征检测和描述的准确性。SAMFeat在各种任务上的表现,如HPatches上的图像匹配和Aachen Day Night上的 long-term 视觉定位,展示了其优于以往局部特征的优势。发布代码位于https://github.com/vignywang/SAMFeat.
  • SAMFeat通过SAM大模型学习局部特征匹配,局部特征检测和描述是计算机视觉的基本任务,广泛应用于图像匹配、运动结构(SfM)、同时定位和地图构建(SLAM)、视觉定位和图像检索等任务中。传统的方法,如SIFT和ORB基于手工制定的启发式规则,无法处理剧烈的光照和视角变化。

Introduction

  • 局部特征检测和描述是计算机视觉的一项基本任务,广泛用于图像匹配、运动结构(SfM)、同时定位和映射(SLAM)、视觉定位和图像检索任务。基于SIFT和ORB的手工启发式等传统方案无法应对剧烈的照明和视点变化。在深度学习的浪潮下,数据驱动的局部特征学习方法最近取得了优异的性能。这些方法需要基于图像对之间完全准确和密集的 GT 对应来训练局部描述符,忽略人类用来描述图像像素的语义信息。一个简单的想法是使用传统的语义分割模型来促进关键点的检测和描述。然而,这在实践中是不可行的,因为它们只能识别有限数量的粗粒度对象类别,并且不能胜任通用场景中的关键点检测和描述。

  • 最近,基础模型[On the opportunities and risks of foundation models]彻底改变了人工智能领域。这些模型经过数十亿个例子的训练,在各种下游任务中表现出强大的零样本泛化能力。在这项研究中,我们主张将SAM(一种能够分割“任何场景”中的“任何东西”的基础模型)集成到局部特征学习领域。这种协同作用增强了鲁棒性,并丰富了可用于局部特征学习的监督信号,包括高级类别不可知语义和详细的低级边缘结构信息。

  • 近年来,一些工作试图将图像的像素级语义(即语义分割)引入基于局部特征学习的视觉定位中。一些方法利用语义信息来过滤关键点并优化匹配,而其他工作则利用语义信息来指导关键点检测的学习,并通过使用特征级蒸馏来提高局部描述符在特定视觉定位设置中的性能。然而,这些基于视觉定位流水线设计的方法很难推广到常见的特征匹配任务中,如下图所示。一方面,语义分割只能将语义分配给少数类别(如汽车、街道、人),这很难推广到通用场景。另一方面,用于语义分割的语义信息是粗粒度的,例如,车轮和车窗的像素被赋予与汽车相同的标签。这不利于挖掘局部特征的独特判别特性。

    • 在这里插入图片描述

    • (a):分段任意模型与常用语义分段模型的区别。(b) :拟建SAMFeat的示意图。

  • 最近的SAM是一个在1100万张图像上训练的视觉基础模型,可以根据提示输入分割任何对象。与语义分割模型相比,SAM具有三个独特的特性,可用于促进局部特征学习。i) SAM是在大量数据上训练的,因此可以分割任何对象,并可以适应任何场景,而不仅仅局限于街景。ii)SAM可以获得细粒度的组件级语义分割结果,从而允许对像素之间的语义关系进行更准确的建模。此外,SAM可以导出细粒度的类别不可知语义掩码,这些掩码可以用作像素的语义分组,以指导局部特征学习。iii)SAM可以检测更详细的边缘,而边缘区域往往更倾向于临界点,并包含更多的区别信息。

  • 在我们的SAMFeat中,我们基于SAM的这三个特性提出了三种特殊的策略来提高局部特征学习的性能。首先,我们构造了一个像素语义关系蒸馏(PSRD)辅助任务,用于将SAM编码器学习到的类别不可知的像素语义关系提取到局部特征学习网络中,从而使用语义判别来改进局部特征描述。其次,我们开发了一种名为基于语义分组的弱监督对比学习(WSC)的技术,以使用SAM派生的语义分组作为弱监督信号来优化局部描述符的度量空间。第三,我们设计了一种边缘注意力引导(EAG),通过促使网络更加关注边缘区域,进一步提高局部特征的定位精度和描述能力。由于SAM模型仅在训练期间用作教师,因此我们的SAMFeat可以在推理期间有效地提取局部特征,而不会增加SAM网络的计算消耗。

Related Work

  • Local Features and Beyond. 早期手工制作的局部特征已经研究了几十年,并在[ A performance evaluation of local descriptors]中进行了全面评估。在深度学习浪潮中,基于对、描述符以及端到端检测和描述的不同关注,已经提出了许多数据驱动的可学习局部特征来改进检测器。除了局部特征之外,最近还开发了一些可学习的高级匹配器来取代传统的最近邻匹配器(NN),以获得更准确的匹配结果。SuperGlue和LightGlue等稀疏匹配器将现成的局部特征作为输入,使用GNN或Transformer来预测匹配,然而,它们的时间复杂度随关键点数量的二次方变化。密集匹配器基于 the correlation volume 计算端到端像素之间的对应关系,同时它们比稀疏匹配器消耗更多的内存和空间。我们的工作重点是提高端到端广义局部特征学习方法的效率和性能。我们的目标是实现与高级匹配器相当的性能,同时在各种下游任务中仅使用最近邻匹配。这在要求高运营效率的资源受限场景中尤为重要

  • Segment Anything Model. 分段任意模型(SAM)在扩展分段任务的范围方面取得了显著进展,从而显著促进了计算机视觉基本模型的发展。SAM结合了NLP领域的即时学习技术,以灵活地实现模型构建,并通过交互式注释构建图像引擎,在实例分析、边缘检测、对象建议和文本到掩码等技术中表现更好。SAM专门设计用于解决在复杂视觉场景中分割广泛对象的挑战。与专注于分割特定对象类的传统方法不同,SAM的主要目标是分割任何内容,为各种具有挑战性的场景提供通用的解决方案。许多工作现在建立在SAM的基础上,用于下游视觉任务,如医学成像、视频、数据注释等。与他们不同,我们主张将SAM应用于局部特征学习。据我们所知,我们的工作是第一个将SAM应用于分割独立视觉任务。由于局部特征学习对操作效率要求很高,因此将SAM直接纳入管道是不可行的,因此我们将SAM视为引导局部特征学习的老师,因此仅在训练阶段使用SAM。

  • Semantics in Local Feature Learning. 在我们的工作之前,语义信息仅被纳入视觉定位任务中,作为在处理严重的图像变化时减轻低级别局部特征带来的挑战的一种手段。一些早期工作将语义分割纳入视觉定位管道,用于过滤匹配点、改进2D-3D匹配和估计相机位置。最近的一些工作试图将语义引入局部特征学习,以提高视觉定位的性能。基于高级语义对光度和几何不敏感的假设,它们通过从语义分割网络中提取特征或输出来增强局部描述符对语义类别的鲁棒性。然而,语义分割任务只能分割某些特定类别(例如,与视觉定位相关的街道场景),这阻止了这种方法推广到开放世界场景,并使其仅在视觉定位任务中有效。相反,我们引入了SAM来将任何场景分割为提取对象,并提出了类别不可知的像素语义关系提取(PSRD)方案,以使局部特征学习能够在视觉定位之外的场景中享受语义信息。此外,我们还提出了基于语义分组的弱监督对比学习(WSC)和边缘注意引导(EAG),以基于SAM的特殊特性进一步激励局部特征的性能。基于上述改进,我们的SAMFeat使局部特征学习能够更充分地利用语义信息,并在更广泛的场景中受益。

Methodology

Preliminary

  • 在本小节中,我们将介绍有关分段任意模型(SAM)和我们的基线设置的初步知识。分段任何模型(SAM)。SAM是一种新发布的用于分割任何对象的视觉基础模型,由于它是使用1100万张图像和11亿个掩码进行训练的,因此具有很强的零样本泛化能力。由于其规模,本工作中部署了模型蒸馏。我们冻结SAM的权重,并将其输出用作伪 GT,以指导更准确、更稳健的局部特征学习。
  • 基线。我们的 SAMFeat 使用了从经典SuperPoint及其最新变体MTLDesc到基线的模块,详细的网络结构如下图所示。具体来说,我们在SuperPoint之后使用八层 VGG 风格的骨干网络来提取特征图。对于 H×W 图像 I,我们将多尺度特征图输出( C 1 ∈ R H × W × 64 , C 2 ∈ R 1 2 H × 1 2 W × 64 , C 3 ∈ R 1 4 H × 1 4 W × 128 , C 4 ∈ R 1 8 H × 1 8 W × 128 C_1∈\R^{H×W×64},C_2∈\R^ {\frac12 H×\frac1 2W×64},C_3∈\R ^{\frac14 H×\frac1 4W×128},C_4∈\R ^{\frac18 H×\frac1 8W×128} C1RH×W×64C2R21H×21W×64C3R41H×41W×128C4R81H×81W×128)连接到关键点检测头(det头)、边缘头(edge头)、注意力头(att头)和描述符头(des-head)。此外,我们添加了一个提取头来提取SAM的语义表示,以增强C4特征图。这里,每个头部由一个轻量级的3×3卷积层组成。我们采用了SuperPoint的范式,即使用伪标记的关键点来训练关键点检测,并使用度量学习来优化描述符,特别是,我们采用了MTLDesc的基于注意力的方法来进行局部描述符优化
    • 在这里插入图片描述

    • SAMFeat概述。请注意,SAM仅在训练阶段应用,而在推理阶段没有计算成本。

Gifts from SAM

  • 在本小节中,我们将介绍如何利用SAM的三份礼物来增强我们的SAM功能。如上图所示,我们将图像 I 输入到具有冻结参数的SAM中,然后简单处理以产生以下三个输出,用于引导局部特征学习。

  • 逐像素表示关系:SAM的图像编码器从1100万张图像中训练,用于提取图像表示,用于分配语义标签。编码器输出的表示意味着有价值的语义对应,即同一语义对象的像素更紧密地在一起。为了消除特定语义类别对可推广性的影响,我们采用表示之间的关系作为提取目标。SAM的编码器输出 F ∈ R 1 8 H × 1 8 W × C F∈\R^{\frac18H×\frac18W×C} FR81H×81W×C,其中C是特征图的通道数。逐像素表示关系可以定义为 R ∈ R 1 8 H 1 8 W × 1 8 H 1 8 W \mathcal R∈\R^{\frac18H\frac18W×\frac18H\frac18W} RR81H81W×81H81W,其中 R ( i , j ) = F ( i ) ⋅ F ( j ) ∣ F ( i ) ∣ ∣ F ( j ) ∣ \mathcal R(i,j)=\frac{F(i)·F(j)}{|F(i)||F(j)|} Rij=Fi∣∣FjFiFj

  • Semantic Grouping: 我们使用SAM的自动生成掩码功能来获得细粒度的语义分组。具体来说,它通过在图像上的网格中对单点输入提示进行采样来工作,SAM可以从每个提示中预测多个掩码。然后,对掩码进行质量过滤,并使用非最大抑制进行去重复。输出的语义分组可以定义为 G ∈ R H × W × N G∈\R ^{H×W×N} GRH×W×N,其中N是语义分组的数量。请注意,语义分组与语义分割的不同之处在于,每个分组并不对应于特定的语义类别(例如。建筑物、汽车和人)。

  • Edge Map: 二值边缘图 E ∈ R H × W × 1 E∈\R ^{H×W×1} ERH×W×1 是直接从SAM的分割结果中导出的,它突出了细粒度的对象边界

SAMFeat

  • 得益于基础模型SAM的天赋,我们能够将SAM视为一名知识渊博的教师,提供中间产品和输出,以指导当地特色的学习。首先,我们使用像素语义关系提取(PSRD)将SAM编码器中的类别不可知的语义关系提取到SAMFeat中,从而通过引入语义显著性来增强局部特征的表达能力。其次,我们利用SAM输出的高级语义分组来构建基于语义分组的弱监督对比学习(WCS),为局部描述符学习提供了廉价而有价值的监督。第三,我们设计了一种边缘注意力引导(EAG),利用SAM发现的低级别边缘结构来引导网络更多地关注这些边缘区域,这些边缘区域在局部特征检测和描述过程中更有可能被检测为关键点,并富含判别信息

  • 像素语义关系提取。SAM旨在根据提示获得相应的语义掩码,因此SAM的编码器输出表示富含语义判别信息。与语义分割不同,SAM不将像素投影到指定的语义类别,因此我们通过利用像素之间的相对关系来提取编码器中包含的语义(即,同一对象的像素表示更接近)

  • 具体地说,从Conv7层导出 C 4 o C_4^o C4o,然后导入蒸馏头,得到 C 4 … … d ∈ R 1 8 H × 1 8 W × 128 C_4……d∈\R^{\frac18H×\frac18W×128} C4……dR81H×81W×128。根据第3.2节中报告的操作, C 4 d C^d_4 C4d的语义关系矩阵可以定义为 R ′ \mathcal R′ R。如下图所示,我们通过施加 L1 损失来提取语义关系矩阵,以获得 C 4 d C^d_4 C4d 的语义判别性。 R ′ \mathcal R′ R R \mathcal R R 是相应的学生(SAMFeat)和教师(SAM)关系矩阵。像素语义关系蒸馏损失 L d i s \mathcal L_{dis} Ldis 可以定义为:

    • L d i s = ∑ i , j ( 1 8 H × 1 8 W ) , ( 1 8 H × 1 8 W ) ∣ R i , j − R i , j ′ ∣ N , ( 1 ) \mathcal {L}_{dis} = \frac {\sum _{i,j}^{(\frac {1}{8}H\times \frac {1}{8}W),(\frac {1}{8}H\times \frac {1}{8}W)}|\mathcal {R}_{i,j} - \mathcal {R}^{'}_{i,j}|}{N},(1) Ldis=Ni,j(81H×81W),(81H×81W)Ri,jRi,j,(1)

    • 其中 N 是矩阵元素的数量,即 ( 1 8 H × 1 8 W ) × ( 1 8 H × 1 8 W ) (\frac1 8H×\frac1 8W)×(\frac1 8H×\frac1 8W) 81H×81W×81H×81W。由于PSRD是类别不可知的,因此可以将局部特征提取语义信息推广到通用场景。在算法1中示出了详细的伪代码。

    • 在这里插入图片描述

  • 基于语义分组的弱监督对比学习。如下图所示,我们使用SAM派生的语义分组来构建弱监督对比学习,以优化局部特征的描述空间。我们的动机是非常直观的:即,属于同一语义分组的像素在描述空间中应该更近,相反,不同分组的像素应该在描述空间保持一定距离。然而,由于属于同一分组的两个像素并不意味着它们的描述符是最接近的一对,因此强迫它们对齐将损害同一分组内像素的判别特性。因此,语义分组只能提供弱监督约束,并且我们通过在优化中设置裕度来保持语义分组内的歧视性。给定采样点集 P ∈ R N P∈\R^N PRN,正样本平均距离 D p o s D_{pos} Dpos 可以定义为:

    • D p o s = 1 J ∑ i , j J d i s ( P i , P j ) , w h e r e   G ( i ) = G ( j )   a n d   i ≠ j . ( 2 ) D_{pos}= \frac {1}{J} \sum ^{J}_{i,j} {\rm dis} (P_{i},P_{j}), where~G(i)=G(j)~and~ i\ne j. (2) Dpos=J1i,jJdis(Pi,Pj),where G(i)=G(j) and i=j.(2)

    • 这里, d i s ( P i , P j ) dis(Pi,Pj) disPiPj 意味着计算与两个采样点 Pi 和 Pj 相对应的局部描述符之间的欧几里得距离。G(·)表示索引的语义分组类别。J 表示正样本的数量,注意到由于J对于每个图像都不一致,所以我们取平均值来表示正样本距离。类似地,负样本平均距离 D n e g D_{neg} Dneg 可以定义为:

    • D neg = 1 K ∑ i , j K dis ⁡ ( P i , P j ) , where  G ( i ) ≠ G ( j ) . \begin {aligned} D_{\text {neg}} = \frac {1}{K} \sum ^{K}_{i,j} \operatorname {dis}(P_{i},P_{j}), \quad \text {where } G(i) \neq G(j). \end {aligned} Dneg=K1i,jKdis(Pi,Pj),where G(i)=G(j).

    • 其中 K 表示负样本的数量。因此,最终 L w s c L_{wsc} Lwsc 损失可以定义为:

    • L w s c = − log ⁡ ( e x p ( max ⁡ ( D p o s , M ) / T ) e x p ( max ⁡ ( D p o s , M ) + D n e g ) / T ) ) \mathcal {L}_{wsc} = -\log (\frac {{\rm exp}(\max ( D_{pos}, {\rm M}) / {\rm T})}{{\rm exp}(\max ( D_{pos}, {\rm M}) + D_{neg}) / {\rm T)}}) Lwsc=log(exp(max(Dpos,M)+Dneg)/T)exp(max(Dpos,M)/T))

    • 其中 M 是用于保护语义分组内的显著性的裕度参数,T 表示温度系数

  • Edge Attention Guidance. 边缘地区比普通地区更值得网络关注。一方面,边缘区域中的角点和边缘点更有可能被检测为关键点。另一方面,边缘区域包含关于几何结构的丰富信息,从而对局部描述符的判别性质做出了更多贡献。为了使网络能够更好地捕捉边缘区域的细节,提高描述符的鲁棒性,我们提出了边缘注意力引导模块,该模块可以引导网络关注边缘区域。如上图所示,我们首先设置一个边缘头来预测边缘图 E ′ E′ E,并使用边缘图的SAM输出进行监督。边缘损耗 L e d g e \mathcal L_{edge} Ledge 表示为:

    • L e d g e = ∑ i H × W ∣ E i − E i ′ ∣ . ( 5 ) \mathcal {L}_{edge} = \sum _{i}^{H\times W} |E_{i} - E^{'}_{i}|. (5) Ledge=iH×WEiEi∣.(5)

    • 然后,我们将预测的边缘图 E ′ E′ E 融合到局部特征检测和描述流水线中,以引导网络。

  • 局部特征检测:为了帮助SAMFeat中的特征检测,使用具有中层编码特征表示 C 3 C_3 C3 的逐像素点积执行来自边缘头的预测边缘图 E′,如上图所示。该产品被添加到 C 3 C_3 C3 中用于残差目的,以获得边缘增强特征 C 3 C_3 C3该特征将用于经由检测头生成热图,以提供更好的局部特征检测

  • 局部特征描述:我们通过预测的边缘图过滤边缘特征,并通过自注意机制对边缘区域的特征进行建模,以鼓励网络捕捉边缘区域的信息。具体而言,将来自边缘头的预测边缘图 E′ 和从主干提取的多尺度特征图 F i n F_{in} Fin 输入到边缘注意力引导模块。如下图所示,我们首先通过应用逐像素点积来融合 E ′ E′ E F i n F_{in} Fin,以获得面向边缘的特征图 F e d g e F_{edge} Fedge。然后,我们对给定的Fedge应用不同的卷积变换,分别得到查询q、密钥k和值v。然后,我们使用查询和关键字之间的点积来计算注意力得分。接下来,我们使用注意力得分上的softmax函数来获得注意力权重,该权重用于计算具有值特征向量的边缘增强特征图。最后,将边缘增强特征图和 F i n F_{in} Fin 相加以获得输出特征图 F o u t F_{out} Fout。总的损失函数。总损失 L 可以定义为:

    • L = L d e t + L d e s + L d i s + L e d g e + L w s c . \mathcal {L} = \mathcal {L}_{det}+ \mathcal {L}_{des}+ \mathcal {L}_{dis}+ \mathcal {L}_{edge}+ \mathcal {L}_{wsc}. L=Ldet+Ldes+Ldis+Ledge+Lwsc.

    • 第3.2节定义了 L d i s 、 L e d g e 和 L w s c L_{dis}、L_{edge}和L_{wsc} LdisLedgeLwsc,而 L d e t L_{det} Ldet 是用于监督关键点检测的交叉熵损失, L d e s L_{des} Ldes 是来自 MTLDesc 的用于优化局部描述符的注意力加权三元组损失。没有为每个损失分配单独的权重:每个损失共享相同的权重。这种与超参数的独立性再次表明了SAMFeat的稳健性

Experiments

  • 实施为了生成具有密集像素对应关系的训练数据,我们依赖于MegaDepth数据集,这是一个丰富的资源,包含来自196个不同场景的具有已知姿势和深度信息的图像对。

  • 具体来说,我们使用MTLDesc发布的高深度图像和对应的 GT 进行训练。在我们的实验中,我们精心配置了参数,以建立一个一致且高效的训练过程。超参数设置如下。0.001的学习率使参数能够逐步更新,0.0001的权重衰减有助于控制模型复杂性并减轻过拟合。批量大小为14,我们的模型每次迭代处理14个样本,在计算效率和收敛性之间取得平衡。M 和 T 被设置为0.07和5。训练跨越30个epoch,以确保全面接触数据,总训练时间为3.5小时。通过仔细定义这些参数和配置,我们建立了一个稳健的实验设置,确保了模型性能的可复制性和准确评估。

  • 图像匹配。我们在最流行的特征学习和匹配基准:HPatches上评估了我们的方法在图像匹配任务中的性能。HPatches数据集由从各种场景和对象中提取的116个图像块序列组成。每个图像块都与 GT 注释相关联,包括关键点位置、描述符和相应的单形图。

  • 我们遵循与D2-Net中相同的评估协议,其中排除了八个不可靠的场景。为了确保公平的比较,我们通过最近邻匹配来对齐每种方法提取的特征。如果匹配的估计重投影误差低于预定的匹配阈值,则认为匹配是准确的。阈值从1到10个像素系统地变化,并且记录所有对的平均匹配精度(MMA),指示正确匹配相对于潜在匹配的比例。随后,基于MMA在5px处计算曲线下面积(AUC)。SAMFeat和其他最先进的HPatches图像匹配方法之间的比较如下图所示。

    • 在这里插入图片描述

    • 具有不同阈值的HPatches数据集上的比较平均匹配精度。我们的SAMFeat在所有阈值下都比其他最先进的方法实现了更高的平均局部特征匹配精度。

  • 下表列出了每个阈值下MMA@3阈值与其他最先进方法的对比。即使与2023年顶级会议中更新最多的功能学习模型相比,SAMFeat也获得了最高的MMA@3。

    • 在这里插入图片描述

    • HPatches数据集上的图像匹配性能比较

  • Visual Localization. 为了进一步验证我们的方法在处理复杂任务时的有效性,我们评估了它在视觉定位领域的性能。该任务涉及使用图像序列估计相机在场景中的位置,并在长期定位场景中作为局部特征性能的评估基准,而不需要专用的定位管道。我们利用 Aachen Day-Night v1.1 dataset 来展示对视觉定位任务的影响。所有方法都在官方评估服务器上进行了客观比较,以确保评估的公平性。评估通过视觉定位基准进行,采用植根于COMLAP的预定视觉定位框架。

  • 我们统计了在三个不同的误差阈值下,即(0.25m,2°)、(0.5m,5°)和(5m,10°),精确定位的图像数量,这意味着在米和度上的最大允许位置误差。我们使用最近邻匹配器在所有方法之间进行合理和公平的比较。参考下表,我们将当前最先进的方法分为两类:G包含为一般特征学习任务设计的方法;L 包含专门为定位任务设计、调优和测试的方法,它们在特定的定位场景之外通常表现不佳,如上表所示。SAMFeat在所有通用方法中实现了最高的性能,同时也揭示了专门为可视化设计的方法之间的竞争性能。

    • 在这里插入图片描述

    • Aachen V1.1. 上的可视化定位性能比较。类别“L”表示专门为视觉定位任务设计的局部特征方法,“G”表示广义局部特征方法。

  • 消融研究。我们对不同方面进行消融研究,以支持我们的主张,并说明我们每个贡献模块的必要性。下表展示了随着我们逐渐结合像素语义关系提取(PSRD)、基于语义分组的弱监督对比学习(WCS)和边缘注意力引导(EAG),我们网络中组件的有效性。每个组件的有效性由HPatches图像匹配任务中像素三阈值处的平均匹配精度反映。我们的基线是使用SuperPoint结构及其检测器监督和用于描述符学习的注意力加权三元组损失进行训练的。添加PSRD后,由于更好的图像特征学习,模型的性能显著提高。WCS的引入通过用语义增强描述符的判别能力,进一步提高了准确性。它通过优化样本排列更好地保留了对象的内部多样性,从而展示了卓越的性能。最后,EAG的加入增强了网络嵌入对象边缘和边界信息的能力,从而进一步提高了准确性

    • 在这里插入图片描述

    • SAMFeat.的烧蚀研究。✓ 表示应用的组件

  • 推理速度。为了进一步证明 SAMFeat 的高效率和快速推理速度,我们在下表中对其他现有技术方法的推理时间进行了比较。我们使用开源代码评估了各种方法的运行速度。在表中,我们的方法展示了异常有竞争力的性能,同时在许多轻量级方法中保持了快速的推理速度。

    • 在这里插入图片描述

    • 推理速度的比较。速度计算为相同设置下HPatches(480×640)上的平均特征提取推理速度

Limitations

  • 尽管其他视觉基础模型,如 DINO 或 SEEM,有可能作为替代教师,但我们的研究重点是SAM。我们的方法是围绕SAM的独特能力设计的,因此,本研究没有对替代教师进行进一步调查。未来的研究可以探索使用其他视觉基础模型作为教师进行局部特征学习任务的适用性和潜在优势。

Conclusion

  • 在这项研究中,我们介绍了SAMFeat,这是一种利用分段任意模型(SAM)的能力的局部特征学习方法。SAMFeat包含三项创新。首先,我们引入了像素语义关系提取(PSRD),这是一项辅助任务,旨在将SAM编码器获得的与类别无关的语义信息提取到局部特征学习网络中。其次,我们提出了基于语义分组的弱监督对比学习(WSC),这项技术利用SAM产生的语义分组作为弱监督信号来优化局部描述符的度量空间。此外,我们设计了边缘注意引导(EAG)机制,以提高局部特征检测和描述的准确性。我们对HPatches上的图像匹配和亚琛昼夜的长期视觉定位等任务的全面评估始终强调了SAMFeat的卓越性能,超过了以前的方法。
  • 9
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值