StructVPR: Distill Structural Knowledge with Weighting Samples for Visual Place Recognition个人笔记

0 Abstract
视觉地点识别(VPR)通常被视为一种特定的图像检索问题。受现有训练框架的限制,大多数基于深度学习的方法无法从RGB图像中提取出足够稳定的全局特征,并依赖耗时的重新排序步骤来利用空间结构信息以获得更好的性能。在本文中,我们提出了一种新颖的VPR训练架构——StructVPR,以增强RGB全局特征中的结构知识,从而提高在不断变化的环境中的特征稳定性。具体而言,StructVPR使用分割图像作为更确切的结构知识源输入到CNN网络中,并应用知识蒸馏来避免在测试中进行在线分割和推理。考虑到并非所有样本都包含高质量和有用的知识,有些甚至会损害蒸馏的性能,我们对样本进行分组划分,并对每个样本的蒸馏损失进行加权,以精确增强期望的知识。最后,StructVPR仅通过全局检索在几个基准测试上取得了令人印象深刻的性能,并且甚至在很大程度上超过了许多两阶段方法。在添加额外的重新排序后,我们的方法在保持较低计算成本的同时实现了最先进的性能。

1 Idea
我们尝试使用SEG模态来增强全局RGB特征表示中的结构知识,实现与重新排序相当的性能,同时保持较低的计算成本。两种模态在样本上的互补性,即一些样本可能对RGB有害的知识,启发我们进行有选择性地知识增强。因此,我们提出了一种新的知识蒸馏(KD)架构,StructVPR,可以有效地从SEG模态中蒸馏出高质量的结构表示,并转移到RGB模态中。具体而言,StructVPR使用RGB图像和编码的分割标签图进行独立的预训练,并使用VPR损失,使用两个预训练分支来划分样本,然后加权蒸馏损失,有选择性地将预训练的seg-branch的高质量知识蒸馏到最终的RGB网络中。需要注意的是,“样本”的概念是一个包含查询和标记正样本的样本对。与非选择性蒸馏方法[9]和以前的选择性蒸馏工作[50]相比,StructVPR可以准确地挖掘那些在教师网络表现良好且优于学生的合适样本,并区分样本知识对知识蒸馏的重要性。此外,过于精细的分割对于VPR并不有益,而所有语义类别的重要性对于VPR来说是不同的。因此,我们根据在VPR中对对象的敏感性对原始类别进行聚类,并通过加权的独热编码引入标签的先验信息。

2 Contribution
我们的主要贡献可以归纳如下:
1)整体架构通过将SEG模态中的高质量知识蒸馏到RGB模态中,避免了测试过程中对分割的计算和推理。在这个架构中,分割图像被预先编码成加权独热标签图,用于提取VPR中的结构信息。
2)据我们所知,以前的VPR工作中没有涉及选择适合蒸馏的样本。StructVPR将样本划分与学生网络参与和加权知识蒸馏相结合,建立了一个桥梁。
3)我们在关键基准数据集上进行了全面的实验。StructVPR在全局方法上表现更好,并与许多两阶段(全局-局部)方法实现了可比较的性能。在所有数据集上的一致改进证实了StructVPR的有效性和鲁棒性。实验结果表明,与全局方法相比,StructVPR在低计算成本下实现了SOTA性能,并且与大多数两阶段方法[6,20]具有竞争力。带有重新排序的StructVPR优于SOTA VPR方法(在召回率@5上相对于最佳基线[51]的绝对增加4.475%)。

3 Methodology
考虑到使用局部特征进行重新排序可以提供丰富而明确的结构知识,我们尝试利用分割图像将丰富的结构知识嵌入到RGB全局检索中,并实现与两阶段方法相当的性能。StructVPR的关键思想非常通用:通过对样本进行加权,有选择地将高质量和有用的知识蒸馏到单输入模型中。StructVPR包括两个训练阶段:结构知识提取和样本分组,以及加权知识蒸馏。图2解释了StructVPR的工作原理。

3.1 Overview
给定一个RGB图像IR,通过使用开源语义分割模型提取其成对的分割图像IS,并通过分割标签映射编码(SLME)模块将其转换为固定大小的标签地图。
然后,使用VPR损失对seg-branch和rgb-branch进行预训练。基于这两个预训练的分支和设计好的评估规则,可以对训练集进行分组,不同的组表示具有不同seg-branch和rgb-branch性能的样本。根据VPR领域的知识,将“样本”的概念泛化为查询和正样本的样本对。VPR数据集通常分为查询和数据库两部分,其中每个查询图像q都有一组正样本{pq}和一组负样本{nq}。其次,需要增强的知识是在场景中样本对之间的变化下的特征不变性和稳健性。
此外,定义了一个加权函数,并在第二阶段执行加权知识蒸馏和常规的VPR监督。

3.2 Segmentation Label Map Encoding
将分割图像转换为seg-branch的标准输入格式并不容易,因为每个图像包含不同数量的语义实例。如图2所示,分割标签映射编码(SLME)函数将分割信息编码为CNN的标准输入,包括三个步骤:格式化、聚类和加权。
首先,类似于LabelEnc [19],我们使用一个C×H×W张量来表示分割图像,其中H×W等于RGB图像的大小,C是语义类别的数量。第c类的区域在第c个通道中填充正值,其他通道中填充0。
其次,基于人类经验,我们将在VPR中具有类似影响的语义标签进行合并,例如将汽车和自行车重新标记为“动态物体”。这样做的原因是过于细粒度的分割会像噪声一样干扰VPR [34],分散模型的“注意力”并增加模型收敛的难度,如图3所示。此外,较大的C会导致过多的计算。此步骤还使模型集中于有用的部分,从而降低了计算成本。
最后,基于每个语义类别在VPR任务中扮演不同角色的观点,我们将编码中的正值加权作为先验信息,引导模型的优化并加速收敛。人脑的注意机制使人们可以专注于标志性物体,如建筑物,而忽略动态物体,如行人。在第4.4节中,实验结果验证了我们的想法。

3.3 Structural Knowledge Extraction
在第一阶段的训练中,我们训练seg-branch和rgb-branch,提取结构化知识成为特征,并为随后的分组准备。
RGB-branch。我们使用MobileNetV2 [41] 作为轻量级特征提取器。我们删除全局平均池化层和全连接(FC)层,以获取全局特征。根据特征图的分辨率,骨干网可以分为5个阶段。输出特征图被表示为 FR1、FR2、FR3、FR4、FR5,全局特征被表示为 xR。
Seg-branch。考虑到分割标签图比成对的RGB图像更直观,并且具有更高的语义层次,我们采用MobileSal [53]中的深度流作为seg-branch中的特征提取器。它有五个阶段,步长相同,并且不像MobileNetV2那样具有较大的容量,我们在本文中称之为MobileNet-L。五个阶段的输出特征图被表示为FS1、FS2、FS3、FS4、FS5,全局特征被表示为xS。
Multi-level Concatenation (MC)。在图4中,我们首先对每个特征图Fi应用全局最大池化(GMP)层,计算单级特征,如…
Triplet VPR Loss

3.4 Group Partition on Training Set
如上所述,不是所有的样本都包含对学生有用的高质量的教师知识,甚至有些会损害学生的性能。因此,我们需要精确地提炼期望的知识。本节通过选择合适的样本来简单而有效地解决这个问题。
以往的基于样本的选择性蒸馏工作[14,27,50]很少考虑具有特定先验知识的学生网络,导致跨模态情况下缺乏教师-学生交互。为避免这种情况,我们让第3.3节中的两个预训练分支参与寻找更准确的划分。
Partition Strategy。为方便起见,下面提到的“样本”指样本对(见第3.1节)。在本节中,我们首先进行了一些初步的经验研究,发现两个预训练模型在训练集上的VPR损失都很低,但其Recall@N性能不能在训练集上达到100%。因此,可以通过以下方式比较两个分支在样本(q,p)上的性能:正样本p在查询q的召回列表中的排名。
为方便起见,seg-branch和rgb-branch的召回排名分别表示为x和y。如图2所示,划分训练集的具体定义如下:

3.5 Weighted Knowledge Distillation
为了准确反映样本的影响,我们在第3.4节中基于组分割对蒸馏损失进行加权。这种方法可以强调有帮助的样本,忽略有害的样本。
Weighting Function。我们定义一个函数来调整不同组的加权而不是使用几个常数权重。这个函数从两个方面来调整权重。一个是教师对每个样本的知识水平,知识水平越高,权重越大。另一个是教师和学生之间的知识差距,差距越大,权重越大。
Feature-based Distillation

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

little_boy_dodo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值