Few-shot Adaptive Faster R-CNN

最新推荐文章于 2024-06-13 19:15:13 发布

Wanderer001

最新推荐文章于 2024-06-13 19:15:13 发布

阅读量4.2k

点赞数 3

分类专栏：计算机视觉文章标签：计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/weixin_36670529/article/details/101120262

版权

计算机视觉专栏收录该内容

219 篇文章

订阅专栏

该研究提出了一种新的小样本适应方法，用于减少域转移引起的检测性能下降。该框架由图像级和实例级适配模块组成，采用特征配对和源模型特征正则化，仅需少量目标域样本和边界框注释即可有效适应。实验表明，该方法在多个数据集上实现了最新性能，尤其在快速适应、减少数据收集成本和训练稳定性方面表现出优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考 Few-shot Adaptive Faster R-CNN - 云+社区 - 腾讯云

摘要

为了减少由域转移引起的检测性能下降，我们致力于开发一种新的小样本适配方法，该方法只需要少量的目标域映射和有限的边界框注释。为此，我们首先观察几个重大挑战。

目标域数据严重不足，使得现有的域适配方法效率低下。
目标检测涉及同时定位和分类，进一步复杂化了模型的适配过程。
该模型存在过度适配(类似于用少量数据样本训练时的过度拟合)和不稳定风险，可能导致目标域检测性能下降。

为了解决这些挑战，我们首先引入了一个针对源和目标特性的配对机制，以缓解目标域样本不足的问题。然后，我们提出了一个双层模块，使源训练检测器适配目标域：

1)、基于分割池的图像级自适应模块在不同的位置上均匀提取和对齐成对的局部patch特征，具有不同的尺度和长宽比；

2)、实例级适配模块对成对的目标特性进行语义对齐，避免类间混淆。

同时，采用源模型特征正则化(SMFR)方法，稳定了两个模块的适配过程。结合这些贡献，提出了一种新型的少样本适配Fast R-CNN框架，称为FAFRCNN。对多个数据集的实验表明，我们的模型在感兴趣的小样本域适配(FDA)和非监督域适配(UDA)设置下均获得了最新的性能。

1、简介

人类可以很容易地从新领域识别出熟悉的目标，而当前的目标检测模型由于域的迁移，在不可见的环境中性能显著下降。对新领域的适应性差严重限制了这些模型的适用性和有效性。以往针对深度CNN模型的域迁移问题的研究主要针对无监督域适配(UDA)设置，该设置需要大量的目标域数据和较长的适应时间。只有少数研究考虑了监督域适配(SDA)设置。然而，作为UDA方法，它们主要关注简单的分类任务，可能不适用于更复杂的任务，如在高分辨率输入下对所有单个目标进行局部化和分类的目标检测。

在这篇文章中，我们探讨了用源域数据训练的目标检测器适应目标域的可能性，只需要几个松散注释的目标图像样本(不是所有的目标实例都有注释)。这是基于我们的关键观察，有限的目标样本仍然可以在很大程度上反映主要领域的特征，例如，光照、天气条件、单个物体外观，如图1所示。此外，这种设置在实践中很有吸引力，因为从一个新域收集一些有代表性的数据只需要很少的努力，同时可以减少大量样本带来的不可避免的压力。然而，仅用少量的目标数据样本来学习域不变表示是非常具有挑战性的，而检测器需要细粒度的高分辨率特性来进行可靠的定位和分类。

为了解决这一问题，我们提出了一种新的框架结构，该框架由两层自适应模块组成，采用特征匹配机制和强正则化来实现稳定的适配。为了有效地扩充有限的目标域数据，配对过程将样本分成两组，第一组由目标域的样本和源域的样本组成，第二组由源域的样本组成。引入匹配机制后，图像级模块统一提取并对齐匹配的多粒度patch特征，解决了光照等全局域迁移问题;实例级模块在语义上匹配成对的目标特性，同时避免了类之间的混淆，降低了识别能力。这两个模块都采用域对抗性学习方法进行训练。

我们进一步提出了一种强正则化方法，称为源模型特征再正则化(SMFR)，通过对前景锚点的特征响应施加源模型和自适应模型之间的一致性，来稳定训练和避免过度适应。结合SMFR的二层自适应模块能够在目标样本数据较少的情况下，较好地适应源训练的检测模型。由此产生的框架，称为少样本适配 Faster R-CNN(FAFRCNN)，提供了一些优势：

快速适应：对于一个经过源域训练的模型，我们的框架经验上只需要几百步的适应更新就可以在所有已建立的场景中达到理想的性能。相比之下，以前的方法在UDA设置下需要数万步的训练。
减少数据收集成本：FAFRCNN模型具有代表性的数据样本较少，可以极大地提高目标域上的源检测器，大大降低了数据采集成本。在设计的松散注释过程中，可以显著减少人工注释的时间。
训练稳定：在目标数据样本有限的情况下进行微调会导致严重的过拟合。此外，依赖对抗性目标的领域适应方法可能是不稳定的，并且对模型参数的初始化敏感。这个问题极大地限制了它们的适用性。提出的SMFR方法使模型避免了过度拟合，并从少量的目标数据样本中获益。对于这两个敌对的自适应模块，虽然强制SMFR不能显著地提高它们的性能，但是在不同的运行情况下，差异显著减小。因此，SMFR提供了更加稳定和可靠的模型适配。

为了验证所提出的FAFR-CNN对跨域目标检测的有效性，我们在包括Cityscapes、SIM10K、Udacity self-driving和Foggy Cityscapes在内的多个数据集构建的各种场景下进行了Few-Shot适配实验。我们的模型显著地超过了比较方法，并且在使用全目标域数据的情况下性能优于现有方法。当应用于UDA设置时，我们的方法为各种场景生成最新的状态结果。

2、相关工作

目标检测:

近年来，利用深度神经网络和各种大规模数据集进行目标检测取得了显著的进展。以往的检测架构分为R-CNN、Fast R-CNN、Faster R-CNN、Cascade R-CNN等两级或多级模型，以及YOLO、YOLOv2、SSD、Retinanet等单级模型。但是，它们都需要大量的训练数据，并且需要仔细的注释，因此不能直接应用于不可见域中的目标检测。

跨域目标检测:

近年来CNNs领域自适应的研究主要针对简单的分类任务，很少考虑目标检测。针对可变形零件模型(DPM)的领域转移问题，[45]提出了一个框架。[34]为R-CNN模型开发了基于子空间对齐的域自适应方法。最近的一项工作[20]使用了两阶段迭代域转移和伪标记方法来处理跨域弱监督目标检测。[5]设计了三种无监督域自适应的目标检测模块。在这项工作中，我们的目标是用一些目标图像样本来适配目标检测器，并在此背景下建立一个框架来鲁棒地适应最先进的Faster R-CNN模型。

小样本学习:

少样本学习被提议学习一个新的类别，只有几个例子，就像人类一样。许多工作基于贝叶斯推理，一些利用内存机器。后来，[19]提出将基类特性转移到一个新的类中;最近的一项工作[10]提出了一种基于元学习的方法，达到了最先进的水平。以前研究过将少样本学习结合到目标检测中。[8]提出学习一种具有大量未标记图像和每个类别只有少量注释图像的目标检测器，称为小样本目标检测(FSOD);[4]采用小样本传输检测器(LSTD)，结合设计的正则化，实现了对小目标目标检测的设置。我们的FDA设置的不同之处在于，目标数据分布发生了变化，但任务保持不变，而少量的学习目标是新的任务。

3、方法

在本节中，我们详细阐述了我们提出的用于检测的小样本域适配方法。针对目标域样本不足的问题，提出了一种基于分割池和实例ROI采样的特征配对机制。我们提出的方法通过域对抗性学习，在图像和目标实例级别上对成对的特征进行域适配，其中第一个层次缓解了全局域转移，第二个层次在语义上对齐目标外观转移，同时避免了类之间的混淆。为了稳定训练，避免过度适配，最后引入了源模型特征反流技术。将这三种新技术应用于Fast R-CNN模型中，得到了只需要几个目标域实例就能适配新域的小样本适配Faster R-CNN (FAFRCNN)。

3.1、问题建立

假设我们有一组很大的源域训练数据和一组很小的目标数据，其中和是输入图像，表示的完全包围框注释，表示的松散注释。在只注释了目标域图像中的几个目标实例的情况下，我们的目标是将基于源训练数据训练的检测模型调整到目标域，使性能下降最小。我们只考虑松散的边界框注释来减少注释的工作量。

3.2、图像级适配

灵感来自于基于patch的域分类器在图像到图像的翻译方面的效果优于之前开创性著作中的完全图像分类器。我们提出了分割池(SP)方法，在不同宽高比和比例尺的位置上均匀地提取局部特征块，用于域的对抗性比对。我们提出了分割池(SP)方法，在不同宽高比和比例尺的位置上均匀地提取局部特征块，用于域的对抗性比对。

具体来说，给定网格宽度 $w$ 和高度 $h$ ，建议的分割池首先为 $x$ 轴和 $y$ 轴生成随机偏移量和，分别从0到整个网格宽度 $w$ 和高度 $h$ (即， )，如图2左上方面板所示。在输入图像上形成一个随机网格，其偏移量从输入图像的左上角开始。这种随机抽样方案在静态网格(可能产生有偏差的抽样)和耗尽所有冗余和过度抽样的网格位置之间进行了权衡。

在Faster R-CNN中网格窗口宽度 $w$ 和高度 $h$ 被设置成比例和比例作为锚框。我们根据经验选择3尺度(大尺度256，中尺度160和小尺度96，对应着VGG16网络relu_5_3的16、10、6的特征尺寸)和3个宽高比(0.5、1、2)，结果有9对的宽和高。对每一对，先生成网格，然后网格中没有边界的矩形用RoI池化，池化成固定尺寸的特征。池化使得不同大小的网格与单个域分类器兼容，而不改变提取的特征的分段特征。形式上，设f为特征提取器， $X$ 为输入图像集合。我们在三个尺度上执行分割池，结果分别是、和。我们根据量表将它们分开，因为我们想要独立地研究不同量表的贡献。这些局部斑块特征可以反映像不同光照、天气变化等图像级域的变化。由于这些位移分布在整个图像上，这种现象对于目标检测更为明显，因为输入图像通常较大。

然后，我们开发了图像级适配模块，该模块利用匹配的局部特征进行多尺度对齐。具体地说，它首先将从分割池中提取的局部特征配对，为三个尺度中的每个组成两个组，从而处理图像级别的移动。例如，对于小尺度的patch，，其中。在这里，第一组中的对仅由源域中的样本组成，而第二组中的对由源域中的一个样本和目标域中的另一个样本组成。这种配对方案有效地扩展了有限的目标域特征样本。

为了适配检测模型，采用领域对抗性学习目标对构建的两组特征进行对齐。域对抗性学习利用生成对抗性学习的原理，通过特征发生器和域鉴别器上的对抗性目标，使近似的领域差异距离最小化。因此，数据分布是一致的，源任务网络可以用于目标域。具体来说，域鉴别器试图将特征划分为源域和目标域，而特征生成器则试图混淆鉴别器。小尺度判别器的学习目标是最小化

这样，鉴别器就可以清楚地区分源-源特征对和源-目标特征对。该生成器的目标是通过最大限度地增加上述损失，将两个域的特征转换为鉴别器，使其无法被区分。

对于中、大型鉴频器，如和，也可以得到类似的损失。我们为每个量表使用3个独立的鉴别器。此外，该模块的运行不需要监视。因此，它可以用于无监督域自适应(UDA)。综上所述，图像级鉴别器的目标是最小化：

特征生成器的目标是最大化。

3.3、实例级适配

为了缓解目标实例的域漂移，我们提出了实例级适配模块，该模块对成对的目标特性进行语义对齐。

具体来说，我们将Faster R-CNN ROI抽样扩展到实例ROI抽样。Faster R-CNN ROI抽样方案对ROI进行抽样，为分类和回归头创建训练数据。默认情况下，它用IOU阈值0.5分隔前台和后台ROI，并以特定的比例(例如1:3)对它们进行采样。不同的是，我们提出的实例ROI抽样保持所有具有较高IOU阈值的前景ROI，以确保ROI更接近真实的目标区域，并适合对齐。源域图像和目标域图像的前景ROI特征，根据它们的类别，通过中间层(即，将ROI池后的各层进行分类和回归，得到源域目标特征集Ois和目标域目标特征集Oit。这里 $i \in [0,C]$ 是类标签并且C是总共类的数量，并且C是总共类的数量。然后他们进一步配对成两组相同的方式作为图像水平补丁功能，导致、。这里 $n_{is}\sim O_{is}$ 、 $n_{it}\sim O_{it}$ 。多路实例级鉴别器 $D^{ins}$ 具有 $2\times C$ 输出，其目标是最小化：

这里 $D^{ins}(x)_{i1}$ 表示第一组第i类的鉴别器输出。相应地，特征发生器的目标是最小化

它的目的是混淆两个域之间的鉴别器，同时避免对其他类的错误分类。

3.4、源模型特征正则化

在对抗性学习中，训练不稳定性是一个常见的问题，在训练数据不足的情况下，训练不稳定性更为严重，这可能导致过度适配。使用有限的目标数据进行微调也不可避免地会导致过度拟合。我们采用强正则化的方法来解决这种不稳定性，通过强迫适配模型在 l_2 差分意义下对源输入产生与源模型一致的特征响应。其目的是避免对有限的目标样本过度更新学习表示，从而降低性能。在图像到图像的转换方法中，也采用了相似形式的l2惩罚来约束内容的变化。

形式上，设和分别为源模型和适配模型的特征提取器。则源模型特征正则化(SMFR)项为：

其中 $w$ 和 $h$ 为特征图的宽度和高度。

然而，目标检测更关注局部的前景特征区域，而背景区域往往是不利的优势和噪声。我们发现直接对全局特征图进行正则化会导致在适应目标域时出现严重的退化。因此，我们建议将特征图上的前景区域估计为具有IOU的锚点位置，其中ground truth框大于阈值(在实现中使用0.5)。表示M为估计的前景掩码。然后我们对提出的正则化修改如下：

其中 $k$ 为正掩模位置的个数。部分原因是[1]中的“内容相似度损失”，它使用可用的呈现信息对生成的图像的前景区域施加惩罚。

3.5、训练FAFRCNN

使用源模型初始化框架，并在以下目标之间进行优化:

步骤1、最小化以下损失w.r.t.全检模型：

其中， $L_{det}$ 表示对源数据Faster R-CNN检测训练损耗， $\alpha, \beta$ 和 $\gamma$ 为控制损耗交互作用的超参数均衡。

步骤2、将下列损失降至最低：

4、实验

在本节中，我们给出了该方法在多个数据集构建的不同领域移动的自适应场景的评估结果。实验中采用基于VGG16网络的Fast R-CNN作为检测模型。

4.1、数据集和设置

数据集：我们采用以下四个数据集来建立跨域的适配场景，以评估模型的适应能力和比较方法。SIM10K数据集包含10k个合成图像，其中包含汽车、摩托车和人的边界框注释。Cityscapes数据集包含大约5000个精确注释的真实世界图像，带有像素级的类别标签。在[5]之后，我们使用实例掩码的框信封来包围框注释。Foggy Cityscapes数据集是由模拟雾的城市景观生成的。Udacity自动驾驶数据集(简称Udacity)是一个开源的数据集，它以不同的光照、相机状态和周围环境作为城市景观进行采集。

评估场景：已建立的跨域适配场景包括场景：

场景1:SIM10K到Udacity (S到U);
场景2:SIM10K to Cityscapes (S到C);
场景3:城市风光到都市(C到U);
场景4:都市风光(U到C);
场景5:城市景观到雾蒙蒙的城市景观(C到F)。

前两个场景捕捉到从合成到真实数据领域的转移，这一点很重要，因为从合成数据中学习是解决缺乏标记训练数据的非常有前途的方法；场景3和场景4都是基于真实世界采集的数据集构建的，主要针对光照、相机条件等领域的移位，这对实际应用非常重要;最后一个场景捕捉了从正常到雾天的极端天气变化。从目标训练集中抽取样本，对目标val集进行测试，利用完整的源数据集对源模型进行训练。

Baselines：我们将我们的方法与以下baseline进行比较:

源域训练模型。该模型只使用源数据进行训练，并直接对目标域数据进行评估。
ADDA是解决无监督对抗域适应问题的通用框架。最后在实验中对特征图进行对齐。
域迁移和微调(DT+FT)。在UDA设置中，我们使用CycleGAN训练源图像并将其转换到目标域。

4.2、定量结果

我们通过对已建立的场景进行大量的实验来评估所提出的方法。为了量化每一步的相对效果，研究了不同配置下的性能。在无监督域适配(UDA)环境下，我们还评估了基于分割池的图像水平自适应算法。具体来说，对于小样本域适配(FDA)设置，每次运行我们都执行以下步骤：

随机抽取固定数量的目标域图像样本，确保所需类被呈现;
模拟松散的标注过程，得到带标注的目标域图像，即，只随机标注固定数量的目标实例;
逐步结合我们方法的各个组成部分，运行自适应记录性能(AP);
对相同的采样图像运行比较方法并记录性能。

对于UDA设置，由于目标域中没有可用的注释，因此只使用建议的基于拆分池化的域适配组件。

情景1的结果：如表1所示，在FDA设置下，与源训练模型相比，三个不同尺度的图像级适配模块分别提供了较好的增益。将二者进一步结合，得到了更高的改善(平均AP增益2.7)，说明了不同尺度下比对的互补效应。目标实例级适配组件独立生成3.1 AP改进。将图像级组件与实例级模块相结合，进一步增强检测器，仅在实例级模块上增加1.6 AP，仅在图像级适配上增加2.0 AP，实现了两个模块的互补效果。有限松散标注的目标样本函数化虽然带来了较小的改进，但其增益与对抗性适应模块是正交的。所有提议的组件的组合在原始源模型的基础上带来了5.2 AP boost，在UDA设置下，原始源模型的性能已经超过了最先进的方法。

很明显，基线方法产生的改进较少。ADDA和FRCNN UDA方法几乎没有给检测器带来任何好处，这表明它们不能有效地捕获和缓解只有少量目标数据样本的域转移。方法得到的AP增益约为1.0，这表明样式转移方法只能微弱地捕捉到我们设置中的域转移，而在我们的设置中，这些真实图像与漫画或艺术作品之间没有如此剧烈的样式差异。

对于UDA设置，由于有足够的目标域数据可用，三种比较方法都得到了较好的结果。而我们提出的基于拆分池的适应带来了更好的结果。我们观察到6.4 AP增益超过基准源模型，表明该模块有效地捕获和减轻了域偏移，在两种情况下，少数或足够的目标域图像是可用的。

别的四种场景的结果：

如表1至表3所示，对于所有其他场景，结果与场景-1具有相似的趋势。对于FDA设置，我们的方法为源训练模型提供了有效的适配性，显著地超过了所有baseline，并在UDA设置下优于最先进的方法。对于UDA设置，我们的方法使用提出的基于分割池的自适应生成SOTA性能。有趣的是，场景1 (S到U)的性能比场景3 (C到U)要低得多，尽管它们共享相同的测试集。在方案2和方案4中也观察到类似的趋势。

4.3、定性结果

图3显示了场景2 (S到C)的一些定性结果。可以清楚地看到：

自适应模型对每个目标输出更紧密的边界框，表明具有更好的定位能力;
自适应模型对检测到的目标具有较高的置信度，特别是对较难检测的目标(如第一张被道路标志遮挡的图像中的汽车);
源模型遗漏了一些小目标，而适配模型可以检测到这些小目标。

4.4、消融研究

匹配的影响：

如表4所示，我们独立地研究了对分割池模块和目标实例级适配模块的配对效果。当不配对时，我们减少相应鉴别器的输入通道数，保持其他部分不变。如果没有引入配对，适配性能会显著下降。这表明该配对对增强识别器学习输入数据的有效性。

示例图像和带注释的框的数量：

我们研究了在场景1、4和5下改变目标域图像的数量和标注边界框的效果。我们画出了所有抽样轮的均值曲线。由于car是场景-1和场景-4的目标域的丰富类，我们将带注释的框号从1改为最多6个框(考虑到一小组图像包含少于6个car目标，最多6个框)。我们将目标图像的数量从1个指数变化到8个指数。对于场景5，对于大多数类(如卡车、公共汽车、火车、骑手)，一个图像中只有一个实例，我们只为每个图像注释一个框。图4(a)(b)和图4(c)中涉及的目标实例最多为48个(6个框*8张图)和64个(1个框*8类*8张图)，所以我们只检查了8张图，这就足够FDA进行评估了。如图4所示，结果表明，使用更多的图像和更多的框会产生更高的适应结果，这是一种常见的现象。随着图像数量的指数增长，粗略的线性改善表明饱和效应。

在鉴别器之间共享参数：

对于基于分割池的自适应，我们使用相同的鉴别器体系结构，具有不同规模的共享参数。而鉴别器也可以是独立的，不共享参数。如表6所示，可以清楚地观察到，在小、中、大尺度之间共享鉴别器可以提供更好的结果。这一有趣的现象表明，不同尺度的图像斑块具有相似的图像水平域位移表征特征。它们是互补的，并将它们结合起来，进一步增强了鉴别器，从而得到更好的域不变表示。

共享不同鉴别器之间的参数：