无监督跨域目标检测 能够显著降低注释成本。对于两阶段检测器,在 特征级别 适应方面进行了一些改进。但是,这种方法不适用于 无法访问 实例级特征 的单阶段 检测器。尽管其他方法通常用于单阶段检测器,但与双阶段检测器的域自适应方法相比,它们的性能不足。
本文提出了一种用于 单阶段检测器 的 生成和自监督 的域适应方法。所提出的方法由 对抗生成方法 和 基于自监督 的方法组成。还证实了对抗性生成方法和基于自监督的方法的互补效应。
当训练和测试数据具有不同的分布时,性能通常会显着下降。一种可能的解决方案是为新域收集标记数据,耗时。另一种解决方案是域适应。域适应的目标是 将模型从标签丰富的域(源域)适应到标签稀缺的域(目标域)。无监督域适应 假设目标域中 没有可用 的标签。
专注于视觉任务的 无监督域适应方法 可以分为四类:基于差异、对抗性判别、对抗性生成和基于自监督的方法。
• 基于差异 的方法旨在 减少源域和目标域 特征分布之间的差异。
• 对抗性判别方法 旨在 使用 特征提取器 和 域分类器 的对抗性学习来 对齐特征。
基于差异的方法和对抗性判别方法也称为特征级适应,因为它们旨在 获得域不变的特征。尽管这两个类别通常表现良好,但需要 特定于架构的设计。
• 对抗性生成方法 使用 具有 image to iamge的翻译获得的 原始 源注释 的 类目标 图像。被称为像素级适应。基于生成对抗网络,并从源图像中生成类似目标的训练数据。无论架构类型如何,都可以应用此类别,因为它只更改训练数据。然而,性能高度依赖于图像生成的质量。
• 基于自监督的方法 在目标域中结合了自监督学习任务。此类别通过向目标图像 添加辅助任务 来拉近源域和目标域。但与其他类别相比,性能有限。
对于两阶段检测器,域适应方法 主要基于 对抗性判别方法。它们通常被设计为在多个级别上对齐特征,并以各种方式进行了改进。但很难在单阶段检测器中假设这种方法,同时预测边界框和目标类别。
单阶段检测器:
• DT 域迁移 :在弱监督的跨域环境中 基于对抗生成方法,具有实例级注释的图像从源域传输到目标域。
• WST 弱自训练:在无监督环境下,基于自监督方法,通过减少不准确的伪标签的负面影响,可以训练未标记的图像。
然而,与两阶段检测器相比,这些单阶段检测器的域自适应方法性能不足。
在四类域适应中,对抗性生成 和 基于自监督的方法 可以很容易地应用于单阶段检测器。而且,这两种方法有不同的优点。
• 对抗性生成方法 可以 获取准确的源标签;
• 基于自监督的方法 可以使用原始目标图像。
为了利用这两种方法,本文提出了一种 无监督域适应方法,该方法 将对抗性生成方法与基于自监督的方法相结合。对于每种方法,我们 使用 DT 和 WST,它们已被证明对单阶段检测器有效。
这两个组件相互补充,从而提高了检测性能。
Contributions:
● 提出了一种用于单阶段检测器的无监督域自适应方法,包括对抗生成方法和基于自监督的方法。
● 展示了对抗性生成方法和基于自监督的方法相互补充。
● 所提出的方法在三个基准数据集上实现了平均精度的提高。
目标检测:
深度卷积神经网络 (CNN) 的发展提高了目标检测的性能。两阶段检测器(例如 R-CNN [1]、Fast R-CNN [2] 和 Faster R-CNN [3])提取候选框,然后对它们进行分类。其优点之一是 分类器可以定制 以适应特定任务。单阶段检测器,例如YOLO 和 SSD ,显著提高了推理速度。
域适应:
域适应的目标是 调整适应从源域中学习到的信息,以便在目标域中使用。
域适应目标检测:
单阶段检测器无法获取实例级特征,因为它们同时预测边界框和目标类别。因此,对抗性判别方法对于一级检测器是不够的。
对抗性生成方法 和 基于自监督的方法 适用于 两阶段 和 单阶段 检测器。
基于对抗生成方法的 DT 方法 使用 CycleGAN 将带有实例级注释的图像从源域传输到目标域,并 在域适应图像上训练检测器。
基于自监督方法的WST 和对抗性背景分数正则化 (BSR),使用 WST,选择了对未标记图像的可靠检测,并 生成了伪实例级别的注释。 BSR 通过提取目标背景的判别特征来减少域偏移。
本文将对抗生成方法和基于自监督的方法 结合起来用于单阶段检测器。
在对抗性生成方法中(图 2(c)),源图像被转换为类似目标的图像。尽管传输图像的分布与目标图像的分布并不完全匹配,但带有源标签的传输图像可以进行监督学习。
在基于自监督的方法中(图 2(d)),对目标图像采用了自监督任务。虽然不能应用监督学习,但这种方法可以训练原始目标图像。这两种截然不同的方法可以相互补充。在目标域附近的监督学习和使用原始目标图像进行训练方面,所提出的方法(图 2(e))接近理想情况(图 2(b))。
本文将 DT 应用于对抗性生成方法,将 WST 应用于基于自监督的方法。 DT 使用 CycleGAN 将源图像转换为类似目标的图像。 WST 通过 在目标图像上生成伪标签 来实现自监督学习。考虑到相邻区域的检测结果,将伪标签分配给可靠的检测。然后,WST 使用伪标签训练检测器,同时使用 弱负样本挖掘 来减少假负样本的影响。
(我们希望采样得到的是 informative negative,在文献中常被称作 hard negative,即强负例。 )
所提出的方法可以分为三个步骤。
● 预训练 SSD:
● DT:真实世界的图像被 迁移 到每个目标域。
● 微调:在微调期间,训练批次 由一半的 域适应数据 和一半的 目标图像 组成。
与基线相比,本文所提出的方法正确地 检测到了更多的目标。此外,本文方法可以检测到 DT 可以而WST不可以 检测到的目标,反之亦然。DT和WST相互补充。
DT性能:与 Clipart1k 和 Comic2k 相比,DT 对于watercolor 2k 无效。对抗生成方法的有效性取决于目标数据集。
WST 性能:WST 显示所有三个数据集的改进。基于自监督的方法 对目标域的变化具有鲁棒性。
Conclusion:本文解决了单阶段检测器的无监督域适应问题。引入了一种生成和自监督的域适应方法。通过应用 DT 和 WST 提出了 SSD 的学习策略。所提出的方法提高了三个基准数据集的域适应性能。本文方法的两个组成部分相互补充。