SFOD：无源域适配升级优化，让检测模型更容易适应新数据（附论文下载）

最新推荐文章于 2024-11-13 12:04:19 发布

计算机视觉研究院

最新推荐文章于 2024-11-13 12:04:19 发布

阅读量1.2k

点赞数 1

文章标签：计算机视觉机器学习人工智能深度学习 python

本文链接：https://blog.csdn.net/gzq0723/article/details/125419594

版权

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Li_Source-Free_Object_Detection_by_Learning_To_Overlook_Domain_Style_CVPR_2022_paper.pdf

计算机视觉研究院专栏

作者：Edison_G

无源目标检测 (SFOD) 需要将在标记的源域上预训练的检测器调整到目标域，只有来自目标域的未标记训练数据。

技术简要

无源目标检测 (SFOD) 需要将在标记的源域上预训练的检测器调整到目标域，只有来自目标域的未标记训练数据。现有的SFOD方法通常采用伪标签范式，模型自适应在预测伪标签和微调模型之间交替进行。

由于域偏移的存在和目标域训练数据的使用有限，这种方法的伪标签准确性不令人满意。如上图所示。

在今天分享中，研究者提出了一种新颖的Learning to Overlook Domain Style(LODS) 方法，该方法以有原则的方式解决了这些限制。研究者的想法是通过强制模型忽略目标域样式来减少域转移效应，从而简化模型适应并变得更容易进行。

为此，增强了每个目标域图像的风格，并利用原始图像和增强图像之间的风格度差异作为模型适应的自监督信号。通过将增强图像视为辅助视图，利用学生教师架构来学习忽略与原始图像的风格程度差异，其特征还在于新颖的风格增强算法和图形对齐约束。大量实验表明LODS在四个基准测试中产生了新的最先进的性能。

背景概述

目前，关于SFOD问题的研究不多。社区更加关注无源域适配（SFDA）。SFDA的方法大致可以分为两类。

第一类是基于样本生成的思想：

由于源数据不可访问，传统的域适应技术不适用。生成具有源域样式或目标域样式的标记图像，或服从源分布的标记特征。成功的关键是满意的样本生成，这本身就具有足够的挑战性并且没有很好地解决。

另一类利用基于自我训练的伪标签：

获得可靠的标签并不容易，尤其是在领域差距很大的情况下，在自训练过程中总是只取高置信度的标签样本。

很明显，目标域风格（例如成像特征）对域相对于源域的迁移有很大贡献。因此，最小化目标域样式对模型行为的影响将立即有效地减少域转移。在上述基础上，如刚开始的图所示，提出了一种新的领域适应方法（LODS）。

它首先增强每个目标图像的目标域风格，同时保持目标图像的原始风格。这样就构建了基于风格增强图像的辅助视图。有了这个辅助视图，新方法让目标检测器学会忽略目标域样式。学生-教师框架被用来完成这项任务。

新框架分析

提出的LODS方法由两部分组成。如下图所示，一个是style enhancement module；另一个是overlooking style module。

style enhancement module（上图(a)）首先提取每个图像的风格，即通道均值和方差。对于一幅图像，其增强的目标域风格被计算为它本身和任何目标图像的风格的非线性组合。然后，通过替换增强样式来增强样式。通过将风格增强图像视为另一个领域，可以使用Mean-Teacher框架来利用风格差异进行模型适应（图(b)）。目标图像和风格增强版本分别输入教师和学生模型。这两个模型基于Faster-RCNN并初始化为预训练的源模型。基于图匹配的类实例级对齐和图像级对齐旨在帮助教师和学生相互学习。伪标签也用于增加学生模型的辨别力。

基于上述推断，研究者设计了一个风格增强模块，如上图所示。两个网络F1和F2分别设计为近似δ1和δ2。它们中的每一个都由两个全连接层和一个ReLU层组成，具有最小的参数是非线性的。特征编码器E源自预训练的VGG-16模型，并在训练和测试期间固定。解码器D是编码器的逆。由于风格一致性受限于底层特征，编码器E = E2 ◦E1进一步分为E1和E2部分，其中◦是函数嵌套算子。解码器D = D2 ◦ D1作为D1和D2也是如此。具体来说，第一次下采样后的第一个ReLU层是分割E的分割线。D被对称分割为E。

实验可视化

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

VX：2311123606