【域适应+clip十四】Open-Set Domain Adaptation with Visual-Language Foundation Models

本文链接：https://blog.csdn.net/m0_60231311/article/details/135972356

该文探讨了开放集域适应(ODA)中CLIP视觉语言基础模型的应用，通过熵优化策略提高ODA性能。研究显示，CLIP在不同领域和数据集上对ODA具有鲁棒性，并提出一种方法，通过计算目标域样本熵来区分已知和未知样本。通过结合CLIP的预测和熵优化，该方法不仅提高了ODA的性能，而且适用于无源ODA场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

motivation

无监督域自适应(UDA)是一种非常有效的方法，可以将具有标记数据的源域知识转移到具有未标记数据的目标域。由于目标域中缺乏标记数据以及可能存在未知类，开放集域适应(open-set domain adaptation, ODA)已成为在训练阶段识别这些类的潜在解决方案。虽然现有的ODA方法旨在解决源域和目标域之间的分布变化，但大多数方法在源域上对ImageNet预训练模型进行微调，并在目标域上进行自适应。

最近的视觉语言基础模型(VLFM)，如对比语言图像预训练(CLIP)，对许多分布变化具有鲁棒性，因此，应该大大提高ODA的性能。本文探索了将CLIP(一种流行的VLFM)用于ODA的通用方法。研究了利用CLIP进行zero-shot预测的性能，然后提出了一种熵优化策略来辅助ODA模型与CLIP的输出。

1.introduce

在这项工作中，重点是探索CLIP对ODA的潜力。具体来说，首先研究了CLIP在不同领域和数据集上对ODA的鲁棒性。然后，探索了一个使用CLIP的zero-shot预测来提高ODA绩效的框架。在本文的方法中，计算CLIP在目标域上输出的熵，将低熵的目标样本视为已知样本，而将高熵的目标样本视为未知样本。为了实现ODA，使用源样本训练另一种图像分类模型，称为ODA模型。对于检测到的目标域的已知样本，将CLIP的预测提取到ODA模型中，在ODA模型中，尝试使用CLIP的知识来帮助目标已知样本的适应。对于检测到的目标域的未知样本，通过最大化ODA模型的熵，将这些样本与已知样本进一步分离，其中ODA模型被训练以输出对这些未知样本的低置信度预测。通过将CLIP的输出与熵优化策略相结合，目标是为ODA模型提供更多的信息和判别特征，从而提高ODA的性能。

此外，由于ODA模型可以与目标域的自适应分开训练，因此在训练过程中不需要源样本和目标样本共存。这意味着本文的方法也可以应用于无源ODA (SF-ODA)，其中目标样本的适应步骤只需使用ODA模型即可实现，无需访问源域数据。

本研究的贡献如下:

研究了从CLIP得到的zero-shot预测在ODA问题中的性能。
提出了一种用于CLIP预测的熵优化策略，以改进ODA模型对已知样本的分类和对未知样本的检测。
该方法不仅可以解决ODA问题，也适用于SF-ODA环境。通过几个领域适应的基准来评估本文的方法，本文方法在很大程度上优于其他现有的方法。

2.相关工作

上表总结了ODA和SF-ODA的几种不同主要方法。

2.1. 开集域自适应

源域和目标域的标签集分别记为Cs和Ct。UDA通常涉及闭集域自适应任务，其中Cs=Ct。在存在未知目标类的情况下，Cs是Ct的一个子集，因此提出了ODA作为解决现实场景中类不匹配问题的解决方案。

如[37]所提出的，ODA的一种潜在方法是在通用适应网络中使用源样本和目标样本的重要性加权。[26]引入的域自适应邻域聚类通过熵优化(DANCE)，利用邻域聚类和熵分离来实现弱域对齐，从而获得较强的性能。最先进的ODA方法是由[27]开发的单对全网络(OV ANet)，它使用标记的源数据为每个类训练单对全分类器，并通过最小化交叉熵使开集分类器适应目标域。

2.2. 无源域开放集域自适应

所有先前的UDA和ODA方法都要求在训练期间同时存在源样本和目标样本。这提出了一个重大的挑战，因为由于各种原因，可能无法访问标记的源数据。为了解决这些问题，针对无源UDA提出了源假设转移(source hypothesis transfer, SHOT)[13]，它冻结了源模型的分类器模块，转而专注于通过利用信息最大化和自监督伪标记技术学习目标特定的特征提取模块。USFDA[12]利用类别可分性的知识来检测SFODA的未知样品。[36]提出的OneRing可以很容易地通过加权熵最小化来适应目标域，从而实现SF-ODA。