【域适应十八】Making the Best of Both Worlds: A Domain-OrientedTransformer for Unsupervised Domain Adaptat

羊驼不驼a

已于 2024-05-07 19:20:34 修改

阅读量1k

点赞数 7

分类专栏：域适应基本论文文章标签：人工智能

于 2024-04-20 16:48:25 首次发布

本文链接：https://blog.csdn.net/m0_60231311/article/details/137977034

版权

本文提出了一种新的无监督域适应框架DOT，通过创建面向领域的特征空间和分类器，解决了传统方法中目标领域可辨别性和分类器源偏差的问题。DOT利用Transformer的自注意力机制学习源和目标领域的特定表示，通过对比学习和伪标签细化策略提高领域适应性能。

摘要由CSDN通过智能技术生成

论文：Making the Best of Both Worlds: A Domain-Oriented Transformer for Unsupervised Domain Adaptation

motivation

大多数UDA方法在公共嵌入空间内对齐特征，并应用共享分类器进行目标预测。然而，由于当域差异较大时，可能不存在完美对齐的特征空间，因此这些方法存在两个局限性。

首先，由于缺乏目标标签监督，强制领域对齐会降低目标领域的可辨别性。其次，源监督分类器不可避免地会偏向源数据，从而在目标域表现不佳。为了缓解这些问题，本文提出在两个专注于不同领域的单独空间中同时进行特征对齐，并为每个空间创建专门针对该领域的面向领域的分类器。具体来说，设计了一个面向领域的Transformer(DOT)，它具有两个单独的分类令牌来学习不同的面向领域的表示，以及两个分类器来保持对领域的可判别性。利用理论保证的基于对比的对齐和源引导的伪标签细化策略来探索域不变信息和特定信息。

1. introduce

在理论[1]的指导下，目标域的误差主要受源误差和域差异的限制，之前的工作采用了类似的范式，即从共享编码器中学习提取域不变表示，并基于不变特征空间构建共享分类器，如图2(a)所示。具体来说，领域不变表示是通过领域对齐过程来学习的，这要么是一种显式的方式，比如最小化两个领域之间的统计度量差异[33,36,46]，要么是混淆领域判别器[15,35]；要么是隐式的(例如，对目标数据进行自我训练[29,59,62]，要么是产生目标语义数据增强[27])。在理想的情况下，如果来自两个领域的特征达到了完美的按类别对齐，那么由源标签监督的分类器可以正确地分类目标数据。然而，由于目标领域缺乏真正的标签监督，在领域对齐过程中，目标领域的类判别信息容易受到破坏[6]，共享分类器不可避免地偏向源领域[29]，导致目标数据的决策边界不理想。

最近，致力于结合特定领域的信息来提高最终特征不变性[3,26,44]，如图2(b)所示。它们在编码器中创建特定于领域的路径，使其成为部分共享的网络，以更好地保留特定于领域的特征，如批量统计[3]或通道激活[26]。

这些额外的特性减轻了领域差异，并进一步提高了领域不变性。尽管这些方法很有启发性，但它们仍然遵循将所有数据投射到统一的域不变特征空间的范式。因此，当域差异过大而不存在公共空间时，失去目标可辨别性和分类器源偏差等问题仍然是这些方法的瓶颈。

信息的缺失不能用任何数学技巧来填补，应该从一开始就减少领域对齐过程中目标可分辨性的损失。因此，提出了一种新的范式，旨在学习两个具有不同偏好的面向领域的特征空间来代替单一的特征空间，并提出两个具有明显监督的分类器来代替共享的分类器。具体来说，每对特征空间和分类器的目标都是通过结合跨域不变知识和域内固有判别信息来最大化各自领域的性能。如图2(c)所示，高度对称的结构使目标域能够单独拥有最大判别性的目标嵌入函数和合适的决策边界，就像源域在之前的方法中所做的那样。

图2:现有UDA范例与我们的范例的比较。大多数UDA方法遵循经典范式(a)，它采用完全共享的编码器和完全共享的分类器。来自两个域的特征被对齐，使源监督分类器在目标上可重用。一些工作采用(b)，其中部分共享编码器额外捕获特定于领域的信息。利用领域的特殊性，创建具有更好的领域不变性的特征空间，在其上训练共享分类器。与它们不同的是，为了最大限度地保留目标特定的特征并促进准确的目标分类，我们提出了一种新的架构(c)。它通过利用两个面向域的特征空间来解决单空间域对齐过程中的可判别性退化问题，每个特征空间都最大限度地有利于自己的域。然后，通过在面向源的特征空间中分配目标伪标签，并在目标监督下训练最终的目标分类器，实现知识的鉴别转移和利用。

为了创建这两个独立的特征空间，我们求助于视觉transformer(ViTs)的最新研究进展。强大的自注意机制使分类令牌能够自适应地集成不同数量的图像补丁，收集识别的关键信息[30,43]。同时，不同的类令牌在不同的目标上训练时，会收敛到不同的向量上[48]。因此，一个领域一个令牌的想法自然就产生了，即部署两个单独的类令牌，它们分别学习面向源和面向目标的表示。此外，我们在多源DA实验中表明，为每个涉及的领域创建不同的类令牌是对我们框架的一个简单而有前途的扩展。

具体地说，本文提出了一个基于Transformer的UDA框架，称为面向领域的Transformer，以在这个新的数据处理范式中同时利用特定于领域和不变的信息。我们采用[src]和[tgt]两个类令牌来学习不同的映射，从而得到两个不同的特征空间。在每个空间中，训练一个特定于领域的分类器。为了最大限度地保留领域特定信息以创建判别特征空间，让两个分类器从各自领域的源标签或目标伪标签中学习。此外，我们提出了一种基于监督对比学习的面向领域的对齐策略[22]，并从理论上证明了这一目标有助于不同特征空间中的表征从两个原始数据空间中捕获正确的信息。此外，为了提高目标伪标签的质量，促进知识从源领域到目标领域的转移，我们提出了一种新的基于双分类器架构的标签细化机制。具体而言，根据目标数据在无噪声源分类器上的表现，将目标数据分为可靠和不可靠子集，并根据可靠子集为目标数据分配新的伪标签。我们的经验表明，该方法通过利用源数据内部的结构信息，大大降低了目标标签噪声。我们的贡献包括:

提出了一个新的UDA框架，该框架创建了两个面向领域的特征空间，用于学习不同的面向领域的表示。这个框架是通过在Vision Transformer体系结构中创建两个分类令牌来实现的，通过自关注过程和两个单独的分类器集成不同的信息。
在每个特征空间中提出了一个面向领域的对齐目标，通过具有理论保证的对比学习，以及一个源引导的伪标签细化过程来获得高质量的目标