motivation
无监督域自适应旨在将学习到的知识从一个有标记的源领域转移到另一个无标记的目标领域。大多数现有的UDA方法都是使用基于卷积神经网络(cnn)的框架,从领域层面或类别层面学习域不变特征表示。基于类别级别的UDA的一个基本问题是为目标域中的样本产生伪标签,这些伪标签通常过于嘈杂,无法进行准确的域对齐,不可避免地影响了UDA的性能。随着Transformer在各种任务中的成功,我们发现Transformer中的交叉注意对噪声输入对具有鲁棒性,可以更好地进行特征对准,因此本文将Transformer用于具有挑战性的UDA任务。具体来说,为了生成准确的输入对,我们设计了一种双向中心感知标记算法,为目标样本生成伪标签。结合伪标签,提出了一种权重共享的三支路transformer框架,分别对源/目标特征学习和源-目标域对齐应用自注意和交叉注意。这样的设计明确地强制框架同时学习判别特定于领域和领域不变的表示。提出的方法被称为CDTrans(跨域transformer),它提供了用纯transformer解决UDA任务的第一次尝试之一。
1. Introduce
在UDA中,大多数方法侧重于对齐源域和目标域的分布以及学习域不变特征表示。其中一种UDA方法是基于类别级对齐,他们使用深度卷积神经网络(cnn)在公共UDA数据集上取得了有希望的结果。
基于类别级对齐的基本问题是为目标域的样本生成伪标签以生成输入源-目标对。然而,目前基于cnn的方法对生成的噪声伪标签的鲁棒性不强,无法实现精确的域对齐,我们发现Transformer中的交叉注意善于对齐不同的分布,甚至来自不同的模式,例如视觉到视觉,视觉到文本和文本到语音。结果表明,该方法对伪标签中的噪声具有一定的鲁棒性。因此,在本文中,我们将transformer应用于UDA任务,利用其对噪声的鲁棒性和对特征对齐的超强能力来处理cnn中的上述问题。
在我们的实验中,我们得出结论,即使在标签对中有噪声,由于注意机制,交叉注意仍然可以很好地对齐两个分布。为了获得更准确的伪标签,我们设计了一种针对目标域样本的双向中心感知标记算法。基于跨域相似矩阵生成伪标签,并采用中心感知匹配对矩阵进行加权,将噪声减弱到可容忍范围内。
在伪标签的帮助下,我们设计了UDA的跨域transformerCDTrans)。它由三个权重共享transformer分支组成,其中两个分支分别用于源数据和目标数据,第三个分支是特征对齐分支,其输入来自源-目标对。在源/目标transformer分支中采用自注意,在特征对齐分支中采用交叉注意进行域对齐。这样的设计明确地强制框架同时学习判别特定于领域和领域不变的表示。
贡献有三个方面:
- 提出了一个权重共享的三支路transformer框架,即CDTrans,用于精确的无监督域自适应,利用其对噪声标记数据的鲁棒性和对特征校准的强大功能。
- 为了生成高质量的伪标签,提出了一种双向中心感知标注方法,提高了CDTrans环境下的最终性能。
- CDTrans在VisDA-2017和DomainNet 数据集上实现了与最先进的性能相比的最佳性能。
2. 相关工作
2.1 Transformer for Vision
基于纯Transformer的模型正变得越来越流行。例如,ViT 是最近通过向变压器馈送图像补丁序列提出的;Touvron等人(Touvron等人,2021)提出了DeiT,该DeiT引入了transformer的蒸馏策略,以帮助进行ViT训练;许多其他ViT变体,在图像分类和下游任务,如目标检测、语义分割和目标ReID 等方面,与同类cnn相比,取得了令人满意的性能。对于基于多模态的网络,有几项工作将交叉注意应用于多模态特征融合,这表明注意机制在提取噪声和特征对齐方面是强大的。本文采用了纯transformer背景下的交叉注意方法来完成UDA任务。
2.2 无监督域自适应
UDA方法主要有两个层面:领域层面和类别层面。域级UDA通过将源域和目标域在不同的尺度级别上拉入相同的分布,减轻了源域和目标域之间的分布差异。常用的散度度量包括最大平均差异( MMD) 和Correlation Alignment (CORAL) 。最近,一些工作通过特征提取器和两个特定于领域的分类器之间的对抗方式,专注于细粒度类别级标签分布对齐。与领域尺度上的粗粒度对齐不同,这种方法通过将目标样本推到每个类别中的源样本分布来对齐源和目标领域数据之间的每个类别分布。显然,细粒度对齐会在相同的标签空间内产生更精确的分布对齐。尽管对抗性方法通过在类别级别融合源样本和目标样