读文章3:Prototypical Cross-domain Self-supervised Learning for Few-shot Unsupervised Domain Adaptation

记录读论文的过程,如果哪里不对,请各位大佬指正。


该文章是读论文2的小部分理论基础
看完了论文2有一些小糊涂就找了这篇文章来看看。


文章题目:Prototypical Cross-domain Self-supervised Learning for Few-shot Unsupervised Domain Adaptation
文章地址:

代码有无:有


0.Abstract:

Unsupervised Domain Adaptation (UDA) transfers predictive models from a fully-labeled source domain to an unlabeled target domain. In some applications, however, it is expensive even to collect labels in the source domain, making most previous works impractical. To cope with this problem, recent work performed instance-wise cross-domain self-supervised learning, followed by an additional fine-tuning stage. However, the instance-wise selfsupervised learning only learns and aligns low-level discriminative features. In this paper, we propose an endto-end Prototypical Cross-domain Self-Supervised Learning (PCS) framework for Few-shot Unsupervised Domain Adaptation (FUDA)1. PCS not only performs cross-domain low-level feature alignment, but it also encodes and aligns semantic structures in the shared embedding space across domains. Our framework captures category-wise semantic structures of the data by in-domain prototypical contrastive learning; and performs feature alignment through cross-domain prototypical self-supervision. Compared with state-of-the-art methods, PCS improves the mean classification accuracy over different domain pairs on FUDA by 10.5%, 3.5%, 9.0%, and 13.2% on Office, Office-Home, VisDA-2017, and DomainNet, respectively.

abstract总结:

在UDA领域中,收集源域中标签很昂贵,所以为了解决这个问题,最近的研究提出实例式跨域自监督学习,然后进行微调。但是他有缺点,即只能学习和调整低层次的判别特征。本文提出了一种端到端的原型跨域自监督学习(PCS)框架,用于 "少量无监督域适应"(FUDA)

PCS 不仅能进行跨域低级特征对齐,还能在跨域共享嵌入空间中对语义结构进行编码和对齐。他通过域内原型对比学习捕捉数据的类别语义结构,并通过跨域原型自监督执行特征配准。


1.Introduction:

由于领域转移问题,在特定数据集上训练的深度神经网络往往无法泛化到新的领域。无监督领域适应(UDA)将预测模型从完全标记的源领域转移到无标记的目标领域。虽然在目标域中没有标签信息是一项挑战,但许多 UDA 方法可以利用源域中丰富的显式监督,以及用于域对齐的无标签目标样本,在目标域中实现高精度。然而,在现实世界的一些应用中,由于注释成本高、难度大,即使在源领域提供大规模注释也往往具有挑战性。(本篇文章就是为了解决这个问题)

在本文中,为了应对源域的标注成本,考虑了少量无监督域适应(FUDA)设置,即只有极少部分源样本被标注,而其余所有源样本和目标样本仍未标注。

基于文献[39]提出了一些缺点:(以下为原文翻译)

缺点1;数据的语义结构并没有被学习到的结构编码。这是因为 [39] 中的域内自监督将两个实例视为负对,只要它们来自不同的样本,而不管语义是否相似。因此,许多语义相同的实例在特征空间中被推开,这是不可取的。

缺点2:[39] 中的跨域实例间匹配对异常样本非常敏感。试想如果源域样本和目标样本的嵌入相距很远(即域差距很大),而一个异常源域样本比其他任何源域样本都更接近所有目标样本。那么 [39] 中的方法就会将所有目标样本匹配到同一个源样本上(参见图 3)。对于一个给定的样本,另一个域中的匹配样本可能会在训练过程中发生剧烈变化,从而使优化更难收敛。

图3:

缺点3:两阶段管道(即 SSL 之后的域适应)比较复杂,实验表明,不同数据集的最佳 DA 方法各不相同。因此,训练工作相当繁琐,而且目前还不清楚如何针对不同的数据集选择第二阶段的最佳 DA 方法。

所以,我们提出原型跨域自监督学习(Prototyical Cross-domain Self-supervised learning),这是一种用于 FUDA 的新型单阶段框架,它将表示学习和域对齐与少量标记的源样本统一起来。PCS 包含三个主要部分,用于学习判别特征和领域不变特征。(以下为翻译)

  • PCS 执行域内原型自监督,将数据的语义结构隐式地编码到嵌入空间中。这是受 [41] 的启发,但我们进一步利用任务的已知语义信息,在每个领域学习更好的语义结构。(其解决了缺点1)
  • 其次,PCS 执行跨域实例到原型匹配,以更稳健的方式将信息从源域转移到目标域。与实例到实例的匹配相比,将样本与原型(即一组语义相似的实例的代表性嵌入)进行匹配对另一领域的异常实例更具鲁棒性,并使优化收敛得更快、更顺利。(其对应解决缺点2)
  • 第三,PCS 将原型学习和cos分类器统一起来,并根据源原型和目标原型自适应地更新余弦分类器。为了进一步减轻跨域不匹配的影响,我们进行了熵最大化处理,以获得更多样化的输出。我们证明,与熵最小化一起,这相当于最大化输入图像与网络预测之间的互信息(MI)。(解决缺点3)(这里可以理解为进行了一些公式上的改进)

总而言之,我们的贡献有三个方面:

  • 我们提出了一种新颖的原型跨域自监督学习框架(PCS),用于少量无监督域适应。
  • 我们建议利用原型以统一、无监督和自适应的方式更好地进行语义结构学习、判别特征学习和跨域对齐。
  •  虽然在复杂的两阶段框架[39]中很难选择最佳的领域适应方法,但 PCS 可以很容易地进行端到端的训练,并在多个基准数据集上以较大的优势优于所有最先进的方法。

2.Related Work(略)

Domain Adaptation.

Self-supervised Learning.

Self-supervised Learning for Domain Adaptation.

3.Approach

方法这块主要从三点开始论述:域内是如何对齐的,跨域是如何对齐的,分类器是如何学习的,DUDA方法研究PCS学习,文章中的公式推导比较多。


这里先简单介绍一下之前的UDA

3.1. In-domain Prototypical Contrastive Learning

第一段:

引入了个体判别的例子(不了解个体判别的可以先去了解一下),并说出了她的缺点:

the semantic structure of the data is not encoded by the learned representations.(模型学习到的表征没有编码数据的语义结构)原因是:只要两个实例来自不同的样本,无论其语义如何,都将被视为负对。

对于单个领域,文献[41] 提出ProtoNCE 通过执行迭代聚类和表征学习来学习数据的语义结构。其目的是:使同一集群中的特征更加聚合,使不同集群中的特征更加分散。

第二段:

针对第一段的 ProtoNCE 提出问题:若在Ds ∪ Dsu ∪ Dtu 的区域应用会有潜在问题。

原因:由于领域偏移,不同领域不同类别的图像可能会被错误地聚合到同一个集群中,而不同领域同一类别的图像可能会被映射到相距甚远的集群中。为了解决这个问题,作者在Ds ∪ Dsu 和 Dtu 中分别执行原型对比学习,以防止跨域图像的错误聚类和不加区分的特征学习。

下面开始讨论为两次分别对比学习的公式,并且最后整合成一个损失函数:

3.2. Cross-domain Instance-Prototype SSL

为了在源域和目标域中都具有域对齐和更具区分性的特征,我们提出了cross-domain instance-prototype selfsupervised learning.

前人工作侧重于通过差异最小化或对抗学习进行域对齐。(效果差,且它们大多只关注分布匹配,而不考虑跨域的语义相似性匹配。)

引入:Instance-instance matching,其将实例 i 与另一领域中具有最相似表示的实例 j 进行匹配。然而,由于存在域差距,实例可以很容易地映射到另一个域中不同类别的实例上。在某些情况下,如果一个域中的异常值与另一个域中的异常值极为接近,它就会与另一个域中的所有实例相匹配,如图 3 所示

引入我们的方法:

我们的方法能发现不同领域中实例和集群原型之间的正匹配和负匹配。

上面这个图的一堆公式主要是在说:source domain的域中心和target domain的域中心是怎么靠近的

3.3. Adaptive Prototypical Classifier Learning

本节目标是学习一个更好的领域对齐的判别特征编码器 F,更重要的是学习一个余弦分类器 C,以便在目标领域达到较高的准确率。

Adaptive Prototype-Classifier Update (APCU)


上面这一块没太看懂,大概就是讲关于C的balabala


后面这些在说关于w的选择(需要分段)

Mutual Information Maximization


这块也有点糊涂,大概总结一下是:

首先,为了促进网络在数据集上有多样化的输出,我们最大化预期网络预测熵 H

其次,为了获得对每个样本的高可信度预测,我们利用网络输出的熵最小化。

这两种预期行为等同于最大化输入和输出之间的互信息:

3.4. PCS Learning for FUDA

本节整合一下

4. Experiments

4.1. Experimental Setting

数据集:

Office

Office-Home

VisDA-2017

DomainNet

Implementation Details


4.2. Results on FUDA

Baselines.

说了一大堆我都不知道的模型,从后面来看应该是前人做的模型,用来比较


​​​​​​​

SO 是一种仅使用标注源图像训练的模型。CDAN[45]和 MDDIA[35]都是 UDA 领域中最先进的方法,使用领域分类器进行领域配准。MME [59] 将未标记目标数据相对于特征提取器的条件熵最小化,相对于分类器的条件熵最大化。CAN [38] 使用聚类信息来对比源域和目标域的差异。CDS [39] 是一种基于实例的跨域自监督预训练方法,可用于其他域适应方法并形成两阶段方法,如 CDS / CDAN 和 CDS / MME。我们通过将两个阶段的损失加在一起并调整不同损失的权重,将 CDS 重新实现为端到端版本。我们还研究了上述方法的单阶段版本(CDS + CDAN、CDS + MME)。根据 [39],为了获得更好的基线性能,我们在之前的 DA 方法中加入了源熵最小化(ENT)。

上结果:

table1:数据集:office

table3:数据集:office—home
table4:数据集:VisDA-2017

table5:数据集:DomainNet dataset.

4.3. Ablation Study and Analysis

接下来,我们研究了 PCS 中每个组件在 Office 上的有效性。表 2 显示,添加每个组件都会对最终结果产生影响,而不会降低性能。比较表 2 最后一行和表 1,我们可以发现即使没有 MIM,PCS 仍然优于之前的所有方法。我们分别在图 4 的左侧和右侧绘制了使用 t-SNE [48]学习到的特征:Office 中的 DSLR-to-Amazon 设置,以及 Office-Home 中的 Real-to-Clipart 设置。上一行中,颜色代表每个样本的类别;下一行中,青色代表源样本,红色代表目标样本。与 ImageNet 预训练和 CDS 相比,可以定性地看出 PCS 能够很好地聚类特征空间中的同类样本,因此 PCS 更倾向于使用更具区分性的特征。此外,与 ImageNet 预训练和 CDS 相比,PCS 的特征聚合得更紧密,这表明 PCS 可以学习到更好的数据集语义结构。

4.4. Sample Efficiency

我们在 Office 数据集(DSLR 作为源,Amazon 作为目标)上将我们的方法与其他先进方法进行了比较,源标签数量各不相同。从图 5 中我们可以看出,在不同标签样本数的所有设置中,PCS 的性能都优于所有 SOTA 方法。此外,我们的方法还具有很高的标签效率:a) 对于每类 1 幅图像(共 31 幅标记源图像),PCS 的准确率可达 76.1%;b) 对于全标记设置(共 498 幅标记源图像),PCS 的准确率可达 77.4%;c) 在标记源图像减少 94% 的情况下,我们的方法的性能下降仅为 1.3%。简而言之,在标注源数据较少的情况下,PCS 的性能比其他方法高出很多。

5. Conclusion

In this paper, we investigated Few-shot Unsupervised Domain Adaptation where only few labeled samples are available in the source domain, and no labeled samples in the target domain. We proposed a novel Prototypical Crossdomain Self-supervised learning (PCS) framework that performs both in-domain and cross-domain prototypical selfsupervised learning, as well as adaptive prototpe-classifier learning. We perform extensive experiments on multiple benchmark datasets, which demonstrates the superiority of PCS over previous best methods. PCS sets a new state of the art for Few-shot Unsupervised Domain Adaptation.

在本文中,我们研究了 "少量无监督域适应"(Few-shot Unsupervised Domain Adaptation),即源域中只有少量标注样本,而目标域中没有标注样本。我们提出了一种新颖的原型跨域自监督学习(PCS)框架,它既能执行域内和跨域原型自监督学习,也能执行自适应原型分类器学习。我们在多个基准数据集上进行了大量实验,证明 PCS 优于以往的最佳方法。PCS 为少数几次无监督领域适应性学习开创了新的技术领域。


感觉本文最重要的是approach的部分,可以反复推敲一下。

  • 34
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值