1.motivation
领域自适应方法大多数都集中在单源设置上没有考虑更实际的场景,即存在多个具有不同分布的标记源域。单源域自适应的应用可能会导致次优解,这需要有效的多源域自适应(MDA)技术,但大多数都存在以下局限性:
- 为了学习域不变特征,忽视了提取特征的判别性
- 没有考虑源与目标域之间的差异,不同源域对目标域的贡献不同,如图1所示。
- 对于同一源域内的样本照单全收,没有考虑不同样本与目标域样本之间的相似度
- 当域分类器性能很好时,基于对抗学习的方法会存在梯度消失的问题
图1:MDDA说明,它探索了不同源和目标之间的关系,采用判别器D以对抗方式测量每个源和目标之间的相似性ω。从图中也能看出S1,S2比S3,S4距离目标T更近,权重ω也会相对较大,各域中每个样本和T的相似性也不同,作者用红色虚线加以区分,用红色虚线内的样本对预测器进行微调得到。基于域相似度对不同蒸馏源分类器的预测结果进行聚合,得到目标样本的最终预测结果。
因此本文提出了一种新的多源提取域自适应(MDDA)网络,该网络不仅考虑了多个源与目标之间的不同距离,而且考虑了源样本与目标样本的不同相似度。本文的主要贡献如下:
- 本文提出MDDA探索不同源和目标之间的关系,并基于这些关系对源分类器进行微调和聚合,从而实现对目标更准确的推断。
- 与将多个源和目标对称地映射到同一空间相比,MDDA学习了更具判别性的目标表示,并通过使用单独的特征提取器(以对抗的方式将目标不对称地映射到源的特征空间)来避免多源和目标分布同时变化带来的振荡。
- 在对抗训练中使用Wasserstein距离,即使在目标和源分布不重叠的情况下也能获得更稳定的梯度。
- 本文提出了源蒸馏机制,以选择更接近目标的源训练样本,并用这些样本对源分类器进行微调。
- 本文提出了一种新的机制,在源域上自动选择加权策略来强调更多相关的源并抑制不相关的源,并基于这些权重聚合多个源分类器以构建更准确的目标预测器。
- 本文根据公共基准广泛评估MDDA,实现最先进的性能并验证MDDA的功效。
2.相关工作
大多数深度SUDA方法采用带有两个流的连接架构,分别表示源域和目标域的模型。一般来说,这些方法是与基于标记源数据的传统任务损失和另一个损失联合训练,以解决领域转移问题,如差异损失、对抗损失、重建损失等。基于差异的方法明确测量两个网络流的源域和目标域之间的差异,例如最大平均差异的多核变体,相关对齐和对比域差异。对抗性生成模型将域判别模型与生成组件结合起来,通常基于GAN及其变体,如CoGAN 、SimGAN 、CycleGAN 生成假源或目标数据和CyCADA 。对抗性判别模型通常采用相对于领域判别器的对抗性目标来鼓励领域混淆。当直接应用于MDA问题时,这些方法大多存在精度低的问题。
多源数据处理MDA假设从多个来源收集训练数据。有一些理论分析来支持现有的MDA算法。早期的MDA方法主要集中在浅层模型上,包括两类:特征表示方法和预学习分类器的组合。一些新的浅层MDA方法旨在处理特殊情况,如不完全MDA 和目标移位。
一些有代表性的基于深度学习的