1.motivation
无监督域适应大部分工作都集中在建立源域和目标域的特征分布之间的直接对齐。这种对齐涉及最小化模型学习到的特征分布的一些距离度量。更复杂的方法使用对抗性训练,通过在特征级、像素级或输出级跨域调整表示,从而提高分布之间对齐的质量。
在MCD中提出了一种基于网络内对抗学习的方法,该方法包含一个特征生成器和两个(特定任务)分类器,该方法使用特定任务的决策边界来对齐源样本和目标样本。然而存在一些局限性。例如,它们的差异损失(MCD中为L1)只有在分类器的两个输出概率度量重叠时才有用。
受MCD中的框架的启发,作者将精力集中在改进差异度量上,差异度量在这种基于网络内对抗性学习的方法中起着核心作用。作者将无监督域自适应的两个不同概念联系起来:通过使用特定于任务的决策边界和Wasserstein度量来实现域之间的特征分布对齐。本文提出的切片Wasserstein差异(SWD)方法旨在通过使用Wasserstein度量来最小化在任务特定分类器之间移动边际分布的成本,捕捉特定任务分类器输出之间的不相似性的自然概念。它提供了一个几何上有意义的指导,以检测远离源支持的目标样本,并以端到端可训练的方式实现有效的分布对齐。在实验中,作者验证了该方法在数字和符号识别、图像分类、语义分割和目标检测方面的有效性和通用性。
本文几个关键贡献:
(1)通过最优传输理论(即Wasserstein距离)和任务特定决策边界,提出了一种新的原则性方法来对齐域之间的特征分布。
(2)使用切片Wasserstein差异(Wasserstein度量的变分公式)实现有效的端到端训练。
(3)有效地利用通过以对抗的方式优化切片Wasserstein差异创建的底层流形的几何形状。
(4)该方法在多个任务中推进了最新技术,可以很容易地应用于任何领域自适应问题,如图像分类、语义分割和目标检测。
2.Related Work
大量的无监督域自适应方法旨在通过各种统计矩匹配技术,通过学习域不变特征表示来减少源域和目标域之间的差距。一些方法利用最大平均差异(MMD)来匹配深度神经网络中某些层的隐藏表示。其他方法使用中心矩差异(CMD)方法来显式匹配高阶矩的每个阶和每个隐藏坐标。自适应批归一化(Adaptive batch normalization, AdaBN)也被提出用于调节跨域网络的所有批归一化层中的统计信息。
另一类策略通过利用gan的对抗学习行为来解决领域适应问题。这种技术首先用于特征级,训练一个域鉴别器来正确分类每个输入特征的域,训练特征生成器来欺骗域鉴别器,从而使得到的特征分布成为域不变的。随后,将该技术应用于像素级,在原始输入空间中进行分布对齐,将源域转换为目标域的“样式”,并获得在转换后的源数据上训练的模型。最近,该技术被用于输出级,假设输出空间包含类似的空间结构,用于某些特定的任务,如语义分割。因此,[70]中的方法通过输出空间中的对抗性学习来对齐像素级的ground truth。
相比之下,MCD提出通过显式地使用特定于任务的分类器作为判别器来对齐分布。该框架最大化两个分类器输出之间的差异,以检测源支持之外的目标样本,然后最小化差异,以生成相对于决策边界的源支持内的特征表示。这种方法不是通过启发式假设来对齐特征、输入或输出空间中的流形,而是侧重于直接重塑确实需要重塑的目标数据区域。
Wasserstein度量是由最优传输理论引起的概率度量的自然几何,已经在图像检索、基于颜色的风格转移和图像扭曲等多个领域进行了研究。这是因为即使在分布的支持不重叠的情况下,它也具有几何意义的距离度量。
在领域自适应方面,Courty等[10]首先学习具有类规则性的源样本和目标样本匹配的运输计划。JDOT方法通过综合考虑类规则性和特征分布,学习从源到目标的输入空间映射。DeepJDOT方法在JDOT的基础上进一步改进,在深度神经网络层中使用更具判别性的特征表示联合匹配特征和标签空间分布。然而,这些方法显式地在标签空间中强制源样本和目标样本之间进行一对一的映射,这在很大程度上限制了平衡的源-目标对不可用时的实际使用。当一个数据样本具有结构化的输出空间(如逐像素语义分割)时,如何将这些方法扩展到更通用的任务中也不清楚。
在本文中提出了一个原则性框架来结合两个强大的概念:特定任务决策边界的分布对齐和Wasserstein距离。Wasserstein度量作为任务特定分类器之间可靠的差异度量,它直接度量源样本对目标样本的支持程度,而不是在标签空间中产生显式的一对一映射。Wasserstein差异的变分版本进一步提供了直观且具有几何意义的梯度,以有效地联合训练框架中的特征生成器和分类器。
3.Method
首先在3.1节介绍无监督域自适应设置。其次,简要回顾3.2节中最优运输的概念。最后,在3.3节中详细介绍了如何使用切片Wasserstein差异来训练所提出的方法。
3.1. Framework Setup
给定从源集{xs, ys}中提取的输入数据xs和相应的ground truth ys,以及从目标集xt中提取的输入数据xt,无监督域自适应的目标是建立从标记的源集到未标记的目标集的知识转移。当两个数据分布Xs和Xt足够接近时,人们可以简单地关注最小化联合概率分布P(Xs, Ys)的经验风险。但是,当这两个分布有很大的不同时,仅在源信息上优化模型会导致较差的泛化性。
根据最大分类器差异(Maximum Classifier Discrepancy, MCD)框架,本文训练了一个特征生成器网络G和分类器网络C1和C2,它们分别取G生成的特征响应,并产生相应的logits p1(y|x), p2(y|x)(如图1所示)。
图1:提出的切片Wasserstein差异(SWD)计算的示意图。SWD旨在捕捉任务特定分类器C1和C2在Rd中的概率测度p1和p2的不同之处,它们从特征生成器g中获取输入。SWD通过使用单位球面上均匀测度的径向投影的Wasserstein度量的变分公式直接实现端到端训练,为检测远离源支持的