前言
在这项工作中,我们探索了一种名为DeepJDOT的解决方案来解决域转移问题:通过测量基于最优传输的联合深度表示/标签的差异,我们不仅学习源域和目标域之间对齐的新数据表示,而且同时保留分类器使用的判别信息。
在JDOT中,作者提出在源中的类正则性约束下,使用离散最优传输来匹配两个域的偏移边缘分布。联合分布直接使用耦合 γ 对边缘和类条件分布共同移位进行对齐。但是,该方法有两个缺点:
1)JDOT方法规模很小,因为它必须解决n1×n2的耦合问题,其中n1和n2是要对齐的样本;
2) 计算输入空间之间的最佳传输耦合γ(并使用`2距离),这是一个很难对齐的表示,因为我们对匹配更多的语义表示感兴趣,这些语义表示本应简化分类器使用它们进行决策的工作。
DeepJDOT使用卷积神经网络(CNN)解决JDOT中两个问题所需的特性:
1)通过沿着CNN训练逐渐调整最优传输耦合,获得了可扩展的解决方案,即JDOT的近似和随机版本;
2) 通过学习CNN深层中的耦合,对齐分类器用于决策的表示,这是类的更语义的表示。总之,我们在单个CNN框架中联合学习两个域和分类器之间的嵌入。我们使用基于最优传输的领域自适应定制损失函数,因此将我们的命题称为深度联合分布最优运输(DeepJDOT)。
提出的DeepJDOT使用了两个领域共享嵌入的概念,并建立在与基于MMD的方法类似的逻辑上,但为对齐添加了明确的判别成分:提出的Deep JDOT将表示和判别学习相关联,因为最优传输耦合确保分布匹配,而i)JDOT类损失执行源标签到目标样本的传播,以及ii)学习CNN的深层中的耦合的事实确保了辨别能力。
Optimal Transport
OT搜索使两个分布µ1和µ2之间产生最小位移成本的概率耦合γ∈π(µ1,µ2)
给定的成本函数c(x1,x2)测量样本x1和x2之间的相异性。其中π(µ1,µ2)描述了具有边缘µ1和µ2的联合概率分布的空间。在离散情况下(两种分布都是经验分布),这变成:
其中F是Frobenius点积,C≥0是成本矩阵∈Rn1×n2,表示成对成本C(xi,xj),γ是具有规定的边距大小为n1×n的矩阵。这个优化问题的最小值可以用作分布之间的距离,并且,只要成本c是范数,它就被称为Wasserstein距离。
Joint Distribution Optimal Transport
联合分布最优传输(JDOT)方法,通过直接学习嵌入成本函数c中的分类器来防止两步自适应(即首先自适应表示,然后在自适应特征上学习分类器)。其基本思想是对齐联合特征/标签分布,而不是仅考虑特征分布。
对于第i个源元素和第j个目标元素,其中c(·,·)被选择为L2距离”,L(·,.)是分类损失(例如铰链或交叉熵)。参数α和λt是两个标量值,对距离项的贡献进行加权。由于目标标签y t j是未知的,它们被代理版本f(x t j)取代,该版本依赖于分类器f:X→ Y.分类损失的计算会导致以下最小化问题:
其中Df依赖于f,并且集合了所有的成对代价d(·,·)。共享共同表示和共同标签的样本(通过分类)被匹配,从而产生更好的区分。JDOT证明了最小化这个数量相当于最小化领域自适应问题的学习边界。然而,JDOT有两个主要缺点:i)在大型数据集上,γ的求解变得困难,因为γ的大小与样本数量成二次方;ii)成本c(xsi,xtj)在输入空间中作为图像上的平方欧几里得范数,并且可以是两个样本之间的相异性的无信息性的。
提出的DeepJDOT通过引入随机版本来解决这两个问题,该版本只计算CNN迭代过程中的小耦合,并且通过在CNN的深层语义表示之间而不是在图像空间中学习最优传输这一事实。
图1。DeepJDOT方法概述。虽然特征提取器g和分类器f的结构由两个域共享,但它们被表示两次以区分这两个域。潜在表示和标签都用于计算每批全局损失函数中使用的耦合矩阵γ。 Proposed method
Proposed method
Deep Joint Distribution Optimal Transport(DeepJDOT)
如图1所示,DeepJDOT模型由两部分组成:嵌入函数g:x→ z、 其中输入被映射到潜在空间z,并且分类器f:z→ y、 其将潜在空间映射到目标域上的标签空间。潜在空间可以是由模型提供的任何特征层,在我们的情况下是CNN的倒数第二个完全连接层。DeepJDOT联合优化该特征空间和分类器,以提供一种在目标域上表现良好的方法。这个问题的解决方案可以通过最小化以下目标函数来实现:
其中ÿ