本篇文章是对论文《Transfer Feature Learning with Joint Distribution Adaptation》进行学习
1 问题提出
很多域适应的方法没有同时减小源域和目标域之间的边缘概率分布和条件概率分布的差异,之前学习的TCA也是如此,TCA学习一组变换使得映射后的源域数据和目标域数据的边缘概率分布差异减小,然后进行了假设,认为这样的可以使得相应的条件概率分布减小,但并没有直接对条件概率分布进行处理;也有一些方法同时减小了边缘概率分布和条件概率分布之间的差异,但这些方法需要在目标域有带标签的数据。
下面我们来描述JDA应用的场景及目标。
令源域数据 D S = D_{S}= DS={
( x S 1 , y S 1 ) , ( x S 2 , y S 2 ) , . . . , ( x S n 1 , y S n 1 ) (x_{S_{1}},y_{S_{1}}),(x_{S_{2}},y_{S_{2}}),...,(x_{S_{n_{1}}},y_{S_{n_{1}}}) (xS1,yS1),(xS2,yS2),...,(xSn1,ySn1)},目标域数据 D T = D_{T}= DT={
x T 1 , x T 2 , . . . , x T n 2 x_{T_{1}},x_{T_{2}},...,x_{T_{n_{2}}} xT1,xT2,...,xTn2}, P S ( x s ) P_{S}(x_{s}) PS(xs)为 D S D_{S} DS的边缘概率分布, P T ( x t ) P_{T}(x_{t}) PT(xt)为 D T D_{T} DT的边缘概率分布, Q S ( y s ∣ x s ) Q_{S}(y_{s}|x_{s}) QS(ys∣xs)为 D S D_{S} DS的条件概率分布, Q T ( y t ∣ x t ) Q_{T}(y_{t}|x_{t}) QT(yt∣xt)为 D T D_{T} DT的条件概率分布(注意 y t y_{t} yt在目标域数据中是不存在的),其中 x s ∈ D S x_{s}\in D_{S} xs∈DS, x t ∈ D T x_{t}\in D_{T} xt∈DT。
JDA假设的场景:源域和目标域的特征空间和标签空间一致,但 P S ( x s ) ≠ P T ( x t ) P_{S}(x_{s})\neq P_{T}(x_{t}) PS(xs)=PT(xt), Q S ( y s ∣ x s ) ≠ Q T ( y t ∣ x t ) Q_{S}(y_{s}|x_{s})\neq Q_{T}(y_{t}|x_{t}) QS(ys∣xs)=QT(yt∣xt),且目标域中所有数据未进行标注。
JDA目标:映射后数据的属性尽可能保留,缩小映射后源域和目标域的边缘概率分布差异和条件概率分布差异。
2 算法目标及求解
2.1 属性保留
与之前TCA一样,JDA通过最大化映射后数据的方差来保留数据的属性。该问题可以转化为PCA进行求解。
假设 X = [ x 1 , . . . , x n ] ∈ R m ∗ n X=[x_{1},...,x_{n}]\in R^{m*n} X=[x1,...,xn]∈Rm∗