迁移学习二——JDA

JDA(Joint Distribution Adaptation)是一种迁移学习方法,旨在减小源域和目标域之间的边缘概率分布和条件概率分布差异。通过最大化映射后数据的方差保留属性,并采用MMD距离减小分布差异。在目标域无标签数据的情况下,JDA使用源域分类器生成伪标签来逼近条件概率分布。算法包括属性保留、减小边缘和条件概率分布差异,并通过引入核技巧处理非线性问题。最终目标函数结合了方差最大化和分布差异最小化,通过拉格朗日乘子法求解。
摘要由CSDN通过智能技术生成

本篇文章是对论文《Transfer Feature Learning with Joint Distribution Adaptation》进行学习

1 问题提出

很多域适应的方法没有同时减小源域和目标域之间的边缘概率分布和条件概率分布的差异,之前学习的TCA也是如此,TCA学习一组变换使得映射后的源域数据和目标域数据的边缘概率分布差异减小,然后进行了假设,认为这样的可以使得相应的条件概率分布减小,但并没有直接对条件概率分布进行处理;也有一些方法同时减小了边缘概率分布和条件概率分布之间的差异,但这些方法需要在目标域有带标签的数据。
下面我们来描述JDA应用的场景及目标。
令源域数据 D S = D_{S}= DS={ ( x S 1 , y S 1 ) , ( x S 2 , y S 2 ) , . . . , ( x S n 1 , y S n 1 ) (x_{S_{1}},y_{S_{1}}),(x_{S_{2}},y_{S_{2}}),...,(x_{S_{n_{1}}},y_{S_{n_{1}}}) (xS1,yS1),(xS2,yS2),...,(xSn1,ySn1)},目标域数据 D T = D_{T}= DT={ x T 1 , x T 2 , . . . , x T n 2 x_{T_{1}},x_{T_{2}},...,x_{T_{n_{2}}} xT1,xT2,...,xTn2}, P S ( x s ) P_{S}(x_{s}) PS(xs) D S D_{S} DS的边缘概率分布, P T ( x t ) P_{T}(x_{t}) PT(xt) D T D_{T} DT的边缘概率分布, Q S ( y s ∣ x s ) Q_{S}(y_{s}|x_{s}) QS(ysxs) D S D_{S} DS的条件概率分布, Q T ( y t ∣ x t ) Q_{T}(y_{t}|x_{t}) QT(ytxt) D T D_{T} DT的条件概率分布(注意 y t y_{t} yt在目标域数据中是不存在的),其中 x s ∈ D S x_{s}\in D_{S} xsDS x t ∈ D T x_{t}\in D_{T} xtDT
JDA假设的场景:源域和目标域的特征空间和标签空间一致,但 P S ( x s ) ≠ P T ( x t ) P_{S}(x_{s})\neq P_{T}(x_{t}) PS(xs)=PT(xt) Q S ( y s ∣ x s ) ≠ Q T ( y t ∣ x t ) Q_{S}(y_{s}|x_{s})\neq Q_{T}(y_{t}|x_{t}) QS(ysxs)=QT(ytxt),且目标域中所有数据未进行标注。
JDA目标:映射后数据的属性尽可能保留,缩小映射后源域和目标域的边缘概率分布差异和条件概率分布差异。

2 算法目标及求解

2.1 属性保留

与之前TCA一样,JDA通过最大化映射后数据的方差来保留数据的属性。该问题可以转化为PCA进行求解。
假设 X = [ x 1 , . . . , x n ] ∈ R m ∗ n X=[x_{1},...,x_{n}]\in R^{m*n} X=[x1,...,xn]Rm

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值