迁移学习一——TCA和SSTCA

本篇文章是对论文《Domain Adaptation via Transfer
Component Analysis》进行学习

1 背景

首先我们引入域的概念,通常认为域由两部分组成:输入 χ \chi χ的特征空间和输入X的边缘概率分布P(X),其中 X = ( x 1 , x 2 , . . . , x n ) ∈ χ X=(x_{1},x_{2},...,x_{n})\in \chi X=(x1,x2,...,xn)χ是输入样本。一般而言,如果两个域不同,那么它们有着不同的特征空间或者不同的边缘概率分布。
我们假设 D S = D_{S}= DS={ ( x S 1 , y S 1 ) , ( x S 2 , y S 2 ) , . . . , ( x S n 1 , y S n 1 ) (x_{S_{1}},y_{S_{1}}),(x_{S_{2}},y_{S_{2}}),...,(x_{S_{n_{1}}},y_{S_{n_{1}}}) (xS1,yS1),(xS2,yS2),...,(xSn1,ySn1)}, D T = D_{T}= DT={ x T 1 , x T 2 , . . . , x T n 2 x_{T_{1}},x_{T_{2}},...,x_{T_{n_{2}}} xT1,xT2,...,xTn2}, P ( X S ) P(X_{S}) P(XS) D S D_{S} DS的边缘概率分布, Q ( X T ) Q(X_{T}) Q(XT) D T D_{T} DT的边缘概率分布,其中 D S D_{S} DS D T D_{T} DT的特征空间是一致的,但边缘概率分布 P ( X S ) P(X_{S}) P(XS) Q ( X T ) Q(X_{T}) Q(XT)不一致。
我们将 D S D_{S} DS称为源域,将 D T D_{T} DT称为目标域,可以看到源域中的数据为已标注数据,目标域为未标注数据。那么有这样一类问题:是否可以在源域上训练分类器,然后用得到的分类器目标域上对未标注数据进行标注。
大多数域适应方法处理此问题时会假设 P ( X S ) ≠ Q ( X T ) P(X_{S})\neq Q(X_{T}) P(XS)=Q(XT) P ( Y S ∣ X S ) = Q ( Y T ∣ X T ) P(Y_{S}|X_{S})=Q(Y_{T}|X_{T}) P(YSXS)=Q(YTXT),但实际场景中,不同域的条件概率分布有时也是不同的。此时TCA被提出来,TCA进行了更弱的假设,就是 P ( X S ) ≠ Q ( X T ) P(X_{S})\neq Q(X_{T}) P(XS)=Q(XT),但存在一个映射 ϕ \phi ϕ(注意 ϕ \phi ϕ通常是非线性的)使得 P ( ϕ ( X S ) ) ≈ Q ( ϕ ( X T ) ) P(\phi (X_{S}))\approx Q(\phi (X_{T})) P(ϕ(XS))Q(ϕ(XT)) P ( Y S ∣ ϕ ( X S ) ) ≈ Q ( Y T ∣ ϕ ( X T ) ) P(Y_{S}|\phi (X_{S}))\approx Q(Y_{T}|\phi (X_{T})) P(YSϕ(XS))Q(YTϕ(XT)),那么接下来的关键就是找到这样的映射 ϕ \phi ϕ

2 知识准备

在正式开始学习TCA前,先引入两个概念。(参照https://zhuanlan.zhihu.com/p/27305237)

2.1 MMD距离

MMD全称是 Maximum Mean Discrepancy,用于在再生核希尔伯特空间中度量两个分布的距离。
下面举个例子,假设X=( x 1 , x 2 , . . . , x n 1 x_{1},x_{2},...,x_{n_{1}} x1,x2,...,xn1),Y=( y 1 , y 2 , . . . , y n 2 y_{1},y_{2},...,y_{n_{2}} y1,y2,...,yn2)是从两个不同的分布进行采样得到的样本集,那么
MMD(X,Y)= ∣ ∣ 1 n 1 ∑ i = 1 n 1 ϕ ( x i ) − 1 n 2 ∑ i = 1 n 2 ϕ ( y i ) ∣ ∣ 2 ||\frac{1}{n_{1}}\sum_{i=1}^{n_{1}}\phi (x_{i})-\frac{1}{n_{2}}\sum_{i=1}^{n_{2}}\phi (y_{i})||^{2} n11i=1n1ϕ(xi)n21i=1n2ϕ(yi)2,其中 ϕ \phi ϕ是向希尔伯特空间进行映射的函数,通过这个式子很容易看出,MMD距离就是样本在高维空间的映射的均值之间的距离。
注意,当且仅当两个分布相同时,MMD距离趋近于零。

2.2 HSIC

HSIC的全称是Hilbert–Schmidt Independence Criterion,希尔伯特-施密特独立性系数,用于度量两个样本集之间的独立性。
HSIC(X,Y)= 1 ( n − 1 ) 2 t r ( H K H K y y ) \frac{1}{(n-1)^{2}}tr(HKHK_{yy}) (n1)21tr(HKHKyy)
其中 n = n 1 + n 2 n=n_{1}+n_{2} n=n1+n2 H = I − 1 n I I H=I-\frac{1}{n}II H=In1II I I I为单位矩阵, I I II II为元素全为1的矩阵),H用于中心化, K K K K y y K_{yy} Kyy为X和Y的核矩阵。
HSIC(X,Y)的值越大,表明X和Y的依赖性越强。

3 无监督TCA

3.1 问题转化

前面提到TCA假设 P ( X S ) ≠ Q ( X T ) P(X_{S})\neq Q(X_{T}) P(XS)=Q(XT),但存在一个映射 ϕ \phi ϕ使得 P ( ϕ ( X S ) ) ≈ Q ( ϕ ( X T ) ) P(\phi (X_{S}))\approx Q(\phi (X_{T})) P(ϕ(XS))Q(ϕ(XT)) P ( Y S ∣ ϕ ( X S ) ) ≈ Q ( Y T ∣ ϕ ( X T ) ) P(Y_{S}|\phi (X_{S}))\approx Q(Y_{T}|\phi (X_{T})) P(YSϕ(XS))Q(YTϕ(XT))
那么接下来的关键就是找到这样的映射 ϕ \phi ϕ,但需要注意的是目标域上的数据是没有标签的,也就是 Q ( Y T ∣ ϕ ( X T ) ) Q(Y_{T}|\phi (X_{T})) Q(YTϕ(XT))一开始是不知道的,那么就不能直接通过最小化 P ( Y S ∣ ϕ ( X S ) P(Y_{S}|\phi (X_{S}) P(YSϕ(XS) Q ( Y T ∣ ϕ ( X T ) ) Q(Y_{T}|\phi (X_{T})) Q(YTϕ(XT))的距离来学习映射 ϕ \phi ϕ
文章中又换了一个思路,既然不能直接最小化 P ( Y S ∣ ϕ ( X S ) P(Y_{S}|\phi (X_{S}) P(Y

  • 15
    点赞
  • 74
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值