论文笔记:Doamin Adaptation——JGSA

论文笔记:Doamin Adaptation——JGSA

论文

Jing Zhang, Wanqing Li, and Philip Ogunbona. 2017. Joint geometrical and statistical alignment for visual domain adaptation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’17).

论文解读

Joint geometrical and statistical alignment (JGSA)

目标:找到两个映射A和B,分别作用于源域和目标域,获得两个域的新的表示。
四个步骤:
(1)目标域的方差最大化;
(2)保留源域数据的可区分性信息;
(3)最小化源域和目标域的分布差异;
(4)最小化源域和目标域的子空间的差异。

(1)Target variance maximization
最大化目标域的方差,目的是保留数据的属性。
目标函数:
在这里插入图片描述
其中, S t = X t H t X T S_t=X_tH_tX^T St=XtHtXT 是目标域的散布矩阵, H t = I t − 1 n t 1 t 1 t T H_t = I_t - \frac{1}{n_t} 1_t1_t^T Ht=Itnt11t1tT 是中心矩阵。

(2)Source discriminative information preservation
保留源域数据可分性信息,即最大化类间差异,最小化类内差异。
目标函数1):
在这里插入图片描述

最大化类间差异,其中
在这里插入图片描述

表示源域类间散布矩阵,

在这里插入图片描述
表示源域样本的均值,
在这里插入图片描述

表示源域中属于类别c的样本的均值。

目标函数2):
在这里插入图片描述
最小化类内差异,
其中,
在这里插入图片描述
表示源域类内散布矩阵。

(3)Distribution divergence minimization
最小化分布差异
此处仍然使用MMD度量来计算两个域的分布差异。
边缘分布:
在这里插入图片描述

条件分布:
在这里插入图片描述

目标函数:

在这里插入图片描述
其中:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
此处很值得说明的一个地方是,矩阵M与TCA和JDA中的有所不同,是因为作者认为源域和目标域映射后的子空间即使不是同一个也可以使他们的分布相似,我觉得这里的思想与SGF/GFK中的思想是相同的,可以参考流形空间的思想进行理解。

(4)Subspace divergence minimization
最小化子空间的差异
这里与SA的思想相似,目标是减小域之间的差异,不过SA是通过学习一个变换矩阵M将源域子空间映射到目标域子空间,JGSA是通过优化前面提到的变换矩阵A和B来实现的。

目标函数:
在这里插入图片描述

最后,我们将前面的4个部分集成在一起,形成总的目标函数:

在这里插入图片描述

然后,与SCA一样,
引入约束条件 用来限制目标域变换矩阵B的大小。进一步将优化函数写为:
在这里插入图片描述

通过求解这个优化函数,得到我们想要的变换矩阵A和B,下一步我们来求解这个优化问题。
需要指出的是,在计算目标域的类内类间的差异时,需要用到目标域的标签,而这是事先并不知道的,这里的处理方法与JDA相同,初始化时采用伪标签,并进行训练迭代,以获得更好的学习效果。
为了解决上面的最优化问题,我们将目标变换矩阵A和B写成一个矩阵W,表示为:
在这里插入图片描述

这样原优化问题就可表示为:
在这里插入图片描述
注意,对目标函数中的W进行scale处理并不会改变目标函数本身。然后就可以进行以下骚操作(将目标函数重写约束最优化形式,将分母项写成约束项)
在这里插入图片描述
写到这里,我们发现问题就和TCA/JDA最后需要处理的问题很相似了,接下来将原最优化问题的拉格朗日对偶形式表示为:
在这里插入图片描述
然后对目标矩阵W进行求导并使之为0就可以得到:
在这里插入图片描述
其中 ϕ = d i a g ( λ 1 , . . . , λ k ) \phi=diag(\lambda_1,...,\lambda_k) ϕ=diag(λ1,...,λk) 是前k个主导特征值, W = [ W 1 , . . . , W k ] W = [W_1,...,W_k] W=[W1,...,Wk] 由对应的特征向量构成。

Kernelization analysis
更进一步的,可以将JGSA扩展到非线性问题,核化后的问题表示为:
在这里插入图片描述

其中, P = ϕ ( X ) A , Q = ϕ ( X ) B P = \phi(X)A, Q=\phi(X)B P=ϕ(X)A,Q=ϕ(X)B, 然后再还原回来(作者这里讲复杂了,其实很简单,参考TCA中进行核化处理的技巧就可以了). 原文是:Replace P and Q with φ(X)A and φ(X)B, and obtain new objective function as follows:
在这里插入图片描述
然后其中的一些字母表示此处就直接贴图了:
在这里插入图片描述
到此,我们就把JGSA的核心部分讲解完了,下面是JGSA的一个伪代码:

JGSA伪代码

Alt

总结

这篇论文所提出的JGSA应该是目前传统迁移学习方法中所取得的效果比较好的一个,JGSA方法的核心是找到两个变换矩阵A和B分别作用与源域和目标域达到减小源域和目标域分布差异的目的,JGSA在进行迁移学习时从四个方面同时进行考虑,分别是:
(1)最大化目标域数据的方差,目的是尽量保留待分类数据的属性信息;
(2)通过最大化类间差异,最小化类内差异保留源于数据的可分性;
(3)最小化分布差异,包括边缘分布和条件分布;
(4)最小化源域和目标域的子空间的差异。
进一步的,为了提高迁移效果,所学习得到的变换矩阵A和B也可以是非线性的。比较值得借鉴的一个思想是作者提出,为了尽量减小源域和目标域的分布差异,并不一定要将源域和目标域的数据映射到同一个子空间,对源域和目标域分别映射到两个相对较近的两个子空间也可以达到拉近两个域的分布的效果。

一点思考,将源域和目标域分别映射到两个子空间中,进一步可以和流形学习接合起来。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值