论文笔记：JDA

latency_

于 2021-05-11 11:46:38 发布

阅读量547

点赞数

分类专栏： transfer learning 文章标签： transfer learning

本文链接：https://blog.csdn.net/qq_39802199/article/details/116647170

版权

transfer learning 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

论文
一、问题提出
二、算法目标以及求解
总结

论文

Long, M., Wang, J., et al. (2013). Transfer feature learning with joint distribution adaptation. In ICCV, pages 2200–2207.

一、问题提出

很多域适应的方法没有同时减小源域和目标域的边缘概率分布和条件概率分布的差异，比如TCA方法。

JDA目标：映射后数据的属性尽可能保留，缩小映射后源域和目标域的边缘条件概率分布和条件概率分布的差异。

二、算法目标以及求解

1.属性保留

和TCA相同，JDA通过最大化映射后数据的方差来保留数据的属性，该问题可以转化为PCA问题进行求解。源域和目标域数据组成矩阵X，H为中心化矩阵，则中心化输入样本的协方差矩阵为 $XHX^T$ , A为映射矩阵，进一步问题可以转化为: $max_{A^TA}=tr(A^TXHX^TA)$ , 下一步的目标就是求解这个映射矩阵，由相关数学定理，映射矩阵A就是 $XHX^T$ 的最大的k个特征值对应的特征向量构成的，映射后的数据为Z，则 $Z=A^TX$ .

2.减小边缘概率分布差异

使用MMD距离衡量源域和目标域边缘分布的差异，最小化便于分布的距离表示为：
在这里插入图片描述

最终能够表示为一个最优化问题，目标函数表示为：

在这里插入图片描述
其中 $M_0$ 理解为核矩阵的系数:

在这里插入图片描述

3. 减小条件概率分布差异

首先使用源域的数据训练分类器f 给目标域的数据打上伪标签，然后利用伪标签计算每个类别的条件概率分布的差异。

在这里插入图片描述

注意，上式只是针对类别c，所有类别上的条件概率差异之和表示为：
在这里插入图片描述

4. 目标函数构建及求解

构建目标函数

由上文总结最终目标是最大化方差 $tr(A^TXHX^TA)$ , 同时最小化边缘分布 $tr(A^TXM_0X^TA)$ 和条件概率分布 $\sum_{c=1}^Ctr(A^TXM_cX^TA)$ , 综合起来形成以下目标函数：
在这里插入图片描述
其中，正则化项中A是正交矩阵，所以A的F范数的平方为 $tr(A^TA)$ ，c=0表示边缘概率分布，c=1到C表示条件概率分布，将最大化方差 $tr(A^TXHX^TA)$ 转化为约束条件 $A^TXHX^TA=I$ ，原因参考TCA。

引入核技巧

非线性问题一般引入核技巧，最终的目标函数表示为：
在这里插入图片描述

目标函数求解

拉格朗日乘子法，具体可参考TCA
https://blog.csdn.net/qq_39802199/article/details/116645014

伪代码

在这里插入图片描述

总结

JDA算法比较巧妙的地方就是引入伪标签来计算目标域上的条件概率分布，开始时伪标签的准确度相对较低，但通过多次迭代来更新映射矩阵A和伪标签，可以逐渐提高伪标签的准确度，从而慢慢提高算法的效果，这个思路域EM算法比较相似。

latency_

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：JDA

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录论文一、问题提出二、算法目标以及求解1.属性保留2.减小边缘概率分布差异3. 减小条件概率分布差异4. 目标函数构建及求解构建目标函数引入核技巧目标函数求解伪代码总结论文Long, M., Wang, J., et al. (2013). Transfer feature learning with joint distribution adaptation. In ICCV, pages 2200–2207.一、问题提出
复制链接

扫一扫

专栏目录