迁移学习四——ARTL

最新推荐文章于 2022-12-17 16:27:45 发布

ZLBryant

最新推荐文章于 2022-12-17 16:27:45 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习迁移学习文章标签：迁移学习 ARTL

本文链接：https://blog.csdn.net/qq_40824311/article/details/102731458

版权

本文深入探讨了ARTL（Adaptation Regularization: A General Framework for Transfer Learning）方法，该框架结合了结构风险最小化、联合分布适应和流形正则，提供了一种同时学习映射和训练分类器的途径。ARTL通过优化目标函数，实现了源域和目标域数据的边缘及条件分布适应，同时保持样本间的局部流形信息。该框架适用于迁移学习，尤其关注于保留重要属性并确保映射后的数据适合分类任务。

摘要由CSDN通过智能技术生成

本文是对《Adaptation Regularization: A General Framework for Transfer Learning》进行学习。

1 问题引入

之前论文的侧重点均是学习一种映射，通过该映射可以把源域数据和目标域数据拉近，然后拿映射后的源域数据训练分类器，并将分类器应用到目标域数据上，这些论文中学习映射和训练分类器是两个独立的过程。ARTL则换了一个思路，给出了一个框架，将学习映射和训练分类器一起进行。

2 ARTL

首先我们来看一下ARTL的目标函数：
$f=argmin_{f\in H_{K}}\sum_{i=1}^{n}l(f(x_{i}),y_{i})+\sigma ||f||_{K}^{2}+\lambda D_{f,K}(J_{s},J_{t})+\gamma M_{f,K}(P_{s},P_{t})$ （1）
接下来的内容将围绕以下三个方面进行展开。

2.1 结构风险最小化

我们先看（1）式中的前两项，很容易可以看出这是一个结构风险最小化的内容，第一项是经验风险，第二项是正则化，以限制模型复杂度。在论文中采用了两种比较常用的损失函数，SVM中的合页损失函数： $max(0,1-y_{i}f(x_{i}))$ ，以及RLS中的平方误差函数： $y_{i}-f(x_{i}))^{2}$ ，在后面的内容会进行介绍。

2.2 联合分布适应

其实这部分的思想和JDA是一样的，两篇论文的一作也是同一个人。
首先是边缘分布对齐，之前的论文中是用MMD来衡量两个域之间距离，式子如下：
$MMD_{H}^{2}(D_{s},D(t))=||\frac{1}{n}\sum_{i=1}^{n}\phi (x_{i})-\frac{1}{m}\sum_{j=n+1}^{n+m}\phi (x_{j})||_{H}^{2}$ ，其中 $\phi$ 将样本映射到RKHS，下标H表示RKHS，n和m分别为源域和目标域的样本数量，上式表示的是映射后的RKHS中两个域之间的距离。
之前的论文中，均是对上式进行最小化，来缩小两个域映射后的距离。在ARTL中没有对该距离进行缩小，而是直接缩小两个域通过分类器映射后的差异，即下式：
$D_{f,K}(P_{s},P_{t})=||\frac{1}{n}\sum_{i=1}^{n}f(x_{i})-\frac{1}{m}\sum_{j=n+1}^{n+m}f(x_{j})||_{H}^{2}$ （2）
其中 $P_{s},P_{t}$ 表示源域和目标域的边缘分布。
同样的我们可以获得条件分布适应的公式：
$D_{f,K}^{(c)}(Q_{s},Q_{t})=||\frac{1}{n^{(c)}}\sum_{x_{i}\in D_{s}^{(c)}}f(x_{i})-\frac{1}{m^{(c)}}\sum_{x_{i}\in D_{t}^{(c)}}f(x_{j})||_{H}^{2}$ （3）
其中上标 $(c)$ 表示类别C。
将(2)(3)合并可得到联合分布适应的目标函数：
$D_{f,K}(J_{s},J_{t})=D_{f,K}(P_{s},P_{t})+\sum_{c=1}^{C}D_{f,K}^{c}(Q_{s},Q_{t})$ （4）
这一节写得比较简略，详细内容可参照JDA那篇博客。

2.3 流形正则

其实引入流形的思想之前在SSTCA中也提到了，其思路就是如果两个点在原来的结构中比较近，那么这两个点的边缘分布和条件分布也比较相似，映射后的数据也应保持这一特性。
流形正则项如下：
$M_{f,K}(P_{s},P_{t})=\sum_{i,j=1}^{n+m}(f(x_{i})-f(x_{j}))^{2}W_{ij}=\sum_{i,j=1}^{n+m}f(x_{i})L_{ij}f(x_{j})$ （5）
其中W定义如下 $W_{ij}=\begin{cases} cos(x_{i},x_{j}) & \text{ if } x_{i}\in N_{p}(x_{j})\vee x_{j}\in N_{p}(x_{i}) \\ 0 & \text{ otherwise, } \end{cases}$ （6）
我看了一下源码，这里的cos表示的应该是两个进行过标准化的样本求内积，另外 $N_{p}(x_{i})$ 表示距离样本 $x_{i}$ 最近的p个点； $L=I-D^{-1/2}WD^{-1/2}$ ，其中D为对角矩阵， $D_{ii}=\sum_{j=1}^{n}W_{ij}$ 。
可以看到如果两个样本比较近，那么其对应的