特征选择
主要思想
源域和目标域中均含有一部分公共的特征,在这部分公共的特征上,源领域和目标领域的数据分布是一致的。因此,此类方法的目标就是,通过机器学习方法,选择出这部分共享的特征,即可依据这些特征构建模型
SCL 方法
作者将这些公共的特征叫做 Pivot feature。找出来这些 Pivot feature,就完成了迁移学习的任务
Pivot feature 指的是在文本分类中,在不同领域中出现频次较高的那些词。
- 特征选择法从源域和目标域中选择提取共享的特征,建立统一模型
- 通常与分布自适应方法进行结合
- 通常采用稀疏表示 ∣ ∣ A ∣ ∣ 2 , 1 ||A||_{2,1} ∣∣A∣∣2,1 实现特征选择
子空间学习
子空间学习法通常假设源域和目标域数据在变换后的子空间中会有着相似的分布。我 们按照特征变换的形式,将子空间学习法分为两种:基于统计特征变换的统计特征对齐方法,以及基于流形变换的流形学习方法
统计特征对齐
SA 方法
统计特征对齐方法主要将数据的统计特征进行变换对齐
SA 方法直接寻求一个线性变换 M,将不同的数据实现变换对齐。SA 方法的优化目 标如下:
则变换 M 的值为:
可以直接获得上述优化问题的闭式解:
SDA 方法
该方法在 SA 的基础上,加入了概率分布自适应。SDA 方法提出,除了子空间变换矩阵 T 之外,还应当增加一个概 率分布自适应变换 A。SDA 方法的优化目标如下:
CORAL 方法
有别于 SA 和 SDA 方法只进行源域和目标域的一阶特征对齐,Sun 等人提出了 CORAL 方法,对两个领域进行二阶特征对齐。假设 Cs 和 Ct 分别是源 领域和目标领域的协方差矩阵,则 CORAL 方法学习一个二阶特征变换 A,使得源域和目 标域的特征距离最小: