文章目录
迁移学习的问题形式化
领域
领域 (Domain): 是进行学习的主体。领域主要由两部分构成:数据和生成这些数据的概率分布
涉及到迁移,所以对应于两个基本的领域:源领域 和 目标领域
任务
任务: 是学习的目标。任务主要由两部分组成:标签和标签对应的函数。
分类
- 按特征空间分
- 同构迁移学习(Homogeneous TL): 源域和目标域的特征空间相同,XS=XT
- 异构迁移学习(Heterogeneous TL):源域和目标域的特征空间不同,XS≠XT
- 按迁移情景分
- 归纳式迁移学习(Inductive TL):源域和目标域的学习任务不同
- 直推式迁移学习(Transductive TL):源域和目标域不同,学习任务相同
- 无监督迁移学习(Unsupervised TL):源域和目标域均没有标签
总体思路
迁移学习的核心:找到相似性
- 很好地度量两个领域的相似性,不仅定性地告诉我们它们是否相似,更定量地给 出相似程度。
- 以度量为准则,通过我们所要采用的学习手段,增大两个领域之间的相似 性,从而完成迁移学习。
度量准则
核心就是衡量两个数据域的差异
这里给出常用的度量手段,它们都是迁移学习研究中非常常见的度量准则
常见的几种距离
- 欧氏距离
- 闵可夫斯基距离
- 马氏距离
相似度
- 余弦相似度
- 互信息
- 皮尔逊相关系数
- Jaccard 相关系数
KL 散度与 JS 距离
- KL 散度
- JS 距离
最大均值差异 MMD
最大均值差异是迁移学习中使用频率最高的度量。它度量在再生希尔伯特空间( RKHS)中两个分布的距离,是一种核学习方法。两个随机变量的 MMD 平方距离为
将平方展开后, RKHS的内积就可以转换成核函数,所以最终 MMD 可以直接通过核函数进行 计算。
理解:就是求两堆数据在 RKHS 中的均值的距离。
Principal Angle
也是将两个分布映射到高维空间 (格拉斯曼流形) 中,在流形中两堆数据就可以看成两 个点。Principal angle 是求这两堆数据的对应维度的夹角之和。
A-distance
迁移学习的基本方法
模型迁移和特征迁移是重点
基于样本的迁移
根据一定的权重生成规则,对数据样本进行重用,来进行迁移学习。源域中存在不同种类的动物,如狗、鸟、猫等,目标域只有狗这一种类别。在迁移时,为了 最大限度地和目标域相似,我们可以人为地提高源域中属于狗这个类别的样本权重。
- TrAdaboost :将 AdaBoost 的思想应用于迁移学习中,提高有利于目标分类任务的实例权重、降低不利于目 标分类任务的实例权重,并基于 PAC 理论推导了模型的泛化误差上界
- KMM核均值匹配方法:对于概率分布进行估计,目标是使得加权后的源域和目标域的概率分布 尽可能相近
这类方法通常只在领 域间分布差异较小时有效,因此对自然语言处理、计算机视觉等任务效果并不理想。基于特征表示的迁移学习方法效果更好,是我们研究的重点。
基于特征的迁移
假设源域和目标域含有一些共同的交叉特征,通过特征变换,将源域和目标域的特征变换到相同空间,使得该空间中源域数据与目标域数据具有相同分布的数据分布,然后进行传统的机器学习。优点是对大多数方法适用,效果较好。缺点在于难于求解,容易发生过适配
- 迁移成分分析方法 TCA:以最大均值差异作为度量准则,将不同数据领域中的分布差异最小化
- 基于结构对应的学习方法SCL:该算法可以通过映射将一个空间中独有的一些特征变换到其他所有空间 中的轴特征上,然后在该特征上使用机器学习的算法进行分类预测
基于模型的迁移
假设源域和目标域共享模型参数,是指将之前在源域中通过大量数据训练好的模型应用到目标域上进行预测,比如利用上千万的图象来训练好一个图象识别的系统,当我们遇到一个新的图象领域问题的时候,就不用再去找几千万个图象来训练了,只需把原来训练好的模型迁移到新的领域,在新的领域往往只需几万张图片就够,同样可以得到很高的精度。优点是可以充分利用模型之间存在的相似性。缺点在于模型参数不易收敛
- TransEMDT:对已有标记的数据,利用决策树构建鲁棒性的行为识别模型,然后针对无标定数据,利 用K-Means聚类方法寻找最优化的标定参数
基于关系的迁移
假设两个域是相似的,那么它们之间会共享某种相似关系,将源域中逻辑网络关系应用到目标域上来进行迁移,比方说生物病毒传播到计算机病毒传播的迁移
迁移学习的价值
-
解决标注数据稀缺性
大数据时代亿万级别规模的数据导致数据的统计异构性、标注缺失问题越来越严重。标注数据缺失会导致传统监督学习出现严重过拟合问题。目前解决数据稀缺性的方法有传统半监督学习、协同训练、主动学习等,但这些方法都要求目标域中存在一定程度的标注数据,而在标注数据稀缺的时候额外获取人工标注数据的代价太大。这时需要迁移学习来辅助提高目标领域的学习效果 -
非平稳泛化误差分享
经典统计学习理论给出了独立同分布条件下模型的泛化误差上界保证。而在非平稳环境(不同数据域不服从独立同分布假设)中,传统机器学习理论不再成立,这给异构数据分析挖掘带来了理论风险。从广义上看,迁移学习可以看做是传统机器学习在非平稳环境下的推广。因此在非平稳环境下,迁移学习是对经典机器学习的一个重要理论补充