【学习笔记】迁移学习

迁移学习是利用数据、任务或模型之间的相似性,将在旧的领域(source domain)学习过或训练好的模型,应用于新的领域(target domain)这样的一个过程。迁移学习的关键点是,新的任务(task)与旧的任务在数据、任务和模型之间的相似性。在不同任务域之间进行迁移学习,可以避免高代价的数据标注工作。域(domain)指需要学习的数据及其分布,更确切地说主要包括数据的特征空间 X X X、类别空间 Y Y Y以及边缘分布即 P ( X ) P(X) P(X)
在这里插入图片描述

分类

  • 根据学习的内容主要可分为四类:实例迁移、特征表示迁移、参数迁移、关系知识迁移;
    1)实例迁移是收集来自不同源任务的样本,并将其重用于目标任务的学习;
    2)特征表示迁移是通过引入源数据特征来帮助完成目标数据特征域的学习任务,通过特征变换把源域和目标域的特征变换到同样的空间,使得这个空间中源域和目标域的数据具有相同的分布;
    3)参数迁移是当源任务和目标任务之间共享一些参数,或者共享模型超参数的先验分布时,把源域的模型迁移到目标域;
    4)关系知识迁移关注的是源域和目标域之间关系的相似性,通过从源域挖掘与目标数据相关的关系模式,帮助在目标数据上进行学习任务。
  • 根据源域和目标域与任务之间的不同情况划分,可分为:归纳式迁移学习、无监督迁移学习、直推式迁移学习。
    1)在归纳式迁移学习设置中,无论源域和目标域是否相同,目标任务都与源任务不同。算法利用来自源域的归纳偏差帮助改进目标任务。根据源域中数据的不同情况,归纳式迁移学习进一步分为两种情况:①源域中有很多带标签的数据。在这种情况下,归纳式迁移学习设置类似于多任务学习设置。但是,归纳式迁移学习设置仅旨在通过迁移源任务中的知识来实现目标任务中的高性能,而多任务学习则尝试同时学习目标任务和源任务;②源域中没有标签数据。在这种情况下,归纳迁移学习设置类似于自学习。在自学习设置中,源域和目标域之间的标签空间可能不同,这意味着不能直接使用源域的信息。
    2)在无监督迁移学习设置中,与归纳迁移学习设置类似,目标任务不同于源任务,但与源任务有关。然而,无监督的迁移学习侧重于解决目标域中的无监督的学习任务,例如聚类,降维和密度估计。在这种情况下,源域和目标域中都没有可用的标签数据;
    3)在直推式迁移学习设置中,源任务和目标任务是相同的,而源域和目标域是不同的。在这种情况下,目标域中没有可用的标签数据,而源域中有许多可用的标签数据。另外,根据源域和目标域之间的不同情况,我们可以进一步将直推式学习设置分为两种情况:①源域和目标域之间的特征空间不同;②源域和目标域之间的特征空间相同,但输入数据的边际概率分布不同。

分布对齐方法

迁移学习的核心问题在于分布对齐,将目标领域的数据分布与源领域的数据分布直接的差异减小,从而可以使得模型可以进行无缝迁移。而分布对齐的常用方法有数据分布自适应、特征选择和子空间学习等。

  • 数据分布自适应的基本思想是,由于源域和目标域的数据概率分布不同,那么最直接的方式就是通过一些变换,将不同的数据分布的距离拉近。根据数据分布的性质,这类方法又可以分为边缘分布自适应、条件分布自适应、以及联合分布自适应。
  • 特征选择法的基本假设是:源域和目标域中均含有一部分公共的特征,在这部分公共的特征上,源领域和目标领域的数据分布是一致的。因此,此类方法的目标就是,通过机器学习方法,选择出这部分共享的特征,即可依据这些特征构建模型。
  • 子空间学习法通常假设源域和目标域数据在变换后的子空间中会有着相似的分布。我们按照特征变换的形式,将子空间学习法分为两种:基于统计特征变换的统计特征对齐方法,以及基于流形变换的流形学习方法。

领域自适应Domain Adaptation

领域自适应是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对源域训练的目标函数,就可以迁移到目标域上,提高目标域上的准确率。
领域自适应方法可分为:

  • 样本自适应:对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器;
  • 特征自适应:学习公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同。通过特征自适应,将输入的样本投影到公共子空间,通过计算源域的经验误差,逼近目标域的经验误差能相同的分布;
  • 模型自适应:直接在模型层面进行自适应。模型自适应的方法有两种思路,一是直接建模模型,但是在模型中加入“域间距离近”的约束;二是采用迭代的方法,渐进的对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。

样本自适应作用于最前端,适合于源域和目标域分布差异小的情况。特征自适应适用于源域和目标域有一定差异的情况。模型自适应的适用范围最广,能够应用于源域和目标域差异比较大的场景。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值