引入
如何充分利用之前标注好的数据,又保证在新的任务上的模型精度?
——迁移学习
目标
将某个领域或任务上学到的知识或模式应用到不同但相关的领域或问题中。
思想
从相关领域中迁移标注数据或知识结构、完成或改进目标领域或任务的学习效果。
“举一反三”
概念
- 域Domain: 某个时刻的特定领域。如书本评论和电视剧评论。
- 源领域
- 目标领域
- 源领域和目标领域的数据分布
- 任务Task
关键点
- 用什么迁移?what (桥梁是什么)
- 如何迁移?how (基于实例的迁移、基于特征的迁移、基于共享参数的迁移)
- 何时适合迁移?when(假设领域之间具有公共知识结构)
1、【Domain1 Domain2 共有知识】
不同领域之间有哪些共有知识可以迁移。
2、找到迁移对象后,针对具体问题多采用哪种迁移学习的特定算法,集如何设计出合适的算法来提取和迁移共有知识
3、研究什么情况下适合迁移,迁移技巧是否适合具体应用。其中看是否涉及负迁移的问题。
负迁移
当领域间的概率分布差异很大时,上述假设通常难以成立,这会导致严重的负迁移问题。
旧知识对新知识学习的阻碍作用,比如学三轮车之后对骑自行车的影响。
研究如何利用正迁移,避免负迁移。
如何迁移
基于实例的迁移
研究如何从源领域中挑选出,对目标领域的训练有用的实例。
如,对源领域的有标记数据实例进行有效的权重分配,让源领域实例分布接近目标域的实例分布。
典型:TrAdaBoost算法。
基于特征的迁移
1、基于特征选择的迁移学习算法
关注:如何找出源领域与目标领域**之间共同的特征表示,**利用这些特征进行知识迁移。
2、基于特征映射的迁移学习算法
关注:如何将源领域和目标领域的数据从原始特征空间映射到新的特征空间中去。
这就能在该空间中,源与目标领域的数据分布相同????然后在新空间中,更好的利用已有的有标记数据样本进行分类训练,最终对目标领域的数据进行分类测试??
基于共享参数的迁移
研究:如何找到源数据和目标数据的空间模型之间的共同参数或者先验分布。
有一个假设前提:学习任务中的每个相关模型会共享一些相同的参数或先验分布。