为什么做迁移?
一句话概括:源域样本和目标域样本分布有区别,目标域样本量又不够。
场景
思考我们平时建模会使用到迁移学习的一些场景:
1)新开了某个消费分期的场景只有少量样本,需要用其他场景的数据进行建模;
2)业务被迫停止3个月后项目重启,大部分训练样本比较老旧,新的训练样本又不够;
3)在某个新的国家开展了类似国内的业务,因为国情不同,显然部分特征分布是不同的;
主要任务
缩小边缘分布之间的距离 和 jia条件分布下的差异。
首先我们来看一下迁移学习领域的进展
介绍几个基本概念:
- Domain(域):包括两部分:feature space(特征空间)和probability(概率)。所以当domain不同的时候,分两种情况。可能是feature space不同,也可能是feature space一样但probability不同;
- Task(任务):包括两部分:label space(标记空间)和objective predictive function(目标预测函数)。同理,当task不同的时候,也分两种情况。可能是label space不同,也可能是label space一样但function不同;
- Source(源)是用于训练模型的域/任务;
- Targe(任务)是要用前者的模型对自己的数据进行预测/分类/聚类等机器学习任务的域/任务
通常我们说的迁移学习就是指将知识从源域迁移到目标域的过程。
比如我们有大量英短银渐层的图片,和少量美短起司的照片,想训练一个判别当前的猫是不是美短起司的学习器。如果我们用英短银渐层图片来作为样本,显然训练的模型是不能用来判别美短起司的,用美短起司的样本来训练,样本量又太小。
这时候我们可能会使用英短银