1. 领域Domain 由数据和生成这些数据的概率分布组成
2. 源领域Source Domain 被迁移的领域,含有知识的领域,对应深度学习中的训练域
3. 目标领域Target Domain 最终要被赋予知识或赋予标注的对象。对应深度学习中的测试域
知识从源领域传递到目标领域,完成迁移。迁移学习的核心是找到源域和目标域的相似性,并加以合理利用。
迁移学习基本方法:
分布差异度量:
样本权重迁移法:由于迁移学习中样本维度和数量通常都是非常大的,因此直接针对源域分布和目标域分布进行估计是不可行的。为达到迁移目的,我们通过有针对性的从源域中筛选处部分样本,使得筛选出的样本所形成的概率分布能够与目标域数据的概率分布相似,之后再使用传统机器学习进行建模。
基于样本选择的方法:样本选择器Instance Selector 其作用是从源域中选出一部分样本Subset,使得这部分样本的数据分布与目标域数据分布差异较小。表现评估器作用是评估当前选择的样本与目标域的量化差异程度。反馈reward作用是根据表现评估器的结果对样本选择器选出的样本进行反馈,以指导后续的选择过程。
度量学习的基本思路是:给定一些训练样本,这些样本中包含了我们预先观测到的一些对于样本的知识。然后,学习算法便可以以这些先验知识为约束条件构成目标函数以学习到这些样本的一个很好的度量,并满足我们预先给定的限制条件。度量学习就是一种特定条件下的优化问题。
度量学习的核心是聚类假设(Cluster Assumption ) 同一簇数据极大可能属于同一类别。因此,度量学习着重刻画样本与样本间距离,而极大地.
在迁移学习中,源域与目标域的数据通常来自不同的数据分布,这使得在源域上训练好的模型很难直接在目标域数据上取得好的效果。因此,如何衡量并降低两个领域之间的分布差异从而使得源域上的模型可以更好的泛化到目标域成为迁移学习领域的核心问题。