领域自适应是迁移学习中转导迁移学习的重要子问题。
迁移学习是指两个不同领域的知识迁移过程,利用源领域中学到的知识帮助目标领域上的学习任务。源领域的训练样本数量一般远大于目标领域。
迁移学习根据不同的迁移方式,分为两个类型,归纳迁移学习和转导迁移学习。
归纳学习(Inductive Learniing)是希望在训练数据集上学习到使得期望风险(即真实数据分布上的错误率)最小的模型。与传统监督机器学习一样,是基于已有标记的训练数据集构建和训练机器学习模型,然后使用这个训练过的模型预测我们测试集的标签。
转导学习(Transductive Learning)是希望学习一种在给定测试集上错误率最小的模型,在训练阶段可以利用测试集的信息。转导学习是事先观察所有数据,包括训练数据集和测试数据集。从已经观察到训练数据集中学习,然后预测测试数据集的标签。即使不知道测试数据集的标签,也可在学习过程中利用这些数据中的模式和其他信息。
主要区别:转导学习中,在训练模型中已经遇到训练集和测试集。归纳学习在训练模型中仅遇到训练数据集,并将学习到的模型应用于从未见过的数据集上。
转导不能建立预测模型,如果添加一个新的数据点到测试数据集上,不得不从头重新运行算法,训练模型,使用它预测标签。
归纳学习建立预测模型,当遇到新的数据点时,不需要从头重新运行算法。
总结来说,归纳学习试图建立一个通用模型,在这个模型中,任何新的数据点都将基于一组观察到的训练数据点进行预测,可以预测点空间中除未标记点之外的任何点。相反,转导学习是建立一个适合它观察到的训练数据点和测试数据点的模型,这种方法利用已知标记点和附加信息来预测未标记点的标记。
归纳迁移学习是指在源领域和任务上学习出一般规律,然后将这个规律迁移到目标领域和任务上,转导迁移学习是从样本到样本的迁移,直接利用原领域和目标领域的样本进行迁移学习。
转导迁移学习直接利用源领域和目标领域的样本进行迁移学习,通常假设源领域有大量标注数据,而目标领域没有或只有少量的标注数据,但有大量的无标注数据。
转导迁移学习的一个常见子问题是领域适应domain adaptation。在领域适应问题中,一般假设源领域和目标领域有相同样本空间,但数据分布不同。
领域自适应的目标是把分布不同的源领域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近,由于在特征空间中对源领域训练的目标函数,就可迁移到目标域上,提高目标域上的准确率。
在迁移学习中使用对抗。