极简笔记 A Survey on Transfer Learning
论文地址:https://ieeexplore.ieee.org/document/5288526/
本文是香港科技大学杨强教授最出名的迁移学习survey。文章发表于2010年,对深度学习时代之前的传统迁移学习方法进行了总结归纳。本篇笔记侧重结合survey观点(并非原文翻译),梳理迁移学习概念,文章涉及的相关算法请阅读原文。
机器学习算法能够work的大前提,就是训练数据和测试数据来自相同特征空间且具有相同分布。当这个大前提不满足时,算法的性能会大打折扣,而这在现实生活中非常常见:在大量公开数据集上的训练的算法,在实际场景部署时性能常常无法满足实际需求。而重新在实际场景下进行训练数据的采集又费时费力,此时就希望能够利用迁移学习算法,减少模型在不同数据域之间迁移导致的损失。
从上面可以看出,迁移学习的一个前提环境就是目标域的数据样本情况复杂(包括数量较少,噪声较多等)。如果不是这样直接全监督地训练就可以了。
接下来开始形式化定义:对于域 D 包含两部分,即特征空间 X 和边缘概率分布 P(X) P ( X ) , X={ x1,x2,...,xn}∈ X = { x 1 , x 2 , . . . , x n } ∈ X 。给定一个特殊的域 ={ ,P(X)} D = { X , P ( X ) } ,对应的任务 ={ ,f(⋅)} T = { Y , f ( ⋅ ) } 包含两部分:标签空间