【迁移学习综述】

最新推荐文章于 2025-09-14 15:03:20 发布

原创

最新推荐文章于 2025-09-14 15:03:20 发布 · 4.1k 阅读

45 ·

CC 4.0 BY-SA版权

文章标签：

#迁移学习 #人工智能

文章探讨了迁移学习的概念，它旨在将已学习的知识应用于相关但不同的任务。迁移学习源于人类能将旧知识应用于新问题的能力，旨在解决数据分布偏差和域漂移问题。领域自适应是迁移学习的一个重要方面，通过调整源域和目标域的分布来提升模型性能。此外，文章还介绍了领域泛化，这是一种更具有挑战性的场景，要求模型能在未见过的领域中泛化。

一、迁移学习概念，含义及动机

1.概念
迁移学习的目标是将某个领域或任务上学习到的知识应用到不同的但相关的领域或问题中。

2.含义
迁移学习的研究来源于一个观测：人类可以将以前的学到的知识应用于解决新的问题，更快的解决问题或取得更好的效果。迁移学习被赋予这样一个任务：从以前的任务当中去学习知识（knowledge）或经验，并应用于新的任务当中。换句话说，迁移学习目的是从一个或多个源任务（source tasks）中抽取知识、经验，然后应用于一个目标领域（target domain）当中去。

3.动机
(1)数据分布偏差问题
传统的机器学习/数据挖掘只有在训练集数据和测试集数据都来自同一个feature space（特征空间）和统一分布的时候才运行的比较好，这意味着每一次换了数据都要重新训练模型，太麻烦了。比如：
（1）从数据类型/内容上看，对于新的数据集，获取新的训练数据很贵也很难。
（2）从时间维度上看，有些数据集很容易过期，即不同时期的数据分布也会不同。比如对于某个用户进行室内wifi定位的时候，把他在一个很大的室内的数据标记好已经很难了，wifi信号强弱还会受到时间影响，所以如果对于每个时间段都要进行一次训练那就太麻烦了。

深度学习对大量的训练数据有很强的依赖性,传统的机器学习方法，因为它需要大量的数据理解数据的潜在模式。一个有趣的现象是发现模型的规模和所需要的数据量有多大几乎是线性关系。一个可以接受的解释是，模型的表达空间必须足够大才能被发现数据下的模式。

(2)域漂移问题
域漂移，指的是使用源域训练的模型在目标域上测试时，目标域的预测分布和真实分布之间存在差异的现象。
举例：源域是猫，目标域是人。假设两个域共享的属性空间包含两个属性，“是不是动物？”、“有几条腿？” 那么，猫的属性表示是“是动物”、“四条腿”；人的属性表示是“是动物”、“两条腿”。那么，基于猫学习的视觉语义映射，在对人进行测试的时候，大部分预

最低0.47元/天解锁文章