迁移学习
基本问题主要有3个:
How to transfer: 如何进行迁移学习?(设计迁移方法)
What to transfer: 给定一个目标领域,如何找到相对应的源领域,然后进行迁移?(源领域选择)
When to transfer: 什么时候可以进行迁移,什么时候不可以?(避免负迁移)
基本定义
域(Domain):数据特征和特征分布组成,是学习的主体
源域 (Source domain):已有知识的域
目标域 (Target domain):要进行学习的域
任务 (Task):由目标函数和学习结果组成,是学习的结果
分类
按特征空间分类
同构迁移学习(Homogeneous TL): 源域和目标域的特征空间相同,
异构迁移学习(Heterogeneous TL):源域和目标域的特征空间不同,
按迁移情景分类
归纳式迁移学习(Inductive TL):源域和目标域的学习任务不同
直推式迁移学习(Transductive TL):源域和目标域不同,学习任务相同
无监督迁移学习(Unsupervised TL):源域和目标域均没有标签
按迁移方法分类
基于样本的迁移 (Instance based TL):通过权重重用源域和目标域的样例进行迁移
让想要的数据数量变多,比如原始数据库是动物,但想做一个识别狗狗的网络,就让狗的类别样本权重变大。
idea: 精细分类
基于特征的迁移 (Feature based TL):将源域和目标域的特征变换到相同空间
将通过特征变换的方式互相迁移,来减少源域和目标域之间的差距;或者将源域和目标域的数据特征变换到统一特征空间中,然后利用传统的机器学习方法进行分类识别。
还可以细分为同构和异构迁移学习。
同构特征迁移学习:原始数据与所用数据库有相同特征。
异构特征迁移学习:原始数据与所用数据库没有相同特征空间。
基于模型的迁移 (Parameter based TL):利用源域和目标域的参数共享模型
从源域和目标域中找到他们之间共享的参数信息,以实现迁移的方法。
假设条件是: 源域中的数据与目标域中的数据可以共享一些模型的参数。
例子:源域:判断是不是京巴狗;目标域:判断是不是狼狗。他们都会判断耳朵,身体…
基于关系的迁移 (Relation based TL):利用源域中的逻辑网络关系进行迁移
这种方法比较关注源域和目标域的样本之间的关系。
例子:源域:生物病毒;目标域:计算机病毒。
分类图
区分迁移学习,fine-tuning, 域适应,协方差漂移,深度网络自适应,GAN在迁移学习中应用
-
迁移学习与领域自适应:领域自适应:使两个特征分布不一致的domain一致。
-
迁移学习与协方差漂移:协方差漂移:数据的条件概率分布发生变化。
-
finetune是最简单的深度网络迁移方法。finetune就是利用别人己经训练好的网络,针对自己的任务再进行调整。
-
深度网络自适应:
finetune 它无法处理训练数据和测试数据分布不同的情况。因为 finetune 的基本假设也是训练数据和测试数据服从相同的数据分布。这在迁移学习中也是不成立的。因此,我们需要更进一步,针对深度网络开发出更好的方法使之更好地完成迁移学习任务。
Question : how to 深度网络自适应 -
生成对抗网络 GAN(Generative Adversarial Nets) 它一共包括两个部分:
生成网络(Generative Network),此部分负责生成尽可能地以假乱真的样本
判别网络(Discriminative Network):负责判断样本是真实的,还是由生成器生成的,这部分被成为判别器(Discriminator) 生成器和判别器的互相博弈,就完成了对抗训练。 -
GAN 在迁移学习中的应用:
在迁移学习中,天然地存在一个源领域,一个目标领域,直接将其中一个领域的数据 (通常是目标域) 当作是生成的样本。
生成器的职能变成了特征提取的功能:不断学习领域数据的特征使得判别器无法对两个领域进行分辨。
DomainAdaption 笔记
in this paper, we focus on analyzing and discussing deepDA methods.
Domain Shift
不同数据库的数据分布不同,基于几个数据库的训练网络在另一个数据库上会表现出 数据分布的 迁移,可以称之为域的迁移。
DA 方法分类
- instance-based DA:对源数据库进行处理,用处理后的数据库训练
The first class reduces the discrepancy by reweighting the source samples,and it trains on the weighted source samples. - feature-based DA:寻找数据库交集,满足两个数据库。
a common shared space is generally learned in which the distributions of the two datasets are matched.
深度网络结构
- CNNs
- Deep belief networks DBNs
- stacked autocoders SAEs
迁移学习 和 domain adaption
迁移学习分类1
- inductive TL 归纳的,诱导的
- transductive TL 直推式的
- unsupervised TL 无监督
迁移学习分类2
- feature-representation-level knowledge transfer
- classifier-level knowledge transfer.
半监督学习
一些相关网址
- 入门相关介绍:https://domainadaptation.org/reading.html
- 腾讯一个人的ppt:boqinggong.info/assets/simulation-da.pdf
- http://jd92.wang/assets/files/l12_da.pdf