迁移学习入门（读王晋东博客）

LOSTB

已于 2023-07-09 15:54:37 修改

阅读量942

点赞数

文章标签：迁移学习机器学习算法概率论人工智能

于 2023-05-29 18:06:24 首次发布

本文链接：https://blog.csdn.net/LOSTB/article/details/130933796

版权

1.TCA

映射使两个域边缘分布相近，限制条件为散度（衡量两个数据集的差异程度，最大化差异）

2.JDA

在TCA基础上加入条件分布相近，此时为联合分布（两个概率分布，并非概率论中的"联合分布"），限制条件也为散度

3.深度神经网络的可迁移性

介绍 NIPS 2014的《How transferable are features in deep neural networks?》
主要是结论性的东西：
1.神经网络的前3层基本都是general feature，进行迁移的效果会比较好；
2.深度迁移网络中加入fine-tune（模型微调），效果会提升比较大，可能会比原网络效果还好；
3.Fine-tune可以比较好地克服数据之间的差异性；
4.深度迁移网络要比随机初始化权重效果好；
5.网络层数的迁移可以加速网络的学习和优化。

此篇对原文的理解有些异议的地方：
（1）AnB 是指对baseA前n层权重锁定，后面8－n层随机初始化后继续在数据B上训练得来，再做分类。
（2）BnB的性能，一直到B3B貌似都不错，B4B到B5B性能下降严重，作者解释原因之一可能是4层5层与前后的层是联合起来学习特征的，“jointly trained”，将1－4层锁定只让5－8层学习，破坏了所学特征的一个“整体性”。

未考证原文,借鉴于评论区

4.深度迁移网络

DaNN

DaNN的结构异常简单，它仅由两层神经元组成：特征层和分类器层。
所以，整个网络的优化目标也相应地由两部分构成：在有label的源域数据上的分类误差,以及对两个领域数据的判别误差。

DDC

在原有的AlexNet网络的基础上，对网络的fc7层（分类器前一层）后加一层适配层（adaptation layer）。适配层的作用是，单独考察网络对源域和目标域的判别能力。如果这个判别能力很差，那么我们就认为，网络学到的特征不足以将两个领域数据区分开，因而有助于学习到对领域不敏感的特征表示。

DAN

DAN相比DDC加了2点改进：
一是多适配了几层特征；
二是采用了之前Arthur Gretton提出的多核MMD替换掉原有的单核MMD。
多核MMD即多核加权形成一个核

5. 测地线流式核方法（GFK）

1.SGF

SGF思想：把source和target都分别看成是高维空间中的两个点，由source变换到target的过程就完成了domain adaptation。

SGF实现方法：把source和target分别看成高维空间（Grassmann流形）中的两个点，在这两个点的测地线距离上取d个中间点，然后依次连接起来。

SGF缺陷：不知道d怎么取

2.GFK

GFK解决了SGF问题
详情见以下博客

https://blog.csdn.net/qq_40824311/article/details/103984384?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168536591816800226555621%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=168536591816800226555621&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allsobaiduend~default-1-103984384-null-null.142^v88insert_down1,239^v2insert_chatgpt&utm_term=GFK&spm=1018.2226.3001.4187

推导过程略为抽象，本人暂未明白测地线公式是如何推导出来的，但感觉测地线思想了解就行。
1.积分用到了与核技巧一样的方法
2.流形映射降维的思想
3.领域间降维度量的思想
4.principal angle这一度量（主角对角线元素的正弦值）

6. 从经验中迁移学习

主体思想：
1.学习出一个变换矩阵W（对于所有迁移对最优，即平均误差最小）
2.W应该能在有新数据时进行更新（即可进行增量学习）
3.new question：类似于增量学习，如何最大限度地利用已有的迁移学习经验，使得其对新问题的泛化能力很好？同时也可以避免一出现新问题就从头进行学习

7. 负迁移

定义：
负迁移指的是，在源域上学习到的知识，对于目标域上的学习产生负面作用。
产生负迁移的原因：
1.源域和目标域压根不相似，谈何迁移？------数据问题
2.源域和目标域是相似的，但是，迁移学习方法不够好，没找到可迁移的成分。 --------方法问题

8. 《Simultaneous Deep Transfer Across Domains and Tasks》文章解读

目前所讲的迁移学习方法都是针对domain transfer（域之间的相似度，尤其是边缘分布），不注重task transfer（class之间的相似度）。文章针对target的部分class有少量label，剩下的class无label的情况将domain transfer和task transfer相结合。
提出joint CNN architecture for domain and task transfer方法

在这里插入图片描述
soft label loss指的是：统计source中平均概率，作用于target概率，再计算loss