李宏毅ML lecture-19 Transfer Learning

迁移学习根据源数据以及目标数据是否被标注分为4大类。
具体来讲,源数据指的是与当前任务无关的,或者关系较少的数据。目标数据是用来训练模型的。
在这里插入图片描述

Fine-tuning

源数据和目标数据都已经被标注了。但是目标数据较少。
比如训练一个蚂蚁,蜜蜂的分类器。但是数据量较少,直接训练效果不佳。这个时候手上正好有猫狗分类的数据,就可以使用先训一个猫狗分类器,把权重迁移到蚂蚁,蜜蜂的分类器上,简单训几下,效果就可能很好。这种学习方法被称为one-shot Learning

可能遇到的问题是由于训练集较少可能会过拟合。
在这里插入图片描述
使用Fine-tuning的时候,一般视频迁移NN的前几层,语言迁移NN的后几层。

Jason Yosinski, Jeff Clune, Yoshua Bengio, Hod Lipson, “How transferable are features in deep neural networks?”, NIPS, 2014

Multitask Learning

多目标学习会使用原始训练的若干层,在之后或者之前加几层后再训练。
在这里插入图片描述
语音在不同的任务会建多个output。
在这里插入图片描述

Similar idea in translation : Daxiang Dong, Hua Wu, Wei He, Dianhai Yu and Haifeng Wang, "Multi-task learning for multiple language translation.“, ACL 2015

在处理Mandarin语言数据时,只使用Mandarin的错误率以及使用了European做迁移学习的错误率比较。
在这里插入图片描述

Huang, Jui-Ting, et al. “Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers.” ICASSP, 2013

多任务训练时,使用前一个任务做迁移学习。
在这里插入图片描述

Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia Hadsell, “Progressive Neural Networks”, arXiv preprint 2016

Chrisantha Fernando, Dylan Banarse, Charles Blundell, Yori Zwols, David Ha, Andrei A. Rusu, Alexander Pritzel, Daan Wierstra, “PathNet: Evolution Channels Gradient Descent in Super Neural Networks”, arXiv preprint, 2017

Domain-adversarial training

源数据和目标数据是相近的。但是目标数据没有标签。例如任务是识别数字,但是数字的来源,背景,颜色是不同的。
如下图:
在这里插入图片描述
直接用源数据模型读取目标数据,将中间的feature层输出做embdding到同一个维度中,可以看到源数据正好分类了10个,但是目标数据单独聚集在一起,并没有和源数据混在一起。
在这里插入图片描述
解决方案就是在模型多加一个Domain识别输出。Domain classifier的目标是识别出features层输出的是源数据还是目标数据,
在这里插入图片描述
我们现在的目标是让Domain classifier 不能通过feature识别出数据是源的还是目标的,同时还能通过Label predictor 预测出正确的数字标签。
这两个输出存在的一种对抗关系。
在这里插入图片描述
实现上述对抗过程的方法就是在BP时,domain classifier 回传梯度通过gradient reversal layer层加负号。
只要涉及到对抗的过程,就像GAN一样,一定非常难train。需要加强domain classifier才能让features层将domain去掉。让数据融合在一起。
在这里插入图片描述
在论文中给出了对照实验的数据:
只训练源数据,model识别目标数据的准确度:57%
上述的方法是第三行,model识别目标数据的准确度:81%
第四行是只用目标数据训练的准确度:98% 代表了最优的Domain-adversarial training方法的上限。

在这里插入图片描述

Yaroslav Ganin, Victor Lempitsky, Unsupervised Domain Adaptation by Backpropagation, ICML, 2015
Hana Ajakan, Pascal Germain, Hugo Larochelle, François Laviolette, Mario Marchand, Domain-Adversarial Training of Neural Networks, JMLR, 2016

Zero-shot Learning

不同于Domain-adversarial training,Zero-shot Learning的源数据和目标数据十分不同,同时,目标数据还没有标签。
在图像上,比如源数据识别的是猫和狗,但是目标数据是各种草泥马,而且还没有草泥马的标签,只有一堆图片。
在语言上,识别一个人的语音,不可能有他说过所有话的数据。每次识别都是能借助于其他人的数据库。
这种问题就是Zero-shot Learning
在这里插入图片描述
Zero-shot Learning在音像上的做法就是不识别一个物体的名称,而是识别一个物体所具有的属性(attribute)。
在这里插入图片描述
建立一张表是属性与名称的映射。根据输出的attribute找到最接近的名称。任务就结束了。
要想让这个方法work,重点就在与要建立一张足够复杂的查询表,每一个名称的属性都要各不相同。
在这里插入图片描述
查询表十分复杂,那么就可以对attribute做embedding,降维到一个确切维度的空间。embedding的方法为 g ( ∗ ) g(*) g()
同时NN表示为 f ( ∗ ) f(*) f()就不输出具体的attribute,而是输出同样维度的向量。这样,目标就是训练NN使 f ( ∗ ) , g ( ∗ ) f(*),g(*) f()g()之间的距离不断变小。
在测试的时候,输入一张没有训练过的图片,比如说这个草泥马,看一下输出和embedding空间上的那个点最接近,那就识别出图片是那种动物。
算法的工作的重点就回归于查询表的建立。查询表的作为源数据是有label的,比如说一张图片是狗是猫之类的。但是猫和狗的attribute是没有的。但是仔细想一下,我们需要的是attribute的embedding,不是attribute。所以可以使用word embedding方法替代attribute的embedding。每一个动物的word vector可以通过Wikipedia train出来。
在这里插入图片描述
loss使用之前提到的 f ( ∗ ) , g ( ∗ ) f(*),g(*) f(),g()的距离是有问题的。比如说 f ( x n ) , g ( x n ) f(x^n),g(x^n) f(xn),g(xn)全部落在一个点上。距离自然就会最小为零。
所以在保证同类距离最小的情况下,也要保证不同类别vector下的距离最大。
所以下图蓝色就是实现这样一种想法。k作为阈值,提前定义。通过变化,loss就变成第二行的形式。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Self-taught Learning

Rajat Raina , Alexis Battle , Honglak Lee , Benjamin Packer , Andrew Y. Ng, Self-taught learning: transfer learning from unlabeled data, ICML, 2007
Mark Palatucci, Dean Pomerleau, Geoffrey E. Hinton, Tom M. Mitchell, “Zero-shot Learning with Semantic Output Codes”, NIPS 2009 >Zeynep Akata, Florent Perronnin, Zaid Harchaoui and Cordelia Schmid, “Label-Embedding for Attribute-Based Classification”, CVPR 2013
Andrea Frome, Greg S. Corrado, Jon Shlens, Samy Bengio, Jeff Dean, Marc’Aurelio Ranzato, Tomas Mikolov, “DeViSE: A Deep Visual-Semantic Embedding Model”, NIPS 2013
Mohammad Norouzi, Tomas Mikolov, Samy Bengio, Yoram Singer, Jonathon Shlens, Andrea Frome, Greg S. Corrado, Jeffrey Dean, “Zero-Shot Learning by Convex Combination of Semantic Embeddings”, arXiv preprint 2013
Subhashini Venugopalan, Lisa Anne Hendricks, Marcus Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko, “Captioning Images with Diverse Objects”, arXiv preprint 2016

Self-taought Clustering

Rajat Raina , Alexis Battle , Honglak Lee , Benjamin Packer , Andrew Y. Ng, Self-taught learning: transfer learning from unlabeled data, ICML, 2007

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值