transfer learning
在日常生活中,我们往往无法直接对某件事情进行学习,而是通过其他事情进行“类比”。这就是迁移学习,transfer learning,旨在利用一些不直接相关的数据对完成目标任务做出贡献。
比方说猫狗识别:
-
input domain是类似的,但task是无关的。
比如输入都是动物的图像,但这些data是属于另一组有关大象和老虎识别的task。 -
input domain是不同的,但task是一样的。
比如task同样是做猫狗识别,但输入的是卡通类型的图像。
因此,我们可以把Transfer Learning所用到的数据分为2类: -
Target Data:和task直接相关的data。
-
Source Data:和task没有直接关系的data。
而我们又知道,Data又分为labelled和unlabelled。因此,一共有四种不同的情况。
针对这四种情况,我们有不同解法。
1.(Source,Target)=(labelled,labelled)
这里Target data和Source data都是带有标签的。但一般Target data很少,Source data很多。
如果Target data非常少,则称为One-shot learning。
Model Fine-tuning
针对这一情况,解法是Model Fine-tuning。
用source data去训练一个model,再用target data对model进行微调(fine tune)。
所谓“微调”,类似于pre-training,就是把用source data训练出的model参数当做是参数的初始值,再用target data继续训练下去即可,但当直接相关的数据量非常少时,这种方法很容易会出问题。
因此,还有以下几个技巧:
Conservation Training
如果现在有大量的source data,比如在语音识别中有大量不同人的声音数据,可以拿它去训练一个语音识别的神经网络,而现在你拥有的target data,即特定某个人的语音数据,可能只有十几条左右,如果直接拿这些数据去再训练,肯定得不到好的结果。
此时我们就需要在训练的时候加一些限制,让用target data训练前后的model不要相差太多:
- 我们可以让新旧两个model在看到同一笔data的时候,output越接近越好
- 或者让新旧两个model的L2 norm越小越好,参数尽可能接近
- 总之让两个model不要相差太多,防止由于target data的训练导致过拟合
Layer Transfer
还有一招Layer Transfer:
- 首先还是用Source data训练出一个NN。
- 然后取出一部分layer直接作为目标NN的一部分layer。
- 用Target data训练出目标NN的剩下的layer,这样能避免overfitting。
- 如果Target data数量足够的话,当然可以训练整个NN。