假设你手上有一些跟你的task没有直接相关的data,那能不能用这些data帮助我们做一些事情。比如现在要做一些分类:
那不相关的data有很多可能,比如input的分布一样,都是动物,但是task的label不一样。也有一些是input不一样,但是task的label是一样的
有一些不相干管的data能不能帮助我们呢?
比如想找到台语的语音辨识,但是data很少,可以去扒一些语音,网上有很多。
比如image的识别用于医学辨别肿瘤等,那medical data很少,但是网上可以有很多image的数据,只是不是medical。
比如分析某个法律文献,data很少,但网上有很多data,这些data能不能帮助我们呢?
其实这种情况是有可能,在现实生活中就会有很多transfer Learning。我们可以根据漫画家的生活过程了解到研究生的生活过程。
那怎么讲transfer learning呢?不同的文献用的词汇不一样,方法的名称并不统一。
现在我们有一些跟task相关的data,叫做Target Data,有一些跟task无直接关系的data,叫做Source Data。这些Data里可能是有label的,也可能是没有label的。总共有四种可能,那我们从四种可能入手考虑不同的方法
Model Fine-tuning(target和source Data都有label)
前提是假设target Data的量是非常少的。target data非常非常少的话,可以称为 one-shot learning:only a few examples in target domain
例如在语音上的Speaker adaption,我们要辨识某一个人的声音,但是对于这个人的声音只有少量的data,比如他对机器只说了三句话,只有这三句话的label,但是source data会有很多,有其他人的label data。你不能直接拿target data去train一个model。解决方法就是先用source data去trainmodel,当做初始化参数,然后用target data去fine-tune,去微调。但是target data很少,训练出来的也可能会坏掉。
在训练过程中会有一些技巧:
Model Fine-tuning--Conservative Training
有大量的source data(不同Speaker的声音),然后用它们来train一个神经网络,接下来有少量的targetdata(某个Speaker的声音),那直接用target data去train的话会坏掉。在training的时候,加一个constraint(约束),使得train完之后的新的model和旧的model不要差太多。也就是加一种regularization,使得新旧model在见到同一笔input的时候,它们的结果越接近越好。也可以是加constraint,使得新旧model的参数越接近越好。其实就是使得新旧model的差距不要太大,防止过拟合。
Model Fine-tuning--Layer Transfer
用source data训练出一个model之后,取某几个layer拿出来,直接copy到新的model去,然后用target