A Survey on Transfer Learning
Introduction
- TL在数据挖掘和机器学习小样本的时候起到作用,本文主要是说在data mining中的知识。
- 三个例子:web-document classification,新的网页的数据特征和数据分布与之前学习的可能不同;wifi location problem,新时刻的标签数据与旧时刻不同;sentiment classification,需要大量的标签数据来学习。
Overview
- 发展历史
- 定义:
- TL的分类
inductive TL:D和T的task不同,有标签
transductive TL:D和T的domain不同,有标签
unsupervised TL:D和T的task不同,无标签
- TL的方法
instance实例TL:如何从源域中挑选出对目标域有用的实例;
feature特征TL:如何找出D和T中共同的特征;
parameter共享参数TL:TD模型空间的共享参数;
relational:找到不同域数据的relation
Induction Transfer Learning
- induction+instance
u是矩阵,将样本x映射到低维空间,task1~n在低位空间表示可在参数a下表现目标,因此u变换后的空间是一个共享的可以表示不同task的空间。
即:找出不同task的共同低维空间特征
经典方法:AdamBoost - induction+parameter
假设不同但有联系的task分享模型的参数或者超参数分布
经典算法:MT-IVM(多任务的高斯过程分享参数);
多任务的HB to SVM:
w0可以看成共享参数,svm为共享的模型 - induction+ralational
找到不同域数据的relation
经典方法:MAMAR
Transduction Transfer Learning
- 定义
注意:some unlabeled target-data must be available in training time - transduction+instance
经典方法:
估计p/p的方法有很多,如KMM方法
- transductive+feature
经典算法SCL:使用T的未标签数据延伸出一些特征,这些特征能够缩小两个域的差距
Unsupervised Transfer Learning
- 定义
Definition 4 (Unsupervised Transfer Learning). Given a source domain DS with a learning task T S , a target domain DT and a corresponding learning task T T , unsupervised transfer learning aims to help improve the learning of the target predictive function ft in DT using the knowledge in DS and TS,whereTS 不等于TT andYS andYT are not observable. - unsupervised+feature
self-taught clustering是一种 unsupervised+feature
Applications of Transfer Learning
- text data across domain
- NLP
- sentiment classification
- image classification
- name-entity recognition
- wifi location
- identify the relevant feature subset
- reinforce learning
- rating-matrix 单域、跨域 协同过滤 推荐