【迁移学习】自动选择源域的迁移学习方法

【迁移学习】自动选择源域的迁移学习方法

本文转载自知乎王晋东不在家的《小王爱迁移》系列之十五:自动选择源域的迁移学习方法
源地址为:《小王爱迁移》系列之十五:自动选择源域的迁移学习方法 - 知乎 (zhihu.com)

 

本次我们介绍一篇杨强老师团队早期(2011年)发表在人工智能顶会IJCAI上的文章:《Source-selection-free Transfer Learning》。这篇论文所针对的问题是:如果我们可供选择的源域数量太多(千万级),我们如何可以根据两个领域之间的关系,自动地进行源域选择?这篇文章对 实践 的指导性非常强,我们可以借鉴运用于我们的实际项目中。

Motivation

给定的一个任何要分类的领域,例如文本分类,如果仅有少量的标定数据,那么无法训练出一个足够好用的模型。这时候就需要借助于可用的辅助领域来进行知识迁移。这个辅助领域的数据需要有足够的标签,并且,需要和target尽可能的相似。这些知识从哪里可以获得呢?在文本领域,有一个已知的包含大量文本结构化信息的库:维基百科。维基百科上有着众多的文本分类信息,是一个文本分类领域非常理想的source。但是问题来了:这个source的类别通常和我们的target的类别不会完全对应(也就是说 y_{s}y_{t} 的交集并不为空)。这类似于CVPR 2018上提出的partial transfer learning的问题。这也是真实世界的状态。我们的挑战就是,如何利用这并不完全重叠的,看似没关系的source和target,建立二者之间的联系?

作者借助于一个社会化标签分享网站的数据:Delicious。这个网站由用户对不同的网页给出自己的tag。这些tag我们可以认为是包含了大量的label信息,上面包括source和target的label信息。借助Delicious这个桥梁,构建source和target之间的关系。

Method

方法一共分为两个部分:1)通过Delicious这个中间产品,得到source与target之间的关系,方便利用source进行迁移。2)得到关系之后,建立分类模型,完成迁移。其中,第2)步是大家通常采用的方法,第1)步是重点,也是创新点。

得到source和target的关系

Source有label,target也有label,这些label之间有什么关系?作者借助于delicious进行。这个过程是这样的:Delicious上有不同的人对不同的网页打的标签。那么作者就挖掘这些标签的距离:两个label的距离就是都打过这两个标签的人数。以此类推,得到了一个二部图。假设source和target的类别加起来是 q ,那么这个图的大小就是 q\times q 。边的值就是两个label的距离。

得到这个 q 以后,由于这个矩阵是一个高维度矩阵,那么用拉普拉斯特征映射对这个图进行降维,得到了一个降维以后的矩阵V,这个V只有 m<<q这么多列,所以就达到了降维的目的。

这个 V 里就包含了source和target的关系。我以接下来就可以用这个矩阵进行知识的迁移。

这个过程可以用下图来表示。

preview

得到source和target的关系

 

构建迁移学习算法框架

有了这个矩阵 V ,我们就可以构建一个迁移学习分类器。我们假设要学习一个线性模型,那么这个模型的权重向量就是 W 。这个模型的一般形式如下所示:

第一项是在部分有label的target上的误差,第二项是正则项,第三项是在无label数据上的误差。

由于source是有label的,我们还没有用呢。现在可以用了:用不同的source去训练若干个分类器,我们叫 f_{i}^{S} 。这些分类器进行集成,就可以被用于target的预测:

上面两个式子就用到了我们得到的矩阵 V 来拉近source和target的距离。然后就可以进行训练了。学习source分类器权重是一个简单方法,不再赘述。学习过程如下图所示。

preview

启发

要自动选择source,就需要对source和target的距离进行很好的度量。本文为了解决文本分类这个问题,绕过了这一点。是一个很好的数据挖掘性质的文章,解决了这个实际问题。但是可能换一个问题,方法就需要进行相应的变化,还没有归纳出一个抽象的通用的学习模式。可以继续探索。

References

[1] 本文对应的论文:Xiang E W, Pan S J, Pan W, et al. Source-selection-free transfer learning[C]//IJCAI proceedings-international joint conference on artificial intelligence. 2011, 22(3): 2355.

[2] 本文中的图片均来自杨强老师演讲的PPT。

[3] 本专栏中的partial transfer learning文章:《小王爱迁移》系列之十一:选择性对抗迁移学习(Selective Adversarial Network)

========================

[作者简介]王晋东(不在家),中国科学院计算技术研究所博士生,目前研究方向为机器学习、迁移学习、人工智能等。作者联系方式:微博@秦汉日记 ,个人网站Jindong Wang is Here

=================

更多《小王爱迁移》系列文章小王爱迁移》系列文章汇总

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值