迁移学习笔记5 MMDE

Transfer Learning via Dimensionality Reduction

Sinno Jialin Pan, James T. Kwok and Qiang Yang

https://www.aaai.org/Papers/AAAI/2008/AAAI08-108.pdf

参考MMD距离、MMDE、TCA联系笔记:

https://zhuanlan.zhihu.com/p/380343849

从这篇论文中可以找到, MMDE/TCA作者使用一致逼近核universal kernel时所用性质的线索.

且从正定核矩阵诱导一致逼近核的命题1中可以得出, 其核矩阵K bar是单位矩阵, K是对角矩阵

目录

摘要

引言

相关著作和前期工作

迁移学习

降维

MMD

迁移学习中的降维方法

问题陈述和总体方法

第1步:最大平均差异嵌入

第2步:潜在空间中的训练模型


摘要

迁移学习解决的问题是如何利用源域中的大量标记数据来解决目标域中相关但不同的问题,即使训练和测试问题具有不同的分布或特征。在本文中,我们考虑了通过降维的转移学习。为了解决这个问题,我们学习了一个低维的潜在特征空间,其中源域数据和目标域数据之间的分布相同或接近。在这个潜在的特征空间上,我们将数据投影到相关领域,在那里我们可以应用标准学习算法来训练分类或回归模型。因此,潜在特征空间可以被看作是将知识从源域传递到目标域的桥梁。我们的主要工作是提出了一种新的降维方法来寻找潜在空间,该方法最小化了数据在潜在空间中不同领域的分布之间的距离。在室内WiFi定位和二进制文本分类两个实际应用中的实验验证了我们的迁移学习方法的有效性。

引言

迁移学习旨在解决当来自源域的训练数据和来自目标域的测试数据遵循不同的分布或表示在不同的特征空间中时的问题(Caruana,1997)。在过去,有两种主要的方法来迁移学习。第一种方法可称为基于实例的方法(Dai等人,2007年;Huang et al.。2007年;Sugiyama等人。2008),其中学习不同的权重以对源域中的训练示例进行排序,以便在目标域中更好地学习。另一种方法可以称为基于特征的方法(Ando和Zhang 2005;Argyriou,Evgeniou和Pontil 2007;Blitzer,McDonald和Pereira 2006;Raina等人)。2007),它试图从不同的领域学习一个共同的特征结构,可以在两个领域之间架起一座桥梁,进行知识转移

已经开发了几种用于迁移学习的技术,包括多任务学习(Ando和Zhang 2005;Argyriou,Evgeniou和Pontil 2007)、多领域学习(Blitzer,McDonald和Pereira 2006)和自学学习(Raina等人)。2007)。然而,以前的基于特征的方法很少考虑如何利用潜在空间作为桥梁来促进知识转移。因此,他们中的许多人可能只有有限的知识转移能力。在本文中,我们主要研究潜在特征空间中的迁移学习,这样即使在目标领域没有标签数据的情况下,我们仍然可以利用来自源域的训练数据来学习高性能的分类器。

我们的方法直观地吸引人:如果我们能找到一个潜在空间,其中不同领域之间的数据的边缘分布彼此接近,那么这个空间就可以作为传播分类模型的桥梁。更具体地说,如果两个领域相互关联,则可能存在几个共同的潜在变量,它们主导着观测数据。它们中的一些可能会导致观测的分布不同,而另一些则可能不会。我们可以发现这些不会导致跨域变化的潜在因素在这些因素上,源数据和目标数据分布彼此接近。那么,这就是我们要寻找的低维空间。

我们以基于学习的室内定位问题为例来说明我们的想法,其中在WiFi环境中移动的客户端希望使用接收信号强度(RSS)值来定位自己。在室内建筑中,RSS值受到许多隐藏因素的影响,如温度、人体运动、建筑结构、接入点(AP)的特性等。在这些隐藏因素中,温度和人体运动可能会随时间变化,从而导致RSS值的变化。然而,AP的建筑结构和性能相对稳定。因此,如果使用后两个因子来表示RSS数据,则不同时间段收集的数据的分布可能会彼此接近。因此,这是一个潜在的空间,在这里我们可以确保学习的定位模型从一个时间段转移到另一个时间段,或者从一个空间区域转移到另一个空间区域。另一个例子是学习跨域进行文本分类。如果两个文本分类域具有不同的分布,但彼此相关(例如,新闻文章和博客),则可能存在一些问题这些领域共享的潜在主题。其中一些可能是相对稳定的,而另一些可能不是。如果使用稳定的潜在主题来表示文档,则文档在相关领域中的分布之间的距离可能会很小。然后,在潜在主题跨越的潜在空间中,我们可以传递文本分类知识。

在本文中,我们提出了一种新的降维算法,旨在确保有效的迁移学习。该算法的目标最小化数据在低维潜在空间中不同领域的分布之间的距离。换言之,我们试图发现一个由特征变换函数F描述的潜在空间使得F(Xsrc)和F(Xtar)的边缘分布彼此接近,其中F(Xsrc)和F(Xtar)是潜在空间中样本Xsrc和Xtar的新表示。如果条件概率P(Ysrc|F(Xsrc))和P(Ytar|F(Xtar))相似(即转换后X与Y的关系相似),我们可以学习一个有F(Xsrc)和Ysrc的模型f,并直接用f来预测F(Xtar)的标号。

总之,我们的主要贡献是提出了一种新的基于降维的算法,该算法旨在最小化不同数据集在潜在空间中的分布距离,从而实现有效的迁移学习。我们将我们的新方法应用于两个真实世界的迁移学习环境中的应用程序,以展示其出色的性能。

相关著作和前期工作

迁移学习

基于特征的方法在迁移学习的许多领域得到了广泛的应用。在多任务学习中,相关任务中的领域特定信息被用来联合训练多个分类器,使它们相互受益。共享表征被利用,而额外的任务可以被用作学习过程中的归纳偏差(Ando和Zhang 2005;Argyriou,Evgeniou和Pontil 2007)。在多域学习中,(Blitzer,McDonald和Pereira 2006)描述了一种启发式方法来构建用于域适应的数据的新表示。在自学方面(Raina等人)。2007)首先从大量可能与已标记数据具有不同标签的未标记数据中学习高级基集,然后将已标记数据投影到这些基本集合以获得用于进一步分类问题的新表示。

基于实例的迁移学习方法是解决迁移学习问题的另一种方法(Dai等人,2007年;Huang et al.。2007年;Sugiyama等人。2008年)。许多基于实例的方法都假定虽然边际概率P(Xsrc)和P(Xtar)不同,但条件概率P(Ysrc|Xsrc)和P(Ytar|Xtar)是相同的,其中Xsrc和Xtar分别是源域和目标域中的样本。这里,Ysrc和Ytar是对应的标签。然而,在现实中,这种假设可能站不住脚。例如,在室内WiFi定位问题中,我们尝试根据从多个发射机或接入点(AP)发送的接收信号强度(RSS)值来确定移动设备的位置。以前的一些工作已经发现RSS值P(X)的分布,其中x代表RSS值,可以是非高斯的,并且可以由于动态环境因素而变化很大(Panet al.。2007)。此外,从一个时间段估计的给定RSS值P(y|x)的位置的概率对于另一个时间段中的位置估计是不可靠的,其中y表示位置标签。本文放松了这一假设,仅假设存在一个潜在空间F,其中P(Ysrc|F(Xsrc))和P(Ytar|F(Xtar))相似

降维

降维在机器学习领域得到了广泛的研究。(van der Maten,Postma和van den Herik,2007)最近对各种降维方法进行了综述。传统的降维方法试图将原始数据投影到低维的潜在空间,同时保持原始数据的某些属性。由于它们不能保证不同领域数据之间的分布在约简的潜在空间中是相似的,因此不能直接用于解决迁移学习问题。因此,需要开发一种新的用于迁移学习的降维算法。

一种较新的降维技术是最大方差展开(MVU)(Weinberger,Shaa和Saul 2004),其动机是从数据本身设计用于核主成分分析(KPCA)的核。MVU通过最大化嵌入的方差来提取数据的低维表示,同时保持相邻观测之间的局部距离。MVU可以用半定规划(SDP)来表示(Lanckriet et al.。2004)优化问题,并由许多优化求解器求解。在估计核矩阵K后,MVU将主成分分析应用于K选择几个特征向量作为基,并将原始数据投影到这些基上,得到低维表示。

MMD

Maximum Mean Discrepancy

有许多标准来估计不同分布之间的距离。一个著名的例子是Kullback Leibler(K-L)散度(divergence)。许多标准都是参数的,因为它们需要一个中间的密度估计。为了解决我们的问题,我们希望找到数据集分布之间距离的非参数估计准则。最大平均偏差(MMD)是比较基于再生核Hilbert空间(RKHS)的分布的一个相关准则(Borgwardt等人)。2006)。设X={x1,...,xn1}和Y={y1,...,yn2}是分布为P和Q的随机变量集。由MMD定义的P和Q之间的距离的经验估计如下

其中H是universal RKHS(Steinwart2001)。当且仅当N1,N2→∞时,P=Q, DIST(X,Y)为非负。在RKHS中,函数求值可以写成内积形式f(x)=<φ(X), f>,其中φ(x)为原始特征空间到RKHS的映射, φ(x):X→H,MMD的经验估计可以重写如下:

总之,基于MMD理论(Borgwardt等人,2006),两个样本群的分布之间的距离等于映射到RKHS中的两个样本群的均值之间的距离。

迁移学习中的降维方法

问题陈述和总体方法

在转移学习设置中,在源域中有一些标记的数据Dsrc可用,而在目标域中只有未标记的数据Dtar可用。我们将源域数据表示为Dsrc={(xsrc_1,ysrc_1),…,(xsrc_{n1},ysrc_{n1})},其中xsrc_i∈R^m是输入,而ysrc_i是相应的标签。类似地,我们将目标域数据表示为Dtar={xtar_1,…,xtar_{n2}},其中,为简单起见,还假定输入xtar_i在R^m中。设P(Xsrc)和Q(Xtar)(或简称P和Q)分别是Xsrc和Xtar的边缘分布。一般来说,它们可以是不同的。然后,我们的任务是预测与目标域中的输入xtar_i相对应的标签ytar_i。

该方法以降维为基础,分两步进行。

首先,我们提出了一种新的降维方法(在下文中称为最大平均差异嵌入(MMDE))来学习两个领域共有的低维潜在空间F。设投影映射为ψ。我们试图使投影数据的分布ψ(Xsrc)和ψ(Xtar)彼此接近

在第二步中,我们应用传统的机器学习算法来训练从潜在空间中的ψ(xsrc_i)到ysrc_i的模型。然后,训练后的模型可用于预测目标域中xtar_i的标签。在下文中,我们用X‘src={x’src_i}和X‘tar={x’tar_i}分别表示ψ(Xsrc)和ψ(Xtar)。

第1步:最大平均差异嵌入

在这一节中,我们讨论学习一个普通的低维潜在空间F的问题,使得源数据和目标数据(X‘src和X’tar)的分布可以彼此接近。在使用(2)时,这相当于最小化

因为φ∈H,易得:

引理1 设φ是一致逼近核(universal kernel)的特征映射。那么φ◦ψ也是任意映射ψ的一致逼近核的特征映射。

因此,我们的目标是找到某个一致逼近核的特征映射φ◦ψ,使得(3)最小化。用k表示相应的一致逼近核。公式(3)可以用由k定义的核矩阵写成,如下:

是一个复合核矩阵,其中Ksrc和Ktar是由源域和目标域中的数据分别由k定义的核矩阵,并且L=[Lij] ⪰0

在直推式的设置下,我们可以学习这个核矩阵K,而不是学习一致逼近核K。然而,我们需要确保学习的核矩阵确实对应于一致逼近核。为此,我们首先回顾一下一致逼近核的以下属性(Song 2007):

定理1 一个核是一致逼近的,当对任意不同的点集,它诱导(induces)出严格正定的核矩阵。

当一致逼近核诱导出严格正定核矩阵时,下面的命题表明,某些严格正定核矩阵也能诱导出一致逼近核。

命题1 如果核矩阵K可以写为

其中ε>0,K bar⪰0和I是单位矩阵,则K对应的核函数是一致逼近的

因此,只要学习的核矩阵是(5)中的形式,我们就可以保证相应的核是一致逼近的。除了在(4)中最大限度地减少KL的迹外,我们还有以下约束/目标,这些约束/目标是的动机(motivated)源于MVU:

​​​​​​​

因此,嵌入问题可以表示为以下优化问题:

其中ε>0, 10分别是1和0组成的向量。ε是一个小的正常数。优化目标中两项的相对权重由参数λ≥0 控制,该系数可由经验确定。

我们可以进一步将上述优化问题重写为半定规划(SDP):

这可以通过标准的SDP求解器来解决。在得到K bar之后,我们可以应用主成分分析并选择前几个特征向量来构造低维表示X‘src和X’tar。在下文中,我们将这种方法称为最大平均差异嵌入(MMDE)。注意,优化问题(7)类似于一种新的监督降维方法—colored MVU(Song et al.。2008年)。然而,MMDE和colored MVU之间有两个主要的区别。首先,colored MVU中的L矩阵是编码数据的标签信息的核矩阵,而MMDE中的L可以被视为编码不同数据集的分布信息的核矩阵。其次,除了最小化KL的迹外,MMDE还旨在通过最大化K的迹来展现高维数据。

第2步:潜在空间中的训练模型

使用监督或半监督学习,我们可以训练模型f以用于估计的X‘src和类别标签Ysrc之间的映射。然后,这可以用于获得xtar_i的预测标签f(x‘tar_i)。虽然我们没有学习一个函数来显式地将原始数据Xtar投影到X‘tar,但我们仍然可以使用harmonic函数的方法(Zhu,Ghahramani和Lafferty 2003)来估计目标域中新数据的标签。完整的算法如算法1所示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值