标签传播算法 matlab,稀疏标签传播:一种鲁棒的领域适应学习方法

在数据挖掘和机器学习领域,为非独立且同分布(independent and identically distributed,简称IID)数据构建学习模型是近年来出现的热门研究主题[.为了有效地解决非IID数据学习问题,研究者提出了领域适应学习(domain adaptation learning,简称DAL)[方法.该方法利用某些不同但相关的源(或辅助)领域数据的有监督学习来实现目标领域数据分类.DAL在许多实际应用中有较广泛的需求,并逐渐得到研究者的大量关注[2-9].目前已提出大量学习方法以解决视频概念检测[、文本分类[、人脸识别和图像标注[等领域适应问题,其中大多数方法侧重于统计分类器的适应,即所谓归纳学习,而对于演绎适应学习,鲜有相关研究工作开展.直观上来说,演绎DAL方法在具体实践中可取得更优的效能.另外,现有DAL方法同样需要来自源领域充足的标签训练数据以实现知识迁移,换句话说,若标签训练数据不足或有限,DAL性能在具体应用中则会在一定程度上有所下降.

在过去的几年里,基于图的半监督学习(semi-supervised learning,简称SSL)方法因其优雅的数学形式和独特的效能,已发展成为机器学习领域热门研究主题之一[.这些SSL方法一般都假设训练数据和测试数据抽取自某个相同的特征分布或特征空间,而当数据分布发生变化时,这些利用先验信息习得的模型需要再次采用新的训练数据进行重构.在DAL中,如果忽略领域差异,将源领域数据作为带标签的训练样本和目标领域无标签数据作为测试样本,DAL则降级为SSL问题.直观上来说,SSL算法可被直接用于领域适应问题,其间的细微差别在于:(1) 在SSL中带标签的训练数据量相对于DAL中的较小;(2) SSL中训练数据和测试数据均取自某个相同但未知的数据分布,而DAL则来自不同但相关的数据分布.已有几项研究工作将SSL扩展为DAL方法:Dai等人[提出一种基于期望最大的DAL算法,除了利用领域间Kullback-Leibler散度[最小化来估计标签样本和无标签样本间平衡参数外,该方法等价于半监督期望最大算法[;文献[中,Xing等人采取在最近邻图上传播标签的方法,提出一种桥接精炼DAL算法,其相似于基于图的SSL算法.但是研究结果得知,基于图的SSL算法性能在一定程度上依赖于图边的权值,其通常采用k-最近邻(k-nearest neighbor,简称k-NN)或Gaussian核相似性(Gaussian kernel similarity,简称GKS)[和缺失数据(如人脸数据中的遮罩)[较敏感,会导致将标签错误地传播到不同类.为此,Wang等人[提出一种线性邻居传播算法(linear neighbor propagation,简称LNP),该方法虽然能通过修正数据点与其k-NN间的权值来改善传统k-NN方法的性能,但是其仍然依赖传统的欧式距离来预定义数据点的k-NN,换句话说,LNP依然未能彻底解决传统SSL方法中如何有效确定数据点的邻居数这个根本问题.

近年来,稀疏表示(sparse representation,简称SR)[技术在机器学习和模式识别(特别是在人脸识别[16-19]和图像分类[)等领域得到有效应用,并展现出其独特的鲁棒性能.针对上述传统图构建存在的问题,Fan等人[提出一种稀疏正则化半监督分类算法;文献[提出采用稀疏表示来度量样本间的相似性,以实现样本间的标签传播;与文献[思想相似,文献[提出一种基于稀疏表示的SSL方法,通过新构建的稀疏图实现标签的有效传播;Cheng等人[明确提出一种鲁棒的稀疏(或l1-范最小)驱动的有向图(或l1-图),并将该图分别应用于普聚类、子空间学习和SSL,取得了良好的效果.

本文基于图SSL模型,利用核稀疏表示技术,提出了一种稀疏标签传播DAL算法(sparse label propagation domain adaptation learning,简称SLPDAL):首先,基于领域间数据分布均值差最小化准则寻求一个优化的核空间,并将领域数据嵌入到该核空间;然后,在该嵌入核空间,基于l1-范最小化准则计算各领域数据的核稀疏重构系数;最后,通过保留领域数据间核稀疏重构系数约束,实现源领域数据标签向目标领域传播.从上述分析来看,在数据图的构建上,虽然本文方法与文献[17,18,21-23]具有相似之处,但明显不同的是:现有方法都是针对IID数据在原始输入空间(如文献[)构建一个用以标签传播的稀疏图;而本文方法是针对非IID数据学习问题,在一个基于分布差最小优化的再生核Hilbert空间(reproduced kernel hilbert space,简称RKHS)构建该稀疏图.特别地,与传统方法相比,SLPDAL方法所具有的优势在于:

(1) 在继承和发展传统的基于图的SSL方法优点的基础上,利用核稀疏表示技术和领域数据分布差最小化准则,提出一种鲁棒有效的全局和局部一致正则化DAL方法SLPDAL,实现源领域数据标签向目标领域传播,并将该方法拓展为多核学习模型MKSLP.

(2) 由于稀疏表示能保留自然的判别信息,使得SLPDAL方法在解决DAL问题时只需要相对更少的带标签数据,并且通过使用稀疏集中索引(sparsity concentration index,简称SCI)[,SLPDAL方法能够自动消除噪声数据和恢复缺失数据.

(3) 在SLPDAL方法中,标签传播图模型的构建准则为领域数据的核稀疏表示,而该准则一般优于传统SSL方法中采用的最近邻准则,尤其是对于高维小样本数据集的学习.与传统SSL方法中数据近邻和图边权值的计算分开完成不同,本文方法中邻居大小和图边权值通过l1-范优化过程来一步确定,使得领域中不同样本具有不同的近邻数,能够增强本文方法对复杂数据分布学习的自适应性.

(4) 由于所提出的方法框架模型所具有的一般性,在一定的条件变换下,许多现有的SSL方法和DAL方法能被该模型所恢复.如在忽略领域差条件下,该方法模型能够简单地应用于基于图的SSL问题.

由于基于图Laplacian正则化SSL[和本文方法的紧密关系,下节将首先讨论基于图的SSL模型.

1 图Laplacian正则化SSL

一般来说,存在两种SSL任务:1) 演绎学习(或直推学习(transductive learning)),其仅旨在预测无标签顶点的分类标签[;2) 归纳学习,其试图归纳出一个在整个样本空间具有最低误差率的决策函数[.显然,归纳学习困难且复杂[,因此,本文重点关注半监督演绎学习模型.研究结果表明,SSL问题的关键是先验一致性[,也称聚类假设或流形假设,其假设相邻数据点可能具有相同标签或具有相同结构(如聚类或子流形[)的数据具有相同标签,前者为局部假设,而后者为全局假设.近年来,在SSL方面取得的一个杰出成就就是基于图的SSL模型,其将整个数据集建模为一个图结构G=(V,E),其中,V为顶点集,E为边集.每个边eijÎE被赋予一个非负权值wij≥0,以反映数据点对i和j间的相似性.图G可以为有向(即wij¹wji)或无向(即wij=wji),本文仅关注无向图的情况.

给定数据集X={x1,x2,…,xl,xl+1,…,xn}Ρd和标签集L={1,2,…,c},其中,前l个点xi(1≤i≤l)标签为yiÎL,余下的n-l个数据点xu(l+1≤u≤n)无标签,每个数据点xi均采样自某个固定但未知的分布,则基于图的SSL旨在基于由数据集X构成的图G寻求c个优化的分类函数fj(1≤j≤c),且满足:1) 优化函数的输出应接近图中带标签顶点的标签值;2) 优化函数的输出应在整个图上平滑.从而,基于图的SSL一般框架旨在最小化:

$J(f) = \lambda \sum\limits_{j = 1}^c {\sum\limits_{i = 1}^l {\delta ({f^j}({x_i}),{y_i})} } + \beta \sum\limits_{j = 1}^c {R({f^j})} $

(1)

其中,d(×,×)表示损失函数(如hinge损失函数或平方损失函数),以度量标签数据的预测值和期望值间的不一致性; R(fj)为惩罚正则项,以约束函数fj在本质数据流形上的平滑性;l和b为两个正则化参数,以分别控制损失和平滑项间的平衡.惩罚正则项可采用如下一般形式:

R(F)=tr(FTQF) (2)

其中,F=(F1,F2,…,Fc)Ρnxc为类指示矩阵,Fj=[fj(x1),fj(x2),…,fj(xn)]T,Q为一个nxn平滑矩阵.

定义1(图Laplacian正则化). 如果Q=L且Qe=0,则R(f)称为一阶图Laplacian正则化,其中L=D-WΡnxn为图Laplacian,W=[wij]nxn为图边权值矩阵,D=diag(d1,d2,…,dn)为一对角度矩阵,其中,${d_i} = \sum\nolimits_j {{w_{ij}}} {\rm{,}}$e为一n-维全1

向量;如果Q=(I-W)T(I-W),且Qe=0,则称R(f)为二阶图Laplacian正则化.

如果选d(×,×)为平方损失函数,R(f)为基于Laplacian算子的图Laplacian正则化,则公式(1)可描述为

min ltr((F-Y)TC(F-Y))+btr(FTQF) (3)

其中,YΡnxc为类标签矩阵,且若xi被标识为yi=j,则Yij=1;否则,Yij=0.QΡnxn称为图Laplacian,CΡnxn为对角矩

阵,其前l个对角元素Cii=Cl>0(1≤i≤l),余下对角元素Cii=Cu≥0(l+1≤i≤n),Cl和Cu为两个参数.可以很容易地推导出公式(3)的解析解为

F=l(lC+bQ)-1CY (4)

从而xi(l+1≤i≤n)的预测标签由下式确定:

${y_i} = \arg \mathop {\max }\limits_{1 \le j \le c} {F_{ij}},{\rm{ }}l + 1 \le i \le n$

(5)

图Laplacian Q和(或)对角矩阵C在不同设置条件下,现有大多数基于图的SSL方法能够被统一到公式(3)框架,例如在文献[中,Q设置为一个组合一阶图Laplacian且Cl=¥,Cu=0;在文献[中,Q被设置为规范化一阶图Laplacian且Cl=Cu=1.以上两种图Laplacian均基于聚类假设,而在文献[中,Q被设置为基于局部学习假设的二阶图Laplacian且Cl=1,Cu=0;在文献[中,Q被设置为基于局部线性嵌入思想的二阶图Laplacian且Cl=Cu=1;在文献[中,Q被设置为混合图Laplacian.

2 稀疏标签传播DAL

2.1 问题描述

对于DAL问题,本文将训练领域定义为源领域,其中有充足的带标签训练数据;将测试领域定义为目标领域,其中带标签的数据不存在或非常有限.对于一个模式分类问题,一个领域D由某个潜在的真实数据分布P(x,

y)给出,其中,xÎX为样本集,yÎY为相应的类标签集.对于DAL,无标签的测试数据集${X^t} = \{ (x_j^t)\} _{j = 1}^m,x_j^t \in X{\rm{,}}$抽取自目标领域Dt,带标签的训练数据集${X^s} = \{ (x_i^s,y_i^s)\} _{i = 1}^n,x_i^s \in X,y_i^s \in Y$抽取自某个与Dt不同但相关的源领域Ds.

令源领域数据分布Ps(x,y)=Ps(y|x)×Ps(x)和目标领域数据分布Pt(x,y)=Pt(y|x)×Pt(x)是两个潜在的真实数据分布,且Ps(x,y)¹Pt(x,y).事实上,绝大多数DAL方法均假设存在两个不同但高度相关的领域[.DAL的关键思想是,通过某种分布变换技术来减小Pt(x,y)和Ps(x,y)间的差异[.在DAL研究中,常用的分布距离度量方法包括基于熵概念的Kullback-Leibler散度[和基于统计概念的最大均值差(maximum mean discrepancy,简称MMD)[等.现有研究结果显示,MMD度量准则能够更有效地估计在某个再生核Hilbert空间两个分布间的距离.

通过某个非线性映射f:¡d®H,可将原始空间问题变换为再生核Hilbert空间(RKHS) H中的问题[.对于某个恰当选择的映射f,在空间H中,内积á×,×ñ算子定义为áf(x1),f(x2)ñH=K(x1,x2),其中,x1,x2ÎX,且K(×,×):XxX®¡为一

半正定核函数.在RKHS中,度量两个分布间距离的MMD可定义如下:

定义2(MMD)[29]. 设p和q为定义于领域D上的分布,令F为某个函数类,且f(ÎF):X®¡.

给定观测集${X^s} = \{ (x_i^s,y_i^s)\} _{i = 1}^n$和${X^t} = \{ (x_j^t)\} _{j = 1}^m{\rm{,}}$MMD及其经验估计定义为

$\left. \begin{array}{l}

MMD[F,p,q] = \mathop {\sup }\limits_{f \in F} ({E_{{X^s} \in p}}[f({x^s})] - {E_{{X^t} \in q}}[f({x^t})])\\

MMD[F,{X^s},{X^t}] = \mathop {\sup }\limits_K \left( {\frac{1}{n}\sum\limits_{i = 1}^n {\phi (x_i^s) - } \frac{1}{m}\sum\limits_{j = 1}^m {\phi (x_j^t)} } \right)

\end{array} \right\}$

(6)

基于MMD准则和稀疏保留假设[,本文提出SLPDAL算法,其将传统的基于图的SSL算法有效扩展到DAL领域.

2.2SLPDAL算法

本节将形式化地提出SLPDAL算法.令${X^s} = \{ x_1^s,x_2^s,...,x_n^s\} $和${X^t} = \{ x_1^t,x_2^t,...,x_m^t\}$为分别来自源领域和目标领域的两个数据点集.设$X = \{ \{ x_i^s\} _{i = 1}^n,\{ (x_j^t\} _{j = 1}^m\}$代表¡d空间n+m个数据点,$\bar L = \{ + 1,- 1\} $ (1≤i≤n)标记为${L_i} \in \bar L{\rm{,}}$其余数据点xjÎX(n+1≤j≤n+m)无标签.SLPDAL的目标是,试图预测数据点xj的标签

值.实现该任务需要3个步骤:(1) 领域分布核均值匹配;(2) 数据的核稀疏表示;(3) 稀疏标签传播以实现源领域标签向目标领域迁移.

2.2.1 领域分布核均值匹配

当样本数据映射到高维甚至无限维空间时,定义2中的MMD能够捕捉到数据的高阶统计特征[.基于此,Gretton等人[提出核函数f的选取原则,即,f为RKHS中的单位球.这样,两个领域分布距离度量可以简单地表示为RKHS中数据分布的均值差,即,源领域和目标领域间最小分布距离为

$\mathop {\min }\limits_K dist({X^s},{X^t}) = \left\| {\frac{1}{n}\sum\limits_{i = 1}^n {\phi (x_i^s)} - \frac{1}{m}\sum\limits_{i = 1}^m {\phi (x_i^t)} } \right\|_H^2$

(7)

进一步简化为

$\mathop {\min }\limits_K dist({X^s},{X^t}) = tr({X^\phi }{\Pi _{st}}{({X^\phi })^T}) = tr({\Pi _{st}}{K_{XX}})$

(8)

其中,${X^\phi } = [\phi (x_1^s),\phi (x_2^s),...,\phi (x_n^s),\phi (x_1^t),\phi (x_2^t),...,\phi (x_m^t)],{K_{XX}} = {({X^\phi })^T}{X^\phi },{\Pi _{st}} \in {{\rm{R}}^{(n + m) \times (n + m)}}$定义为

${\Pi _{st}}(i,j) = \left\{ {\begin{array}{*{20}{l}}

{\frac{1}{{{n^2}}},{\rm{ if }}{x_i},{x_j} \in {X^s}}\\

{\frac{1}{{{m^2}}},{\rm{ if }}{x_i},{x_j} \in {X^t}}\\

{ - \frac{1}{{nm}},{\rm{ otherwise}}}

\end{array}} \right.$

(9)

现有研究指出:高斯核映射能够提供一个有效的RKHS嵌入,使得领域间分布距离的一致性度量得以实现[.为此,本文采用高斯核函数${k_\sigma }(x,z) = \exp \left( { - \frac{1}{{2{\sigma ^2}}}||x - z|{|^2}} \right)$作为Hilbert空间映射的再生核函数,其中,x,zÎX,

s指核带宽.

定理1[. 假设A为一个对称矩阵且A=PSPT,其中,P包含矩阵A的正交特征向量列,S=diag(s1,s2,…,sn)为相应特征值构成的对角矩阵,b为一个正常数,则公式(10)中半定规划问题和公式(11)中线性规划问题具有相同的优化解,即,K=PGPT,其中,G=diag(g1,g2,…,gn).

$\left\{ \begin{array}{l}

\mathop {\min }\limits_K tr(AK)\\

{\rm{s}}{\rm{.t}}{\rm{. }}0\underline \prec K\underline \prec I,tr(K) = b

\end{array} \right.$

(10)

$\left\{ \begin{array}{l}

\mathop {\min }\limits_{{\gamma _i}} \sum\limits_{i = 1}^n {{\gamma _i}{\sigma _i}} \\

{\rm{s}}{\rm{.t}}{\rm{. }}0 \le {\gamma _i} \le 1,\sum\limits_{i = 1}^n {{\gamma _i}} = b,1 \le i \le n

\end{array} \right.$

(11)

证明:关键步骤是证明矩阵A和K能被联合对角化,详细过程可参见文献[.

令A=Pst和K=KXX,我们可以通过求解公式(11)中线性规划问题得到公式(8)的优化解K*,这可以利用现存的半定规划软件包来高效地实现.

2.2.2 数据的核稀疏表示

本阶段关注如何通过数据的稀疏表示来构建一个加权图G={X,S},其中,X为数据集构成的顶点集,S为边权值,每条边sijÎS代表数据点对xi和xj间的稀疏关系.如下两条理由能够说明为何数据的稀疏表示适于图的构建:

1) 在典型的k-邻居图构建中,稀疏性具有重要地位:一方面,稀疏性刻画了数据分布的全局性;另一方面,稀疏性能够有效节省计算成本和存储空间.但是,传统的基于k-NN和高斯函数构建的k-邻居图的稀疏性依赖于人工设定的邻居数和高斯核参数s.文献[研究指出:在只有少量标签数据的情况下,难以可靠地选取模型参数,即,难以确定优化的参数s.为此,需要寻求一种更可靠、更稳定的方法来构建图模型G.

2) 最稀疏的表示自然地具有判别性.因为我们的最终目标是对目标领域数据实现分类,所以我们期望图数据包含尽可能多的判别信息,即,来自相同类的两个数据点通过边连接起来.对于典型的k-NN图,上述所期望的属性严重依赖近邻准则在原始空间实施效果的好坏[,然而,对于原始高维数据(如人脸图像数据),最近邻准则通常不能取得较好的性能.相比之下,近年来研究[显示:稀疏表示具有自然的判别力并能在高维数据环境下取得较好的性能,而且该判别力仅与类数紧密相关,而与样本数无关.因此,基于SR构建的图模型在无需源领域大量标签数据的情况下能够包含更多的判别信息.

基于以上原因,本文试图避开传统的基于图的SSL方法中所采用的点对间关系度量方法,而采用SR来重构各数据点xiÎX.为此,我们首先在RKHS中通过求解如下修改的l1-范最小化问题来为各数据点xi寻求一个稀疏重构权值向量si:

$\mathop {\min }\limits_{{s_i}} C||{s_i}|{|_1} + ||\phi ({x_i}) - {X^\phi }{s_i}||_2^2 = \mathop {\min }\limits_{{s_i}} C||{s_i}|{|_1} + L({s_i},K)$

(12)

其中,

· 核K为公式(8)中寻求的优化解;

· C为正则化参数,以控制重构稀疏性和重构补偿间的平衡;

· $L({s_i},K) = 1 + {s_i}{K_{XX}}{s_i} - 2s_i^T{K_X}({x_i}){\rm{,}}$其中,KXX为一个(n+m)x(n+m)矩阵,其中元素{KXX}ij=K(xi,xj);KX(xi) 是一个(n+m)x1向量,其中元素{KX(xi)}j=K(xj,xi);si=[si1,si2,…,si(i-1),0,si(i+1),…,si(n+m)]T是一个(n+m)-维列向量,其中,第i个元素等于0表示xi从X中移除,sij(j¹i)表示样本xj对xi的重构贡献度.本文进一步约束$\sum\nolimits_{j \ne i} {{s_{ij}}} = 1$且sij≥0.

可以通过KOMP算法[来求解公式(12)中核稀疏表示问题.在求得所有数据点的重构稀疏向量${\hat s_i}$(1≤i≤n+m)后,即可构建稀疏权值矩阵$S = [{\hat s_1},{\hat s_2},...,{\hat s_{n + m}}]{\rm{,}}$进而可构建一个稀疏图模型G={X,S},其中,X为训练样本集,S为边权值矩阵.值得说明的是,S中元素sij并非数据点对xi和xj间简单的相似性度量,矩阵S本质上有别于传统的图正则化算法(如LPP(locality preserving projection)[)中的权值矩阵.对于基于图的DAL问题,采用稀疏矩阵S作为图权值矩阵具有如下的有效属性:(1) 在稀疏矩阵S中,各权值向量si均遵从重要的对称性,即旋转不变性(满足公式(12)约束)和转换不变性(满足约束$1_{n + m}^T{s_i} = 1{\rm{,}}$其中,1n+m代表(n+m)x1维列向量),使得权值矩阵S能够在一定程度上反映数据的本质几何属性;(2) 即使在无类标签的情况下,权值矩阵S中也能自然地保留数据的判别信息.

2.2.3 从标签数据到无标签数据的稀疏标签传播

本节,我们将利用公式(12)构建的核稀疏图和一个迭代过程来有效地解决源领域数据xiÎXs的标签向目标领域数据xuÎXt传播的问题.设F表示定义于样本集X上的分类函数集,且"fÎF,则可赋予每个数据点xi一个实值f,无标签数据xu的标签由fu=f(xu)的符号确定.在每次迭代中,使每个数据从其稀疏重构对象中“吸收”部分标签信息,且保留其初始状态的部分标签信息.这样,在第t+1次迭代时,xi的标签为

$f_i^{t + 1} = \alpha \sum\nolimits_{j \ne i} {{M_{ij}}f_j^t} + (1 - \alpha ){y_i}$

(13)

其中,0

yu=0(n+1≤u≤n+m).${f^t} = {(f_1^t,f_2^t,...,f_{n + m}^t)^T}$为在第t次迭代的预测标签向量,f0=y.公式(13)迭代方程重写为

f t+1=aMf t+(1-a)y (14)

本文将采用公式(14)来更新各数据对象的标签直至收敛,即,数据的预测标签在经过几次迭代后不再发生变化.

定理2. 公式(14)中计算的序列{ft}收敛于下式:

f *=(1-a)(I-aM)-1y (15)

证明:由公式(13)和初始条件f0=y可得:

${f^t} = {(\alpha M)^{t - 1}}y + (1 - \alpha )\sum\limits_{i = 0}^{t - 1} {{{(\alpha M)}^i}} y$

(16)

显然,矩阵M的谱半径满足r(M)≤1,同时,0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值