Partial Label Learning via Gaussian Processes

摘要

偏标记学习(PL)是一种新的弱监督机器学习框架,它解决了每个训练样本与其实际标签的候选集相关联的问题。由于精确标记的数据通常昂贵且难以在实践中获得,PL可以广泛应用于许多实际任务中。然而,由于训练数据的模糊性不可避免地使这种学习框架难以解决,目前只有少数算法可用。本文利用高斯过程模型,提出了一种新的概率核算法。其主要思想是假设一个不可观测的潜在函数,在每个类别标签的特征空间上具有高斯过程。然后定义一个新的似然函数,对训练数据传递的模糊标记信息进行消歧。通过引入聚合函数来逼近似然函数中的max(·)函数,不仅定义了一个与maxloss函数等价的似然函数,并且证明了它比其他损失函数更紧,而且给出了一个可微凸目标函数。在6个UCI数据集和3个真实PL问题上的实验结果表明,该算法比现有的PL算法具有更高的精度。

  1. 引言

在传统的监督分类框架中,算法通常是通过使用训练集来开发的,其中每个样本的实际标签都被精确标注。然而,在许多情况下,很难获得这种精确标记的数据。近年来,利用训练数据(包括标签未知的样本)进行学习已成为机器学习领域的一个有趣话题,多实例学习[1]、[2]、多实例多标签学习[3]、[4]、成对约束学习[5]、[6],提出了部分标记学习(PL)[7],[8]。 

PL(也称为超集标签学习[9]、模糊标签学习[10]或软标签学习[11])指的是每个训练样本与其实际标签的候选集相关联的问题。从形式上讲,设X=Rd为特征空间,Y={1,2,…,Q}为类标签集。PL的任务是学习函数f:X→ Y来自一个不精确标记的训练集S={(xi,Yi)| i=1,2,…,n},它可以正确预测任何未标记样本x的实际标记∗∈ 对于每个训练样本(xi,Yi),xi∈ X表示特征向量,Yi表示特征向量⊆ Y是席的实际标签的候选集。从上面的定义可以看出,在PL框架中,无法直接观察每个训练样本的实际标签。可以获得的唯一信息是,实际标签位于候选集Yi中。由于精确标记的数据通常昂贵且难以获得,PL问题自然会出现在许多实际任务中。例如,在鸟类鸣叫分类问题[12]中,不同鸟类物种的鸣叫通常同时记录在一个采集的记录中,专家只能识别在该记录中鸣叫的鸟类物种,但他们往往无法将每个物种定位到光谱图的特定部分。另一个激励性的例子是使用相关的文本标题和视频脚本,从新闻网站或视频中收集的图像学习人脸识别系统。在该设置中,由于标题或脚本通常包含多个名称,因此训练集中的人脸图像通常标有多个名称[7]、[13]。这些示例表明,使用PL框架可以自然地解决许多实际应用问题。 

训练数据的模糊性不可避免地使PL问题难以解决,因此目前只有少数算法可用。最早的算法可以追溯到Grandvalet的工作[14]。后来,Jin和Ghahramani[15]对其进行了分析,并提出了一个判别模型。在Jin和Ghahramani[15]的工作推动下,PL开始吸引机器学习领域的注意力。在[10]中,采用k-最近邻方法处理PL问题;Côme等人[11]开发了一种基于最大似然估计和信念函数理论的PL算法;Luo和Orabona[16]引入了一个大幅度的P L公式;C o u r等人[7]和Nguyen and Caruana[17]分别通过扩展传统的二进制和多类损失函数来处理候选标签,开发了两种支持向量机(SVM)算法;Liu和Dieterich[9]提出了一个条件多项式混合模型;Zhang[8]提出了一种利用纠错输出码(ECOC)技术的无歧义PL算法。现有算法解决PL问题的策略大致分为两类。第一类是首先将PL问题转换为标准分类问题,然后使用 现有的分类算法解决了这一问题。例如,在[8]中,ECOC技术被用于将PL问题转换为许多标准的二进制分类问题。另一类是通过定义新的损失函数将传统分类模型扩展到损益。例如,在[14]中,逻辑回归模型用于通过最大化对数似然来建立PL算法?n i=1?Y∈Yilog(F(xi,y,θ)),这意味着所有候选标签对样本的贡献相等;Cour等人[7]通过定义损失函数ψ((1/| Yi |))开发了一种线性SVM算法?Y∈Yify(xi)),1也假设每个候选标签在建模过程中的贡献相等。虽然扩展传统分类模型是解决PL问题的合理策略,并且已经提出了几种算法,这些算法大多涉及线性分类函数,不能很好地处理非线性问题,或者损失函数不能有效地消除训练数据传递的模糊标记信息。

提出了一种基于高斯过程模型的核PL算法(PLGP)。其基本思想是首先假设每个类别标签在特征空间上具有高斯过程的潜在函数。然后定义一个新的似然函数,对训练数据传递的模糊标记信息进行消歧。因此,任何新样本的实际标签都可以通过积分潜在函数来预测。本文的贡献如下 

1)考虑到现有的算法大多是线性的,在处理非线性问题时不能取得很好的性能,提出了一种核PL算法。2) 根据[7]的理论结果,最大损失ψ(max y∈与损失ψ((1/| Yi |)等其他损失函数相比,Yify(xi))可以更精确地逼近预期损失?Y∈Yify(xi))。然而,ψ(max)y∈Yify(xi))会给我们带来一个难以求解的不可微目标函数,因此在现有算法中很少采用。本文不仅用一个等价于最大损失的似然函数来消除训练数据所传递的模糊标记信息的歧义,而且还提出了一个可微的凸目标函数,它可以用任何凸优化方法有效地求解。3) 据我们所知,这是第一个利用高斯过程模型提出的PL算法。本文的其余部分组织如下。第二节介绍了PLGP算法。在第三节中,对几个受控UCI数据集和三个真实PL问题评估了PLGP算法。结论见第四节。 

 二、PLGP算法

 由于高斯过程已被广泛用于为传统监督学习框架开发算法[18],[19],因此省略了对其的介绍,感兴趣的读者可以很容易地找到相关书籍[20]。构造基于高斯过程的机器学习框架算法一般包括四个步骤:定义潜在函数、定义联合似然函数、计算潜在函数的后验分布和计算未标记样本的预测概率。各种机器学习框架中基于高斯过程的算法的主要区别在于潜在函数和联合似然函数的定义。PLGP模型的主要思想是为每个标签j假设一个潜在函数Fjj∈ 然后样本x属于标签k的概率由x上函数{fj | j=1,2,…,Q}的值{fj(x)| j=1,2,…,Q}共同决定。由于每个训练样本的实际标签不能直接观察到,只能获得实际标签在候选集Yi中的信息,在PLGP模型中,定义了一个基于max(·)函数的似然度,以消除训练样本传递的模糊标记信息。PLGP算法的细节如下所示。

 A.先前

 将高斯过程置于潜在函数之上是各种高斯过程模型背后的共同想法。本文通过在潜在函数{fj | j=1,2,…,Q}上放置一个均值为零的高斯过程先验和以下协方差函数来处理PL问题,即:

 其中kj(x,x?)是样本x和x的协方差函数吗?它规定了函数fjs的一般性质,如平滑度、尺度等。在本文的实验中,以下两个核函数将用作协方差函数kj(x,x?):

 

 为了简明扼要,让D={xi | i=1,2,…,n}表示训练集中的特征向量集,fji=fj(xi)和fj∗= fj(x∗) 是xind x上潜在函数fj值的简写形式∗, 分别为Fj=[fj1,fj2,…,fjn]t潜在函数fjon D,F=[FT 1,FT 2,…,FT Q]和F的值∗= [f1∗,f2∗,...,fQ∗]T.根据(1),联合先验分布p(F | D,?)和p(F,F)∗|D、 x∗,? ) 可以得到,就是

 

 其中协方差矩阵的第(l,s)个元素Kjis kj(xl,xs),xl,xs∈ D、 千焦∗是第i个元素为kj(xi,x)的列向量∗), 千焦∗∗= kj(x)∗,十、∗), 和表示协方差函数{kj | j=1,2,…,Q}的超参数。因此,我们可以解析地推导出条件先验分布p(F)∗|F、 D,x∗,? ) 详情如下:

 B.联合可能性

联合似然p(Y | F)表示给定潜在函数{fj | j=1,2,…,Q}的值F时,观察到的类标签Y={Yi | i=1,2,…,n}的联合概率。通常,假设训练样本彼此独立。因此,p(Y | F)可以定义为所有单个样本的似然乘积,即

 与传统的多类高斯过程分类模型[20]相同,给定{f1i,f2i,…,fQi},样本xibelong到任何标签s的概率∈ Y可评估为

 其中exp(·)表示自然指数函数。在传统的分类问题中,可以直接观察训练样本的实际标签(假定为s)。因此,为了最大化样本Xi属于实际标签S的概率,F o müL a(8)可以用作样本席上的似然。然而,在PL问题中,不能直接观察每个训练样本的实际标签,只能获得实际标签在候选集中的信息。因此,我们只能假设概率最大的候选标签是每个样本的实际标签。因此,在本文中,以下似然用于消除训练样本传递的模糊标签信息的歧义:

 由于高斯过程模型中似然函数的作用与SVM中损失函数的作用相同,似然(9)等价于[7]中定义的最大损失。根据[7]的理论结果,最大损耗比现有PL文献中使用的许多其他损耗函数更为严格。当然,由于max(·)是一个不可微函数,似然(9)将给计算潜在函数的后验分布带来很大困难。在下一节中,我们将介绍克服这一困难的详细策略。

C.后验分布

基于贝叶斯规则,后验分布p(F | D,Y,?)对于给定的参数,F的值是多少?可以写成

是参数的边际可能性吗?。

由于p(Y | F)是非高斯函数,后验分布p(F | D,Y,?)无法解析计算。传统高斯过程分类算法用于计算后验分布的一种流行策略是使用可处理的高斯分布来近似后验分布,研究人员已经提出了许多最先进的近似方法,如期望传播、拉普拉斯近似(LA),和Kullback-Leibler散度最小化[21]。其中任何一个都可以用来近似后验分布p(F | D,Y,?)在本文中。由于计算时间比其他方法短,本文将使用LA方法获得高斯近似

 p(F | D,Y,,),式中ˆF=arg max fp(F | D,Y,?),A=−∇∇ logp(F|D,Y,?)|F=ˆF,对数(·)表示自然对数。

自p(Y|D,?)与f无关,我们只需要考虑非正规的后p(y,f)p(f?d,?)当最大化p(F | D,Y,?)时关于F,因此,可通过最大化ψ(F)获得ˆF

 

 然而,由于p(Y | F)涉及一个不可微函数max(·),我们不能直接利用其导数使ψ(F)最大化。解决这个问题的一个直观方法是使用可微函数逼近max(·)函数。这里,我们将使用聚合函数(也称为平滑参数L>0的指数惩罚函数)[22]来近似最大(·)函数。

为了解决非线性规划问题,Li[22]首先从Jaynes的最大熵原理[23]中导出了聚合函数。其形式如下:

 

 从(14)中可以看出,G(x)=max j之间存在以下关系∈{1,…,m}gj(x)和GL(x):G(x)≤德国劳埃德船级社(x)≤ G(x)+(1/L)logm。因此,对于任何有限整数m,GL(x)是G(x)作为L的光滑一致单调逼近→ ∞.

为了将聚合函数替换为max(·),p(Y | F)可以近似重写为这是无限可微的

 假设对于每个训练样本(xi,Yi),集合{fki | k中只存在一个最大元素∈ Yi},logp(Y | F)关于F的下列导数可以得到为L→ ∞:

 因此,根据(16)和(17)中的结果,可以得到ψ(F)对F的以下导数:其中K是具有Q×Q分区的块矩阵,其中第j个主对角块是Kjand,非对角块是零矩阵,W=diag(d)− hhT

 可以看出,W=diag(d)−hh和K是半正定矩阵。因此,假设每个训练样本(xi,Yi)在集合{fki|k中只存在一个最大元素∈ 当L足够大时,我们可以得出ψ(F)是凹函数的结论。因为{fki | k的多个元素∈ Yi}同时达到最大值为0,实际上,我们可以忽略上述假设,直接将ψ(F)作为可微凹函数来计算ˆF。

由于ψ(F)是可微凹函数,方程的解∇ψ(F)=0μs t i sˆF,即 

 由于它是一个非线性方程,(20)无法解析求解。本文采用牛顿法求解,迭代公式如下:

 由于φ(λ)也是一个可微凹函数,因此可通过求解方程获得λ(∂ϕ(λ)/∂λ) = 0. 本文采用二分法求解该方程(∂ϕ(λ)/∂λ = 0).

在获得ˆF之后,可以通过将ˆF代入负Hessian矩阵(19)来获得矩阵A,即

 D.预测

基于高斯近似q(F | D,Y,?)后验分布(10)和条件先验分布p(F)的in(12)∗|F、 D,x∗,? ) 在(6)中,我们可以解析地推导出后验分布p(F)∗|D、 Y,x∗,? ) F的∗

 K在哪里∗∗和K∗是具有Q×Q划分的块矩阵,其中第j个主对角块为Kj∗∗和Kj∗, 非对角块分别为零矩阵,`K=KT∗K−1.

因此,s∈ Y是x的实际标签∗ 可按如下方式计算:

 注意,(25)也不能用解析法计算。通常,可以使用采样或分析近似方法来计算它。在本文中,我们将采用蒙特卡罗抽样方法来计算(25)。主要原因是蒙特卡罗抽样法是一种简单的方法,在许多传统的多类高斯过程分类算法中,它被广泛用于计算预测分布[20]。

最后,将概率最大的标签预测为x的实际标签∗, 就是

 到目前为止,我们已经提出了整个PLGP算法的假设参数?已获得。下一节将给出算法实现的一些细节。

E.PLGP算法的实现

在本节中,应注意避免数值不稳定性。为此,将广泛使用以下对称正定矩阵:

 其中I是大小为n的单位矩阵。可以看出,每个bj的特征值在1以下,在1+nmax l,s | Kj ls |以上有界。因此,它们对许多协方差函数都有很好的条件,并且计算它们的逆矩阵在数值上是稳定的。

 利用Bj(j=1,2,…,Q)和Woodbury矩阵恒等式(A+UCV)−1=A−1.− A.−1U(C−1+VA−1U)−1VA−后验分布p(F∗|D、 Y,x∗,? ) F的∗在(24)中可以重写为

 其中,B是具有Q×Q分区的块矩阵,第j个主对角块是(diag(dj))(1/2)B−1 j(diag(dj))(1/2)和非对角块是零矩阵,'I是具有Q行分区和1列分区的块矩阵,第j行块是I。

 类似地,牛顿法的迭代公式(21)可以改写为

 PLGP算法的流程图如算法1所示。

从上面的流程图可以看出,训练阶段的计算复杂性主要由计算Bj(j=1,2,…,Q)的逆矩阵决定,它需要大约O(Qn3)次运算。

三、 实验

在本节中,在UCI数据集和真实PL数据集上,将所提出的算法与三种最先进的PL算法进行比较,包括名为PL-ECOC[8]的核方法、名为CLPL[7]的线性参数方法和名为PL-KNN[10]的惰性学习算法。对于PL-ECOC算法,线性核k(x,x?)=x(x?)T、 径向基函数核k(x,x?)=经验(−γ| x− x|2) 本文所给出的每一个实验结果都是上述两个核函数所得到的两个结果中最好的一个。由于该算法主要对参数γ和C敏感,因此γ和C基于训练数据的三重交叉验证方法进行调整,其他参数根据[8]的建议进行设置,即阈值参数thr设置为n/10,码字长度L i s e t t o b e 1 0 L o g(Q),其中n是训练集的大小,Q是类标签的数量。对于CLPL算法,使用具有平方铰链损失的SVM作为参数模型。PLKNN算法的参数k和参数?通过对训练数据的三重交叉验证方法,分别选择了PLGP算法中的一种。因为在验证中只能获得每个样本的候选标签集(而不是实际标签)当使用交叉验证方法选择每个算法的参数时,验证集上的预测精度无法准确计算。在本文中,验证集上的预测精度是基于以下假设近似计算的,即当且仅当预测标签属于该样本的候选标签集时,该算法才正确地标记样本。对于PLGP算法,理论上不同潜在函数的协方差函数可能不同,并且可能有许多选择方案,但是在实践中没有可行的策略来为每个潜在函数确定合适的协方差函数。因此,在本文的实验中,所有潜在函数都使用相同参数的相同协方差函数。与PL-ECOC类似,本文给出的PLGP的每个实验结果都是使用(2)和(3)得到的两个结果中最好的一个。在每个数据集上,重复十倍交叉验证五次,以测量每个算法的性能,并记录标准偏差的平均准确度(%)。此外,作为预处理步骤,本文将实验数据集的每个特征缩放为均值和单位方差为零的特征。

A.受控UCI数据集 

该算法首先在六个UCI数据集[24]上进行评估,其详细信息如表I所示。由于这些数据集是传统的多类分类数据集,而不是PL数据集,因此使用两个控制参数p和r将其转换为PL数据集。这里,p表示部分标记的样本比例(即| Yi |>1),r表示部分标记样本的额外标签数量(即,r=|Yi |− 1). 本文将p和r分别设为{0.15,0.45,0.75}和{1,2,3}。因此,对于每个UCI数据集,形成九个具有不同(p,r)配置的PL数据集。形成PL数据集的过程如下:对于每个(p,r)配置,我们首先从原始UCI数据集中随机选择pn样本,然后,对于每个选择的样本,随机选择Y中的r类标签(实际标签除外)作为附加候选标签。表II显示了这些受控数据集上每个算法的平均精度(%),其中每个数据集的最佳结果显示在下划线中。显然,在大多数受控数据集上,PLGP算法比其他三种算法具有更高的精度。此外,有趣的是,PLGP和PL-ECOC算法的性能明显优于其他两种算法。由于这两种算法都属于核方法,这一观察结果可能表明核方法是解决PL问题的更好选择。为了清楚了解PLGP算法相对于其他算法的相对性能,表III显示了基于0.05显著性水平的左尾配对t检验的每个UCI数据集上PLGP和其他三种算法之间的赢/平/亏计数。从表III可以看出,PLGP算法在路段、车辆和树叶数据集上优于其他算法,在特征数据集上不如PL-ECOC算法。总的来说,在69%、89%和85%的情况下,所提出的算法分别在PL-ECOC、CLPL和PL-KNN上取得了优异的性能,并且在19%、4%和2%的情况下,分别优于它们。

B.真实世界部分标签学习数据集

在本节中,PLGP算法将在三个真实的PL问题上进行测试。如表一所示,人脸识别问题的数据集(丢失数据集)包含从丢失的电视连续剧中截取的16个人的1122张人脸图像。每个人脸图像由108个PCA特征描述,其候选标签是从相关剧本中提取的人名[7],[8]。鸟类鸣叫分类问题的数据集(BridSong数据集)包含13种鸟类记录的4998个鸣叫音节。每个音节由38个特征描述,其候选标签是在10秒内共同歌唱的鸟类[9],[12]。对象分类问题的数据集(MSRCv2数据集)包含来自23类对象的1758个图像分割。每个图像分割由48个直方图和梯度特征描述,其候选标签是同一图像中出现的对象[8]。关于每个样本的候选标签数量的一些统计信息也显示在表I中。

表IV显示了这些真实PL数据集上每种算法的平均精度(%),表V显示了PLGP和其他三种算法之间的赢/平/亏计数。可以看出,PLGP算法执行PL-ECOC算法在MSRCv2和丢失的数据集上具有优势,在鸟鸣数据集上实现了最佳精度。此外,与对受控UCI数据集的观察结果一致,PLGP和PL-ECOC算法的性能明显优于CLCP和PL-KNN算法。

四、结论 

本文采用高斯过程模型来解决PL问题。通过引入聚合函数来近似最大(·)函数,不仅可以使用一个似然函数(相当于最大损失函数,在某种意义上比其他损失函数更接近预期损失)来消除训练数据传递的模糊标记信息的歧义,此外,还提出了一个凸目标函数,可以有效地用任何凸优化方法求解。在六个受控UCI数据集和三个真实PL问题上的实验结果表明,该算法的精度优于现有的PL算法。我们希望这一贡献能够鼓励研究人员探索和开发更灵活的PL算法。考虑到现有的PL算法大多只能处理中等规模的训练数据集的问题,该算法将适用于将来高效处理大型训练数据集。此外,由于每种近似方法都有其自身的优势,我们需要为后验分布p(F | D,Y,?)找到更合适的近似方法。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值