摘要
偏标记学习(PL)是一种新的弱监督机器学习框架,它解决了每个训练样本与其实际标签的候选集相关联的问题。由于精确标记的数据通常昂贵且难以在实践中获得,PL可以广泛应用于许多实际任务中。然而,由于训练数据的模糊性不可避免地使这种学习框架难以解决,目前只有少数算法可用。本文利用高斯过程模型,提出了一种新的概率核算法。其主要思想是假设一个不可观测的潜在函数,在每个类别标签的特征空间上具有高斯过程。然后定义一个新的似然函数,对训练数据传递的模糊标记信息进行消歧。通过引入聚合函数来逼近似然函数中的max(·)函数,不仅定义了一个与maxloss函数等价的似然函数,并且证明了它比其他损失函数更紧,而且给出了一个可微凸目标函数。在6个UCI数据集和3个真实PL问题上的实验结果表明,该算法比现有的PL算法具有更高的精度。
-
引言
在传统的监督分类框架中,算法通常是通过使用训练集来开发的,其中每个样本的实际标签都被精确标注。然而,在许多情况下,很难获得这种精确标记的数据。近年来,利用训练数据(包括标签未知的样本)进行学习已成为机器学习领域的一个有趣话题,多实例学习[1]、[2]、多实例多标签学习[3]、[4]、成对约束学习[5]、[6],提出了部分标记学习(PL)[7],[8]。
PL(也称为超集标签学习[9]、模糊标签学习[10]或软标签学习[11])指的是每个训练样本与其实际标签的候选集相关联的问题。从形式上讲,设X=Rd为特征空间,Y={1,2,…,Q}为类标签集。PL的任务是学习函数f:X→ Y来自一个不精确标记的训练集S={(xi,Yi)| i=1,2,…,n},它可以正确预测任何未标记样本x的实际标记∗∈ 对于每个训练样本(xi,Yi),xi∈ X表示特征向量,Yi表示特征向量⊆ Y是席的实际标签的候选集。从上面的定义可以看出,在PL框架中,无法直接观察每个训练样本的实际标签。可以获得的唯一信息是,实际标签位于候选集Yi中。由于精确标记的数据通常昂贵且难以获得,PL问题自然会出现在许多实际任务中。例如,在鸟类鸣叫分类问题[12]中,不同鸟类物种的鸣叫通常同时记录在一个采集的记录中,专家只能识别在该记录中鸣叫的鸟类物种,但他们往往无法将每个物种定位到光谱图的特定部分。另一个激励性的例子是使用相关的文本标题和视频脚本,从新闻网站或视频中收集的图像学习人脸识别系统。在该设置中,由于标题或脚本通常包含多个名称,因此训练集中的人脸图像通常标有多个名称[7]、[13]。这些示例表明,使用PL框架可以自然地解决许多实际应用问题。
训练数据的模糊性不可避免地使PL问题难以解决,因此目前只有少数算法可用。最早的算法可以追溯到Grandvalet的工作[14]。后来,Jin和Ghahramani[15]对其进行了分析,并提出了一个判别模型。在Jin和Ghahramani[15]的工作推动下,PL开始吸引机器学习领域的注意力。在[10]中,采用k-最近邻方法处理PL问题;Côme等人[11]开发了一种基于最大似然估计和信念函数理论的PL算法;Luo和Orabona[16]引入了一个大幅度的P L公式;C o u r等人[7]和Nguyen and Caruana[17]分别通过扩展传统的二进制和多类损失函数来处理候选标签,开发了两种支持向量机(SVM)算法;Liu和Dieterich[9]提出了一个条件多项式混合模型;Zhang[8]提出了一种利用纠错输出码(ECOC)技术的无歧义PL算法。现有算法解决PL问题的策略大致分为两类。第一类是首先将PL问题转换为标准分类问题,然后使用 现有的分类算法解决了这一问题。例如,在[8]中,ECOC技术被用于将PL问题转换为许多标准的二进制分类问题。另一类是通过定义新的损失函数将传统分类模型扩展到损益。例如,在[14]中,逻辑回归模型用于通过最大化对数似然来建立PL算法?n i=1?Y∈Yilog(F(xi,y,θ)),这意味着所有候选标签对样本的贡献相等;Cour等人[7]通过定义损失函数ψ((1/| Yi |))开发了一种线性SVM算法?Y∈Yify(xi)),1也假设每个候选标签在建模过程中的贡献相等。虽然扩展传统分类模型是解决PL问题的合理策略,并且已经提出了几种算法,这些算法大多涉及线性分类函数,不能很好地处理非线性问题,或者损失函数不能有效地消除训练数据传递的模糊标记信息。
提出了一种基于高斯过程模型的核PL算法(PLGP)。其基本思想是首先假设每个类别标签在特征空间上具有高斯过程的潜在函数。然后定义一个新的似然函数,对训练数据传递的模糊标记信息进行消歧。因此,任何新样本的实际标签都可以通过积分潜在函数来预测。本文的贡献如下
1)考虑到现有的算法大多是线性的,在处理非线性问题时不能取得很好的性能,提出了一种核PL算法。2) 根据[7]的理论结果,最大损失ψ(max y∈与损失ψ((1/| Yi |)等其他损失函数相比,Yify(xi))可以更精确地逼近预期损失?Y∈Yify(xi))。然而,ψ(max)y∈Yify(xi))会给我们带来一个难以求解的不可微目标函数,因此在现有算法中很少采用。本文不仅用一个等价于最大损失的似然函数来消除训练数据所传递的模糊标记信息的歧义,而且还提出了一个可微的凸目标函数,它可以用任何凸优化方法有效地求解。3) 据我们所知&#x