Maximum margin partial label learning

摘要:部分标签学习的目的是从训练样本中学习,每个训练样本都有一组标签,其中只有一个标签对训练样本有效。从部分标签示例学习的基本策略是消歧,即通过尝试从候选标签集中恢复基本真理标签信息。作为一种流行的机器学习模式,最大裕度技术被用来解决部分标签学习问题。现有的尝试通过优化候选标签和非候选标签的最大建模输出之间的间距来执行消歧。尽管如此,该公式忽略了考虑“地面真相”标签和其他候选标签之间的差距。本文提出了一种新的局部标签学习的最大裕度公式,它直接优化了groundtruth标签和所有其他标签之间的裕度。具体地说,通过交替优化过程学习预测模型,该过程迭代地协调地面真值标签识别和边缘最大化任务。在人工和真实数据集上的大量实验表明,该方法与其他成熟的部分标记学习方法相比具有很强的竞争力。

关键词部分标记学习·候选标记·消歧·最大裕度

1导言部分标签学习处理的问题是,每个培训示例都与一系列候选标签相关联,其中只有一个标签有效(Cour et al.2011;Zhang 2014)。近年来,部分标签学习技术已被发现在解决许多现实场景中非常有用,如web挖掘(Jie和Orabona 2010)、多媒体内容分析(Cour等人2009;Zeng等人2013)、生态信息学(Liu和Dieterich 2012)等,设X=rdd为d维实例空间,Y={1,2,…,q}为带有q类标签的标签空间。给定部分标号训练集D={(xi,Si)|1≤ 我≤ m} ,部分标签学习的任务是归纳出一个多类分类器f:X?→ 从D到这里,席∈ X是一个d维特征向量(xi1,xi2,…,xid)?和Si⊆ Y是关联的候选标签集。部分标签学习的核心假设是,XI的地面真值标签位于其候选标签集中,且学习算法无法直接访问。1直观地说,处理部分标签学习问题的基本策略是消除歧义,即尝试从与每个训练示例相关联的候选标签集中识别基本真理标签。作为一种流行的机器学习技术,最大裕度准则已被应用于部分标签样本的学习。具体而言,现有的尝试通过优化候选标签和非候选标签的最大建模输出之间的差值来消除部分标签训练示例的歧义(Nguyen和Caruana,2008)。换句话说,给定带参数的参数化模型?席席的建模输出F(Xi,y;?)在每个类标签上都有y∈ Y、 现有公式通过最大化xi上的以下预测差异来工作:maxyj∈SiF(xi,yj;?)−maxyk/∈SiF(xi,yk;?)。然而,该公式未能考虑在候选标签集(即SI iY})中的地面真标签(即YI)和其他标签之间的预测差异。由于忽略了这些区别性特性,因此产生的最大裕度部分标签学习方法的泛化性能可能是次优的。从本质上讲,部分标签学习的任务是导出一个多类分类器f:X?→ 因此,标准的多类边,即F(xi,yi;?)− 马克斯·易=yiF(xi,~yi;?),应该是从部分标签示例中学习的自然选择。通过这种方式,地面真实值标签的建模输出与所有其他标签的建模输出是不同的。鉴于此,本文提出了一种新的最大裕度部分标签学习方法M3PL,即最大裕度部分标签学习。显然,在部分标记训练示例中使用多类边界的主要挑战在于学习算法无法访问地面真值标记信息。为了克服这一困难,M3PL采用了一种迭代优化程序,该程序在确定地面地形和最大化多类边界的任务之间交替进行。全面的对比研究表明,最新的局部搜索方法清楚地验证了所提议的配方的有效性。本文的其余部分组织如下。第2节简要讨论了部分标签学习的相关工作。第3节介绍了拟建M3PL的技术细节方法第4节报告了广泛数据集的实验结果。最后,我要谈谈宗派。第五章对全文进行了总结,并指出了未来的研究方向。

 2.相关工作由于每个部分标签训练示例所传递的标签信息是模糊的,因此部分标签学习可以看作是弱监督学习框架之一。从概念上讲,它位于监督谱的两端之间,即带有明确监督的标准监督学习和带有盲监督的无监督学习。弱监督学习在解决各种学习任务中得到了广泛应用,因为在现实场景中通常很难获得明确和充分的监督信息(Pfahringer 2012)。特别是,部分标签学习涉及到几个研究较多的弱监督学习框架,包括半监督学习、多实例学习和多标签学习,而部分标签学习所考虑的弱监督场景不同于对应的框架。半监督学习(Chapelle等人,2006年;Zhu和Goldberg,2009年)旨在归纳分类器f:X?→ 从少量标记的训练示例和大量未标记的训练示例中提取Y。对于未标记的示例,地面真实值标签假定整个标签空间,而对于部分标签示例,地面真实值标签被限制在NITSCANDIDATE标签集内。多实例学习(Dieterich et al.1997;Amores 2013)旨在归纳分类器f:2X?→ Y来自训练示例,每个示例都表示为一个带标签的实例包。对于多实例示例,标签指定给实例包,而对于部分标签示例,标签指定给单个实例。多标签学习(Zhang和Zhou 2014;Gibaja和V entura 2015)旨在学习分类器f:X?→ 2Y来自与多个标签相关的培训示例。对于多标签示例,关联标签均为有效标签,而对于部分标签示例,关联标签仅为候选标签。近年来,通过采用主要的机器学习技术,提出了一些部分标签学习方法。引入最大似然技术,通过最大化似然函数从部分标签示例中学习?m i=1log(?y)∈SiF(xi,y;?),其中,基于EM的优化是通过将groundtruth标签作为潜在变量来执行的(Jin和Ghahramani 2003;Liu和Ditterich 2012)。为了实现部分标签学习的凸优化,通过区分所有候选标签的平均输出,即1 | Si |?Y∈SiF(xi,y;?),针对非候选标签的输出,即F(xi,y;?)(y/∈ Si)(Cour等人,2011年)。对于基于实例的方法,通过加权投票组合来自相邻训练示例的标记信息,以预测未知实例(Hüllermeier和Beringer 2006;Zhang和Y u 2015)。也有一些方法将部分标签学习问题转化为通过纠错输出码(ECOC)的二元分类问题(Zhang 2014),通过字典学习的稀疏编码问题(Chen等人2014),或通过流形分析的多输出回归问题(Zhang等人2016)。具体而言,最大利润技术也被用于设计部分标签学习方法(Nguyen和Caruana,2008年)。给定参数化模型?={(wp,bp)| 1≤ P≤ q} 对于每个类别标签,使用一个线性分类器(wp,bp),现有最大裕度部分标签配方旨在解决以下优化问题(OP):123 576马赫学习(2017)106:573–593 OP 1:现有最大裕度配方min?,ξ1 2 q?p=1 | wp | 2+CM?i=1ξi s.t.:最大yj∈Si(w?yj·xi+byj)− 最大yk/∈Si(w?yk·xi+byk)≥ 1.− ξiξi≥ 0∀我∈ {1,2,…,m}这里,ξ={ξ1,ξ2,…,ξm}表示松弛变量集,c是正则化参数。如OP 1所示,现有公式侧重于区分候选标签的最大输出,即maxyj∈Si(w?yj·xi+byj),最大输出来自非候选标签,即maxyk/∈Si(w?yk·xi+byk)。该公式的一个潜在缺点在于,未考虑地面真值标签和其他候选标签之间的预测差异,这可能导致产生的部分标签学习方法的性能不理想。在下一节中,提出了一种新的面向部分标签学习的最大裕度公式,其目的是最大化基本真值标签和标签空间中所有其他标签之间的规范多类裕度。

 3 M3PL方法3.1建议的公式B a s e d o n t a n o t a g i v n i n s c t。1,训练集D由m个部分标签示例(xi,Si)(1)组成≤ 我≤ m) withxi∈ X和Si⊆ Y.此外,lety=(y1,y2,…,ym)是训练示例的(未知)基本真理标签。根据部分标签学习假设,每个实例的基本真值标签应位于其候选标签集Si中。因此,y的可行解空间对应于S=S1×S2×·Sm。与通常做法一样,M3PL假设使用Q线性分类器的最大裕度学习系统?={(wp,bp)| 1≤ P≤ q} ,每个类别标签一个。一旦地面实况标签分配损坏=(y1,y2,…,ym)是固定的,M3PLATECHOAXIMEXIZECTECTONIC多类保证金在每个实例席席席,即:(W?Y.XI+BYI)− 马克斯·易=易(w?yi·xi+b?yi)。通过引入松弛变量ξ={ξ1,ξ2,…,ξm}以适应保证金松弛,M3PL考虑的最大保证金问题可表述如下:OP 2:建议的最大保证金公式min y,?,ξ1 2 q?p=1 | wp | 2+CM?i=1ξi s.t.:(w?yi·xi+byi)− 马克斯·易=易(w?易·喜+b?易)≥ 1.− ξiξi≥ 0∀我∈ {1,2,…,m}y∈ 是m吗?i=1 i(yi=p)=np∀P∈ {1,2,…,q}123 Mach Learn(2017)106:573–593 577如OP 2所示,前两个约束对每个训练示例强制执行最大裕度标准。此外,第三个约束强制地面真值标签赋值y应在可行解空间S内取值。第四个约束,即。?mi=1I(yi=p)=np,作为对y的额外强制,反映其与先前类分布的兼容性。2相反,NP提供了先前数量的示例,这些示例将Y中的第p类标签作为其基本真值标签。通过在Si中的每个候选标签之间共享相等的标签置信度1 | Si |,先验数可以粗略估计为:ˆnp=m?i=1i(p∈ Si)·1 | Si |(1)显然,?q p=1ˆnp=m保持不变。再者,让我们来谈谈吧?ˆnp?是ˆnpand r=m的整数部分−?q p=1?ˆnp?是与舍入操作相对应的剩余数。然后,第四个约束的整数值np设置为:np=?ˆnp?+1 i f p是r类标签中具有最小ˆnp值的标签之一?ˆnp?否则(2)相应地,?q p=1np=m仍然有效。注意,OP 2对应于涉及混合型变量(即整数变量y和实值变量?)的优化问题,其值难以同时优化。在下一小节中,采用交替优化程序来更新y和?以迭代的方式。3.2交替优化3.2.1修复y,更新?通过修正地面真值标签赋值y=(y1,y2,…,ym),OP 2变成了以下优化问题:OP 3:分类模型优化min?,ξ1 2 q?p=1 | wp | 2+CM?i=1ξi s.t.:(w?yi·xi+byi)− 马克斯·易=易(w?易·喜+b?易)≥ 1.− ξiξi≥ 0∀我∈ {1,2,…,m}如OP 3所示,由此产生的优化问题与经过充分研究的单标签多类最大裕度公式一致(Crammer和Singer 2001;Hsu和Lin 2002)。因此,OP 3可以通过在多类SVM上使用任何现成的实现来轻松解决(Fan等人,2008)。2I(a)是一个指示符函数,如果谓词a为真,则返回1,否则返回0。123 578马赫学习(2017)106:573–593 3.2.2修正?,通过修复分类模型来更新y?={(wp,bp)| 1≤ P≤ q} ,op2原来是以下优化问题:op4:地面真值标签分配优化(版本1)miny,ξm?i=1ξi s.t.:ξi≥ 1.− ηyiξi≥ 0∀我∈ {1,2,…,m}y∈ 是m吗?i=1 i(yi=p)=np∀P∈ {1,2,…,q}这里,ηyi ire表示以yi为基本真值标签的xiby上的多类边界,即:ηyi i=(w?yi·xi+byi)− 马克斯·易=通过设置ξi=max(0,1),yi(w?yi·xi+b?yi)(3)−ηyi i)根据前两个约束条件,OP 4可以用以下形式重新编写:OP 5:地面真值标签分配优化(版本2)min y m?i=1最大值(0,1− ηyi i)s.t.:y∈ 是m吗?i=1 i(yi=p)=np∀P∈ {1,2,…,q}使Z==[ZPI] q×MBE为训练实例的二进制值标记矩阵,其中ZPI=1表示Y中的p次类标签是席的实名标签。相应地,将系数矩阵C=[cpi]q×mas设置如下:∀1.≤ P≤ q、 一,≤ 我≤ m:cpi=?最大值(0,1− ηpi)如果p∈ 在这里,M是用户指定的大常数,因此学习算法可以避免在候选标签集之外分配地面真值标签。3根据上述定义,OP 5可改写为以下形式:OP 6:地面真相标签分配优化(版本3)最小Z q?p=1米?i=1 cpi·zpi 3在本文中,M i s e t to b e 1 05。123马赫学习(2017)106:573–593 579 s.t.:q?p=1 zpi=1∀我∈ {1,2,…,m}m?i=1 zpi=np∀P∈ {1,2,…,q}zpi∈ {0,1}这里,第一个约束?q p=1zpi=1确保每个训练示例都有一个唯一的基本真理标签。此外,第二个约束条件是什么?mi=1zpi=np强制约束w.r.t.先前的类分布。请注意,OP 6对应于二进制整数规划(BIP)问题,这通常是NP难解决的问题。尽管如此,令人感兴趣的是,OP 6实际上属于BIP的一种特殊情况,其中约束矩阵为逻辑单模(TU),约束的右侧为整数。为了说明这一点,让z=[z11,…,zq1,…,z1m,…,zqm]?表示通过顺序连接Z的每列而形成的向量。根据第6页,约束条件是什么?q p=1zpi=1(∀我∈ {1,2,…,m})和?MI=1zpi=np(∀P∈ {1,2,…,q})可以用以下形式表示:这里,A∈ R(m+q)×mq是对应于两个矩阵b的串联的约束矩阵∈ Rm×mqandC∈ Rq×mq,即A=[B?,C?]?。具体来说,entriesofthematrices B=[bij]m×mq,C=[cij]q×mq,右侧向量s=[s1,s2,…,sm+q]?设置为:∀1.≤ 我≤ m、 一,≤ J≤ mq:bij=?1,如果j∈ [(i)− 1) ·m+1,i·m]0,否则(6)∀1.≤ 我≤ q、 一,≤ J≤ mq:cij=?1,如果j mod m=i− 10,否则∀1.≤ 我≤ m+q:si=?1、如果我∈ [1,m]ni−m、 如果我∈ [m+1,m+q]为了证明约束矩阵A是TU,只要证明A满足以下四个条件就足够了(Heller和Tompkins 1956):1。A的每一列最多包含两个非零条目;2.A中的每个条目的值为0、1或-1;3.如果a列中的两个非零条目具有相同的符号,则一个条目的行在B中,另一个条目的行在C中;4.如果a列中的两个非零项具有相反符号,则两个项的行在B或C中。如等式(6)中所定义,对于矩阵B和C,每个项的值均为0或1,并且每列包含唯一的非零项。因此,不难证明约束矩阵A的所有四个TU条件都成立。此外,根据等式(6)的定义,等式(5)的右侧向量包含整数项。基于A是TU,s是整数值的性质,OP 6的原始BIP问题可以通过替换整数约束TZPI以其线性规划(LP)松弛形式等价地求解∈ 具有较弱区间约束TZPI的{0,1}∈ [0,1](Papadimitriou和Steiglitz 1998):123 580马赫学习(2017)106:573–593作品7:地面真相标签分配优化(版本4)最小Z q?p=1米?i=1 cpi·zpi s.t.:q?p=1 zpi=1∀我∈ {1,2,…,m}m?i=1 zpi=np∀P∈ {1,2,…,q}0≤ zpi≤ 1此后,可通过使用标准LP解算器(如单纯形算法或内点算法)有效地找到松弛问题的解决方案MOP 7(Boyd和V andenberghe 2004)。3.3迭代实施为初始化交替优化程序,M3PL通过参考候选标签集设置初始系数矩阵C:∀1.≤ P≤ q、 一,≤ 我≤ m:cpi=?1 | Si |如果p∈ 通过基于初始化系数求解OP 7,基础真值标签赋值y=(y1,y2,…,ym)将为yi=arg max1≤P≤qzpi。那么,分类模型呢?通过求解OP 3更新,交替优化程序迭代。在每一轮交替更新之后,当OP 2中的目标函数值减小l时,迭代过程将终止。除了固定相干参数C的值外,M3PL选择在外部退火循环中逐渐增大C的值。类似的策略已用于解决其他弱监督学习问题(Joachims 1999;Chapelle et al.2008),以降低陷入局部最小解的风险。算法1总结了M3PL的完整过程。4在部分标签训练集上,M3PL首先初始化正则化参数C和地面真值标签分配(步骤1-3)。之后,分类模型和地面真相分类信号被交替优化,以避免收敛(步骤7-13)。使用外环逐步将C值增加1+Δ(步骤5)。最后,根据学习的分类模型对不可见的实例进行分类(步骤15)。5在步骤9中,通过引入内核技巧来解决多类最大裕度问题OP 3(Crammer和Singer 2001),M3PL的最终内核化版本被表示为M3PL内核。

在每个外部循环中,不难证明OP 2中的目标函数随着内部交替优化过程的进行而收敛(步骤7–13)。设f(?(t),y(t))表示目标函数在第t次迭代时的值,就足够了证明了当f(·,·)在下有界且随着t的增加不增加时目标函数的收敛性。一方面,如OP 2中所示,f(?,y)=12?q p=1 | | wp | | 2+C?MI=1max(0,1− ηyi i)与ηyi i=(w?yi·xi+byi)− 马克斯·易=易(w?yi·xi+b?yi)。因此,在f(?,y)下有界的性质自然成立≥ 另一方面,解决第一个交替优化问题(OP 3;步骤9)会导致f(?(t),y(t))≥ f(?(t+1),y(t)),而解决第二个交替优化问题(OP 7;步骤10-11)将导致f(?(t+1),y(t))≥ f(?(t+1),y(t+1))。因此,f(?(t),y(t))的非递增性质自然成立≥ f(?(t+1),y(t))≥ f(?(t+1),y(t+1))。很明显,如果候选标签集的大小缩小到1,则建议的M3PL方法与现有的最大利润公式(Nguyen和Caruana 2008)一致。相应地,许多部分标签学习方法也采用了迭代优化来消除候选标签集的歧义(Jin和Ghahramani,2003年;Nguyen和Caruana,2008年;Liu和Dieterich,2012年;Chen等人,2014年)。如等式(4)所示,利用参数M使得可以通过仅在候选标签集中限制分配的标签来求解OP 6(或等效地OP 5)。该限制确保了地面真值标签赋值y的有效性,该赋值y将被固定为求解OP 3的常数。

 4实验4.1实验设置在本节中,进行了两个系列的实验来评估M3PL的性能,一个系列在受控UCI数据集(Bache和Lichman 2013)上,另一个系列在真实世界部分标签数据集上。表1总结了所用数据集的特征。根据广泛使用的多类UCI数据集控制协议(Cour等人2011;Chen等人2014;Liu和Dieterich 2012;Zhang 2014),可以在三个控制参数p、r和?的不同配置下生成人工部分标签数据集?。这里,p控制部分标记的示例的比例(即| Si |>1),r控制候选标签集中假阳性标签的数量(即| Si |=r+1),以及?控制一个耦合候选标签和基本真值标签之间的共现概率。如表1所示,六个UCI数据集中的每个数据集总共考虑了28个(4×7)配置。真实世界的部分标签数据集是从多个任务域收集的,例如面部年龄估计,包括FG-NET(Panis和Lanitis 2015),自动面部命名,包括Lost(Cour等人2011),Soccer Player(Zeng等人2013),Yahoo!新闻(Guillaumin et al.2010),包括鸟鸣在内的鸟鸣分类(Briggs et al.2012),以及包括MSRCv2在内的物体分类(Liu和Dieterich 2012)。6对于面部年龄估计任务,具有地标的人脸被表示为实例,而由十个众包标签标注的年龄以及地面真实年龄被视为候选标签。对于自动人脸命名任务,从图像或6中裁剪的人脸这些数据集可在以下位置公开获得:http://cse.seu.edu.cn/PersonalPage/zhangml/Resources.htm#部分数据。123 Mach Learn(2017)106:573–593 583视频帧被表示为实例,而从相关字幕或字幕中提取的名称被视为候选标签。在鸟类鸣叫分类的任务中,鸟类的鸣叫音节被表示为实例,而鸟类物种在10秒钟内共同鸣叫的音节被称为Scandidatelabel。对于AskofObjectClassification,图像分割表示为实例,而同一图像中出现的对象则表示为ScandIDateLabel。如表1所示,还记录了每个真实世界部分标签数据集的候选标签的平均数量(平均#CLs)。比较研究采用了四种成熟的部分标签学习方法,每种方法都采用了各自文献中建议的参数设置:–一种现有的最大边际部分标签学习方法,名为PL-SVM(Nguyen和Caruana,2008年)[建议设置:正则化参数池,带{10−3.103}]及其名为PL SVM内核的内核化版本[建议设置:多项式内核和带有{1,…,5}的度池]。-最近邻部分标记学习法PL-KNN(hüllermier and Beringer 2006)[建议设置:k=10]。-名为CLPL的凸优化部分标签学习方法(Cour et al.2011)[建议设置:具有平方铰链损失的SVM]。-名为LSB-CMM的最大似然部分标记学习算法(Liu和Dieterich 2012)[建议设置:q混合组件]。对于PL-SVM和LSB-CMM,这两种算法都通过将地面真值标签作为待迭代细化的潜变量来进行消歧。具体而言,PL-SVM(及其核化版本)通过最大化候选标签和非候选标签的最大输出之间的裕度来工作,而LSB CMM通过在条件多项式模型上使用基于EM的优化在部分标签训练示例上最大化似然函数来工作。对于PL-KNN和CLPL,这两种算法都通过在聚集之前对每个被标记的HCanddate进行同等处理来进行消歧。具体地说,PL-KNN的工作原理是在每个相邻示例的候选标签之间进行投票,其投票权重与其到测试实例的距离成反比,而CLPL的工作原理是将原始的部分标签学习问题转化为二进制学习问题,然后通过传统的SVM分类来解决。对于M3PL,参数Cmaxis在{10]中选择−2.102}通过交叉验证。此外,使用宽度参数为1的高斯核来实例化M3PL核。在本文中,对每个人工数据集和真实数据集进行十倍交叉验证,其中记录了所有比较方法的平均预测精度和标准偏差。4.2实验结果4.2.1受控UCI数据集图1、2和3说明了当p从0.1增加到0.7,步长为0.1(r=1,2,3)时,每个比较算法的分类精度。对于任何部分标签示例,其候选标签集包含地面真实值标签以及从Y中随机选择的r个附加标签。图4说明了每个比较算法的分类精度,如?步长为0.1(p=1,r=1)时,从0.1增加到0.7。对于任何标签y∈ Y、 一个额外的标签Y?∈ Y被指定为耦合标签,该耦合标签与Y以概率?出现在候选标签集中?。否则,将随机选择任何其他类标签与y同时出现。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值