Large Margin Partial Label Machine

大幅面局部贴标机

摘要-部分标签学习(PLL)是一个多类弱监督学习问题,其中每个训练实例与一组候选标签关联,但只有一个标签是基本真理。PLL的主要挑战是如何处理标签歧义。在各种消歧技术中,基于大幅度(LM)的算法由于其强大的识别性能而备受关注。然而,现有的基于LM的算法要么在构造边缘时忽略了一些潜在的候选标签,要么引入了类容量的辅助估计,这通常是不准确的。因此,它们的泛化性能恶化。为了解决上述缺点,在乐观超集丢失的激励下,我们通过将多类支持向量机(SVM)扩展到PLL,提出了一种LM部分标记机(LM-PLANE)。与现有的基于LM的消歧算法相比,LM-PLANE算法考虑了所有潜在候选标签的边界,而无需辅助估计类别容量。在此基础上,提出了一种在对偶空间中训练LM-平面的有效割平面(CP)方法。本文还从理论上分析了CP方法的有效性和收敛性。在各种PLL任务上的大量实验表明,LM-PLANE在分类精度方面优于现有的基于LM的PLL算法和其他具有代表性的PLL算法。索引项-切割平面(CP)、大边距(LM)、部分标签学习(PLL)、弱监督学习。I.导言D与监督学习[1]和非监督学习[2]-[4]不同,在弱监督学习[5]-[8]中,只有部分监督信息可以直接访问。半监督学习[9]-[11]和多实例学习[12]-[14]是两个典型的弱监督学习问题。一般来说,在半监督学习中,一小部分实例具有已知的类标签,而其他实例没有标签,而在多实例学习中,基本对象是由多个实例组成的包 仅提供行李级别标签的实例。弱监督学习在许多实际应用中取得了巨大成功,如计算机视觉[15]、web索引推荐[16]、协同过滤[17]和计算机辅助诊断[18]。在本文中,我们关注一个特殊的弱监督学习问题:部分标签学习(PLL)[19]–[24]。在PLL中,每个训练实例都与一组候选标签相关联,其中只有一个标签是基本事实,但不幸的是未知。因此,PLL的主要挑战是如何处理标签的模糊性。PLL的目标是预测每个测试实例的地面真值标签。在测试阶段,每个测试实例的地面真值标签都是可访问的,因此可以使用与监督学习相同的方法来评估测试精度。此外,PLL有着广泛的应用,如电视连续剧中的字符名称关联[19][见图1(a)]、新闻图像中的自动人脸命名[19][见图1(b)]、web挖掘[25]、鸟鸣分类[26]和生态信息学[26]。由于标签的模糊性,处理PLL任务的一种自然方式是进行消歧,即识别每个训练实例的基本真理标签。在各种消歧技术[20]、[21]、[26]–[30]中,两种基于大幅度(LM)的算法1,如PL-SVM[27]和最大幅度PLL(M3PL)[28]、[29]因其强大的识别性能而备受关注。不幸的是,它们都有PLL的缺点。PL-SVM在候选标签上的最大输出和非候选标签上的最大输出之间构造LM。缺点是在构建分离裕度时忽略了地面真值标签和任何其他潜在候选标签的输出之间的间隙。与PL-SVM不同,M3PL考虑了所有候选标签的边缘,在大多数实证实验中获得了更好的性能[29]。然而,M3PL引入了类容量的辅助估计,这通常会导致估计误差,并使M3PL次优(见第III-C节中的讨论)。在这项工作中,为了解决上述缺点,我们提出了一种新的基于LM的PLL算法,即LM部分标签机(LM-PLANE)。受乐观超集损失(OPS)的启发,OPS以乐观的方式解决了广义损失最小化问题[32],[33],我们将多类SVM[34],[35]从监督学习扩展到PLL,并将OPS与多类铰链损失结合,利用弱监督信息推导出LM平面。综上所述,我们的工作贡献如下。

 现有的基于LM的PLL算法要么在构造裕度时忽略了一些潜在的候选标签,要么在类容量上引入了估计误差。为了解决这些缺点,我们的LM-PLANE算法考虑了所有候选标签的边界,而不引入任何辅助容量估计。此外,我们还解释了为什么LM-PLANE比他们更好地从地面真理标签假设的洞察。2) 为了在对偶空间中有效地训练LM平面,提出了一种新的切割平面(CP)方法。特别是,我们证明了现有的用于监督学习的CP方法(例如,结构SVM[36])对于LM-PLANE是不可行的,该方法通过查找最违反的标签对来工作。相反,我们提出了一种寻找有效违反标签对的方法,使LM-PLANE的CP训练成为可能。此外,我们给出了所需的训练迭代次数的上界-最优性,这为我们的锁相环CP方法提供了收敛保证。3) 我们在受控和真实PLL数据集上进行了广泛的实验,以评估LM-PLANE。实验结果证明了LM-PLANE在分类精度方面优于现有的基于LM的PLL算法和其他具有代表性的PLL算法。本文的其余部分组织如下。我们在第二节简要回顾了相关工作。在第三节中,我们提出了LM-PLANE,并将其与现有的两种基于LM的消歧算法进行了比较。在第四节中,我们发展了一种CP方法,在具有收敛保证的对偶空间中有效地训练LM-平面。在第五节中,我们通过在受控和真实PLL数据集上将LM-PLANE与几种竞争算法进行比较来评估LM-PLANE。最后,我们在第六节第二节中总结并讨论了未来的工作。在本部分的相关工作中,我们首先概述了现有的PLL算法,然后简要介绍了两种基于LM的消歧算法:PL-SVM和M3PL。PLL算法概述现有的PLL算法可分为两类:消歧算法和无消歧算法。

1) 消歧算法:处理PLL任务的一种简单方法是识别训练实例的基本真值标签,这导致了各种消歧算法的发展。例如,Zhang和YU[20]提出了一种利用局部区域标签一致性的标签传播消歧算法。Jin和Ghahramani[21]以及Liu和Ditterich[26]通过将基本真理标签作为潜在变量,开发了PLL的最大似然模型,并通过期望最大化等交替技术优化了模型。Nguyen和Caruana[27]将SVM算法[31]应用于PLL,并推导了PL-SVM算法。YU和Zhang[28]开发了M3PL算法,这是SVM对PLL的另一个扩展,在裕度定义上与PL-SVM不同。Gong等人[30]提出了一种正则化算法,通过保持相邻实例之间的标签一致性来增强互斥候选标签之间的分离。Zhou等人[37]利用类标签潜在特征空间的高斯过程进行消歧。2) 无歧义消除算法:处理PLL任务的另一种方法是无歧义消除,即不需要识别训练实例的基本真理标签。例如,Hullermeier和Beringer[38]提出了一种用于PLL的K-最近邻(KNN)算法,将所有候选标签视为基本真理。Cour等人[19]开发了PLs的凸损失(CLPLs),即所有候选标签上的平均损失,以处理PLL问题。Zhang等人[39]通过将每个实例的候选标签集视为不可分离的整体,通过纠错输出码[40]设计了一种无歧义算法。基于LM的消歧算法首先,我们介绍一些符号。十、∈ RD和Y={1,…,m}分别表示实例空间和标签空间;{(Xi,Si)i=1,…,n}表示PLI训练集,其中席席∈ X是第i个训练实例,Si⊆ Y是席的候选标签集;西席的地面真实标签。根据PLL的定义,在培训阶段,易建联不能直接访问,我们只知道易建联∈ 硅。表一列出了重要符号的汇总。 接下来,我们简要介绍PL-SVM和M3PL。考虑到PLL是一个多类问题,我们使用(wk,bk)表示k类的线性分类模型,并使用Θ={(wk,bk)|k=1,…,m}表示所有m类的整个线性分类模型。1) PL-SVM:PL-SVM是基于LM原理设计的最先进的PLL算法。它可以表示为minΘ,ξ1-2m?k=1?工作?2+C n?i=1ξi s.t。∀我∈ {1,…,n}max yp∈硅?wT ypxi+byp?− 最大yq/∈硅?wT yqxi+byq?≥ 1.− ξiξi≥ 0(1),其中ξ=[ξ1,…,ξn]是允许软利润的松弛变量向量,C是折衷参数。对于每个训练实例席,PL-SVM在其候选标签上构建最大输出之间的LM。∈Si(wT ypxi+byp)]及其非安迪标签上的最大输出[即maxyq/∈Si(wT-yqxi+byq)]。PL-SVM的主要缺点是未考虑候选标签集中的边界。换句话说,一些潜在的候选标签(即Si\yp)在培训阶段被忽略。2) M3PL:M3PL解决了PL-SVM的上述缺点,可以用minΘ,y表示∈S、 ξ1~2m?k=1?工作?2+cn?i=1ξi s.t。∀我∈ {1,…,n}wT yixi+byi− max yi=yi?wT yixi+byi?≥ 1.− ξiξi≥ 0∀K∈ Y、 n?i=1i(yi=k)=nk(2)式中,C和ξ与(1)中的相同;y=[y1,…,yn]T表示地面真值标签的向量;Y∈ S表示约束集{yi∈ Si | i=1,。。。,n} );I(·)表示指示函数,如果括号中的事件为真,则该函数等于1,否则为0;NK是k类容量的估计值(给定类的容量定义为属于该类的训练实例数)。与PL-SVM不同,M3PL考虑所有有效边距,因为它在地面真值标签(即wT yixi+byi)和任何其他标签(即maxyi?=yi(w(T/yi)xi+byi))的输出之间构建LM。值得注意的是,M3PL引入了类容量的辅助估计。M3PL通过Si中候选标签的数量表示| Si |,将xibelonging到Sias中每个类的概率(1/| Si |)和xibelonging到任何其他类的概率视为0。然后,nk被近似地估计为属于k类的所有训练实例的概率之和。M3PL估计的类容量{nk | k=1,…,m}通常不同于地面真值容量,因为所有候选标签在估计中被等价地处理。综上所述,PL-SVM中的约束过于宽松,因为在训练阶段忽略了一些潜在的候选标签,而M3PL中的约束由于类容量的估计误差而容易误导解决方案。为了解决这些缺点,我们将多类支持向量机扩展到锁相环,并设计LM-PLANE来精确处理锁相环约束。三、 LM-PLANE算法在本节中,我们首先引入多类SVM,然后将其扩展到PLL,将OPS与多类铰链损耗相结合,得到LM-PLANE。接下来,我们讨论了LM-PLANE与两种基于LM的消歧算法PL-SVM和M3PL之间的关系,重点从y的假设出发解释了LM-PLANE的优越性。A.多类支持向量机多类支持向量机[35]是二进制支持向量机在多类应用中的推广。然而,多类支持向量机仅适用于有监督学习,不适用于锁相环的弱监督问题。因此,我们需要利用弱监督信息将其扩展到PLL。多类支持向量机使用一个长的加权向量,它是m个特定于类的加权向量的串联,在异构类之间构建LM。例如,如果wk∈ RD表示k类的分类模型2的权重向量,则串联的权重向量为w=⎛ ⎜ ⎝ w1 w2。。。西医⎞ ⎟ ⎠ ∈ RD×m.(3)每个输入是实例标签对的联合特征映射,即,它是特定于类的。例如,关节特征用φ(xi,k)表示的(xi,k)映射是一个稀疏向量,其非零分量xic对应于wkφ(xi,k)=⎛ ⎜ ⎝ 0 ... 席…0⎞ ⎟ ⎠ ← 一级职位。。。← k类的位置。。。← 类m.(4)的位置为了讨论的简单,在(4)中,我们只制定了线性版本。用ψ(xi)代替xi可以得到核的形式,其中reψ(xi)表示xi在给定再生核Hilbert空间中的特征投影。损失为0–1的多类支持向量机可以表示为min w,ξ1 2?W2+C n?i=1ξi s.t。∀我∈ {1,…,n}∀易?=yi,wTφ(xi,yi)− wTφ(xi,yi)≥ 1.− ξi∀我∈ {1,…,n}ξi≥ 0(5),其中yi是xind的标签,C是一个折衷参数。注意,多类SVM在不同的类之间施加LM,如wTφ(xi,yi)− wTφ(xi,yi)等于wT yixi− wT yixi。B.计算算法Hüllermeier提出了OPS,以优化地解决广义损耗最小化问题[32],[33]。在PLL中,给定任何训练实例席,其OPS L∗[Si,hw(xi)]表示所有候选标签的最小损失,定义为L∗[Si,hw(xi)]=min-yi∈席尔[易,HW(席)](6),其中HW(席)是Xi的预测,由W(5)参数化,我们定义了(席,彝)的多类铰链损失为max i。∈Y{max[Δ(yi,yi)− wTφ(xi,yi)+wTφ(xi,yi),0]},(7)其中Δ(yi,yi)等于1表示yi?=Yi为0,否则为0。通过使用(7)替换(6)中的L[yi,hw(xi)],平均所有训练实例的OPS,并添加正则化项(1/2)?W2.2,LM平面算法可导出为min w,y∈S、 ξ12?W2+C n?i=1ξi s.t。∀我∈ {1,…,n}∀彝族∈ Y、 wTφ(xi,yi)− wTφ(xi,yi)≥ Δ(yi,yi)− ξi(8),其中y=[y1,…,yn]和ξ=[ξ1,…,ξn]t分别表示基本真值标签向量和松弛变量向量;Y∈ S表示约束集{yi∈ Si | i=1,。。。,n} );C是一个折衷参数。通过检查(8)的约束,我们发现松弛变量ξiis只是多类铰链损失(7)。从这个角度来看,LM-PLANE的设计是由OPS推动的。

 作为最小化OPS的一个实例,由于乐观而引入学习偏差存在一定的危险,因此增加了正则化目标,LM-PLANE最小化正则化OPS以降低过度拟合的潜在风险。LM平面(8)也可以看作是多类SVM到PLL的扩展。不同之处在于,在多类支持向量机中,地面真值标签y是已知和固定的,而在LM平面中,它们是要优化的未知变量。接下来,我们将对(8)的每一项进行详细解释,如下所示。1) (1/2)?W2是加权向量w.2(1/n)上的正则化吗?n i=1ξi是所有松弛变量的平均值。3) wTφ(xi,yi)− wTφ(xi,yi)≥ Δ(yi,yi)− ξi是标签对(yi,yi)的LM约束,w h r e yi表示xi的基本真值标签(未知且应优化),yi可以是标签空间Y中的任何标签。注意,这个约束意味着两个不同的约束:1)如果yi=yi,它意味着ξi≥ 0; 2) 如果易yi,这意味着地面真值标签yi(即wTφ(xi,yi))的输出与任何非圆形真值标签yi(即wTφ(xi,yi))的输出之间的差值,∀易?=yi)应不少于一个;否则,将触发正松弛变量ξi。4) y∈ S不是单个约束,而是一组约束{yi∈ Si | i=1,。。。,n} 它限制每个训练实例在相应候选标签集上的地面真实值标签。这组约束表明:1)yi是一个要优化的未知变量,这与yi事先已知的监督学习和2)yi不同∈ Si施加了弱监督约束,这意味着(8)解决了弱监督学习问题(更具体地说,PLL问题)。注意,有n个松弛变量ξi(i∈ (8)中的{1,…,n})。为了简化优化,我们对所有松弛变量和reexpress(8)进行平均,仅使用一个松弛变量γmin w,y∈S、 γ12?W2+Cγs.t。∀{y1,y2,…,yn}∈ Yn,1N?i=1 wT(φ(xi,yi)− φ(xi,yi))≥1N?i=1Δ(yi,yi)− γ. (9) 根据[36,Th.1],很容易看出最优解{w∗,Y∗,ξ∗} 式(8)等价于最优解{w∗,Y∗,γ∗} of(9),带γ∗= (1/n)?n i=1ξ∗ i、 因此,多松弛表达式(8)在解方面与一松弛表达式(9)等效。乍一看,(9)似乎比(8)更复杂,因为约束的数量从O(mn)增加到O(mn)。例如,由于我们通过CP通过逐渐添加违反的约束来优化LM-PLANE,此更改简化了我们的优化,因为在每次迭代中,我们只需要为(9)生成一个约束,而对于(8),需要生成n个约束(每个松弛变量一个约束)。

C.与PL-SVM和M3PL-SVM的关系[27],M3PL[28],以及所提出的LM-PLANE算法都是基于LM的消歧算法。LM-PLANE和PL-SVM之间的区别在于,LM-PLANE考虑了候选边界(即,地面真值标签和任何其他潜在候选标签的输出之间的边界),而PL-SVM忽略了它们。与M3PL相比,LM-PLANE不需要估计类容量,更不用说估计误差了。由于约束与标签的解空间密切相关,我们试图从y假设的角度解释上述差异。定义1:y的PLL假设定义为y的解空间受到给定PLL算法中使用的约束。当解空间受到PLL的有效约束时,PLL假设是一致的,即在地面真值标签的输出和任何其他标签的输出之间施加LM的所有约束。根据这一定义,我们有以下评论。注1:LM-PLANE对y的假设是一致的;PL-SVM的y假设涵盖了一致性假设;如果班级能力存在估计误差,M3PL的y假设与一致性假设不同。我们将展示如何推导备注1的三个子备注。首先,直接从定义1导出第一个子注释。其次,假设Y1满足(8)中的LMPLANE约束,Y1将始终满足(1)中的PL-SVM约束。另一方面,对于任何满足PL-SVM约束的情况,由于PL-SVM只考虑LM-PLANE约束的子集,因此(8)中的Y2可能无效。因此,PL-SVM的y假设覆盖了一致性假设,并导出了第二个子备注。假设M3PL估算的第k类容量,即nk,与地面真实值n不同∗ k、 M3PL的假设y的n个元素将等于k。然而,根据一致的假设y,n∗ kof其元素将等于k,从而获得冲突,并导出第三个子备注。为了说明上述差异,在图2中,我们描述了三种算法y假设的比较。通过备注1和图2,我们得到:1)如果PL-SVM的解y位于图2(a)所示的B区,PL-SVM获得次优结果,因为B区在一致性假设之外;2) 在图2(b)中,如果M3PL的解y位于一致性假设或基本事实之外的E区 标签位于C区,这超出了M3PL的y假设,M3PL获得了次优结果;3) LM-PLANE对y的假设是一致的,这使得LM-PLANE比PL-SVM和M3PL更容易获得更好的结果。四、算法优化在这一部分中,我们重点关注LM平面的优化。具体地说,我们首先推导了LM-平面的对偶形式,然后设计了一种新的CP方法来在对偶空间中有效地训练LM-平面。接下来,我们分别对所设计的CP方法的收敛速度和时间复杂度进行了分析。A.对偶空间中的CP训练基于拉格朗日乘数法[41],我们得到(9)的对偶形式,并将其表示为以下二次规划(QP)问题(对偶形式的推导见补充材料附录A):maxα,y∈s−12αTHα+vTαs.t。∀y=[y1,y2,…,yn]T∈ Yn,αy,y≥ 0 ? y、 yαy,y=C(10),其中α是对偶向量,其对应于标签向量对(y,y)的分量表示为αy,y;v是一个与α维数相同的向量,其对应于(y,y)的分量表示为vy,y=(1/n)?n i=1Δ(yi,yi);H是Hessian矩阵,其分量对应于(y,y)和(y,y?)表示为H(y,y),(y,y?)=Ni=1?1N?i=1(wTφ(xi,yi)− wTφ(xi,yi))?T×⎡ ⎣1N?j=1?wTφ(xj,yj)− wTφ(xj,y?j)?⎤ ⎦. (11) 原始向量w可以通过对偶变量表示为w=?Y∈S、 y∈Ynαy,y1 n?i=1[φ(xi,yi)− φ(xi,yi)]。(12)

 与SVM[31]类似,(10)中的α也具有稀疏特性,即α的某些分量可能为零。由于每个非零分量对应于(9)中的活动约束,因此稀疏的α表示活动约束的比例较小。注意α的尺寸是?n i=1 | Si | m,w h i c h可以由| Smax | nmnwhere | Smax |=maxi=1,。。。,n | Si |。很容易看出,即使对于m和n的小尺寸,α的尺寸也可能是巨大的,这使得α的优化在计算上是禁止的(例如,对于一个有50个训练实例的五类问题,每个训练实例最多与三个候选标签关联,上面的上界是1550,由此产生的QP问题无法在合理的时间内由通用QP解算器解决)。为了解决这个问题,我们采用CP[36]技术开发了一种有效的方法来优化(10)中的双LM平面。原始CP的基本思想是以初始约束开始模型,然后逐渐向当前模型添加违反的原始约束,重复此过程,直到满足某些停止条件。请注意,原始空间中的每个约束对应于对偶空间中的一个未知变量,因此添加原始约束等同于添加对偶变量。当我们在对偶空间中优化LM平面时,我们迭代添加对偶变量来更新模型,直到收敛。算法1描述了对偶空间中LM平面的CP训练。

 B.为PLL查找冲突标签对查找冲突标签对是算法1的核心步骤。然而,与现有的有监督学习问题的CP训练(例如,结构SVM)不同的是,对于LM-PLANE,我们不能使用最违反的约束来更新我们的模型(即,更新GTN和vtin算法1)。原因是地面真值标签未知,将导出不正确的模型如果我们在更新中使用最违反的约束。定理1给出了这个问题的形式化讨论。定理1:假设当前解{w∗,Y∗,γ=0}成功识别所有基本真理标签,并使用LM(即w)正确分类所有实例∗Tφ(xi,y)∗ (一)− 马克西=Y∗ 信息战∗Tφ(xi,y)≥ 1.∀我∈ {1,…,n}。L et(yi,yi)表示当前w的最违反的标签对∗ (yi,yi)=arg maxyi∈是吗,易=yi×[Δ(yi,yi)− W∗Tφ(xi,yi)+w∗Tφ(xi,yi)]。(13) 那么,我们有:1)y∗ 我?=yiif | Si |>1和w∗Tφ(xi,yp)?=W∗Tφ(xi,yq),∀p?=q和2)(yi,yi)不满足收敛条件。证明:为了证明第一部分,请注意(13)等于(yi,yi)=argm i nyi∈是吗,易=易[w]∗Tφ(xi,yi)− W∗Tφ(xi,yi)]。(14) (14)的解是通过首先将yi解为yi=a r g m i ny得到的∈Siw∗Tφ(xi,y),然后解yi为yi=a r g m a xy=姚∗Tφ(xi,y)。注意,我们有y∗ i=a r g m a xy∈Siw∗Tφ(xi,y)因为w∗Tφ(xi,y)∗ (一)− 马克西=Y∗ 信息战∗Tφ(xi,y)≥ 1.因此,对于非平凡的w∗而且|是|>1我们有y∗ 我?=易,第一部分是证明。因为易Y∗ i、 w w h a v e yi=y∗ i、 然后是w∗Tφ(xi,yi)− W∗Tφ(xi,yi)≤ −1.∀我∈ {1,…,n}。因此,我们有w∗Tgt≤ −1,它不满足收敛条件w∗Tgt>vt−γ−? = 1.−?, 因为vt=1,γ=0,和?通常是非常小的正值(它等于10−4在我们的实验中)。第二部分是论证。定理1表明,即使当前解是最优的,最违反的标签对仍然存在,这些标签对将被添加以更新模型而不收敛,并将误导解。因此,最违反的标签对不能用于更新模型。然而,我们仍然需要找到一些违反的标签对来扩大对偶空间(即扩大原始约束),并将我们的解决方案推向最优。这种困境迫使我们找到违反但最违反的标签对,以有效地改进解决方案。

 算法2中给出了查找有效冲突标签对的方法,可描述如下。为了找到一个有效的违反标签对XI,W E首先找到Yi和Yi对应于最大输出的候选标签集席和最大输出的整体标签,但易,分别地接下来,我们计算yi的输出和yi的输出之间的差值。如果裕度小于1,这意味着(yi,yi)将触发原始LM平面(8)中的正松弛变量ξiI,那么我们将(yi,yi)视为有效的违反标签对来更新当前模型。另一方面,如果这个余量不小于1,这意味着损坏了与(8)席席i i=0有关的所有约束,那么就不需要为XI找到一个违反的标签对来更新当前模型,并且我们只设置I==Ito使(Yi,Yi)不活动。这里,“有效”意味着如果(yi,yi)不满足当前约束,将其添加到当前模型有助于有效地改进解决方案。定理2:假设当前解{w∗,Y∗,γ=0}成功识别所有基本真理标签,并使用LM(即w)正确分类所有实例∗Tφ(xi,y)∗ (一)− 马克西=Y∗ 信息战∗Tφ(xi,y)≥ 1.∀我∈ {1,…,n}。然后,有效违反标签对{(yi,yi),i∈ 通过算法2找到的{1,…,n}}满足算法1的收敛条件。证明:基于定理2的假设,通过算法2找到的有效违反标签对满足yi=yi,∀我∈ {1,…,n}。那么,我们有w∗Tgt=0,因为gt=0。因此,算法1w的收敛条件∗Tgt>vt− γ − ? = −? 是满意的,因为我们有vt=0,γ=0,nD?通常是非常小的正值(它等于10−4在我们的实验中)。证明完成了。定理2证明,如果当前解是最优的,则有效违反标签对满足算法1的收敛条件,迭代终止。当训练过程完成时,任何测试实例xtesti的预测标签ytesto计算为ytest=a r g m a xy∈YwTφ(xtest,y)。(15) 收敛性分析收敛性分析对于评估优化方法的性能至关重要。在不给出收敛速度的情况下,通过交替优化对M3PL进行训练。PL-SVM由扩展的Pegasos算法[42]训练,该算法提供了收敛速度,但没有详细的证明。所提出的LM平面算法在对偶空间中通过CP进行训练。据作者所知,现有CP算法的收敛性分析仅适用于监督学习。我们是第一个分析锁相环的CP方法的收敛速度并给出详细证明的人。首先,请注意,在算法1中,我们越来越多地向对偶问题添加有效的违反标签对,这会逐渐减少原始目标,因为这等于越来越多地向原始问题添加违反约束并缩小原始搜索空间。算法1显示训练迭代将在以下情况下终止:-在哪里实现最优?表示收敛公差。

让γ表示上一次迭代中的松弛变量,{(yi,yi)| i=1,…,n}分别表示通过算法2新发现的违反标签对。那么-如果这些标签对违反当前模型(即,当前w)b y n的约束超过?,i、 e,1N?ni=1wT(φ(xi,yi)− φ(xi,yi))≥ (1/n)?ni=1Δ(yi,yi)−γ −?. 下面的定理证明 

 D.时间复杂度算法1中LM-PLANE的CP训练由多次迭代组成,在每次迭代中,我们需要在解决QP问题和寻找有效的违反标签对之间进行交替。求解QP问题的最坏情况时间复杂度为O(t3),w h re e t表示QP问题的矩阵大小。寻找有效的违反标签对的时间复杂度为O(Dmn),w h r e D,m,a n D n分别表示实例维度、类数和训练实例数。因此,每个迭代的最坏情况时间复杂度为O(t3+Dmn)。此外,请注意,t随着迭代次数的增加而逐渐增加(定理3中给出了它的最优上界),我们所有的经验结果表明,训练将在不超过几百次的迭代中终止。为了进行比较,在表2中,我们分别给出了训练PL-SVM、M3PL和LM-PLANE时每次迭代的最坏情况时间复杂度。请注意,尽管LM-PLANE训练中每次迭代的时间复杂度大于PL-SVM训练中每次迭代的时间复杂度,但总体而言,LM-PLANE可以获得比PL-SVM更好的性能(参见第III-C节的分析和第V节的实验)。此外,LM-PLANE每次迭代的时间复杂度低于M3PL,因为在我们的经验实验中,LM-PLANE中的t逐渐增加且不超过几百,而M3PL中的mn表示类数与训练实例数的乘积,通常,在本节中,我们通过比较LM-PLANE与几种竞争的PLL算法,在受控数据集和真实数据集上对LM-PLANE的分类性能进行了评估。受控数据集包括四个UCI[43]数据集、一个人脸识别数据集和一个人工数据集。真实世界的数据集涵盖各种PLL任务,包括电视连续剧中的角色名称关联,模糊图像分类、鸟鸣分类和新闻图像中的自动人脸命名。竞争的PLL算法如下所示。1) PL-SVM:SVM算法对PLL的一种自适应,在候选标签的最大输出和非候选标签的最大输出之间有LM。2) M3PL3:SVM算法对PLL的另一种自适应,它考虑了地面真值标签和任何其他标签输出之间的裕度。3) CLPL:一种基于凸损失的PLL分类算法,其中对于每个实例,损失在该实例的所有候选标签上平均。4) PL-KNN:KNN算法对PLL的一种自适应,以所有候选标签作为基本事实。5) 逻辑断棒条件多项式模型(LSB-CMM)4:一种概率PLL算法,通过将地面真值标签视为潜在变量并假设每个候选标签集依赖于相应的地面真值标签,考虑所有候选标签集的联合可能性。6) RegISL5:一种正则化的PLL算法,它考虑了每个实例的标签鉴别特性和不同实例之间的标签平滑度。7) PLGP[37]:一种基于高斯过程的算法,用于消除训练数据传递的模糊标签信息的歧义。对于受控UCI和真实世界数据集的实验,我们通过给出平均分类精度和相应的标准偏差,使用十倍交叉验证来评估每个算法的性能,即,我们将整个数据集随机分成十个部分,大小(约)相同且无重叠,然后在每一轮中,使用一个部分作为测试集,评估在其余九个部分上训练的给定算法的分类精度,最后,在十轮中平均精度。由于测试实例的地面真值标签是可访问的,因此在测试集上,PLL的分类精度定义与监督学习的分类精度相同。对于三种基于LM的消歧算法PL-SVM、M3PL和LM-PLANE,同时考虑了线性和高斯核版本,我们将其线性和核版本分别称为PL-SVM线性、PL-SVM核、M3PL线性、M3PL核、LM-PLANE线性和LM-PLANE核。内核宽度的设置如下[29]。当不需要区分线性版本和内核版本时,我们省略后缀“-linear”和“-kernel”对于PL-SVM,我们遵循其原始文献[27]中的建议,将折衷参数C的候选集设置为{0.001,0.01,…,1000}。对于M 3pl,我们遵循[29]中的建议,设置Cmaxas{0.01,0.1,…,100}的候选集。对于LM-平面,我们将折衷参数C的候选集设置为{1,1010010005000100005000}。对于CLPL,采用建议的平方铰链损耗[19]。对于PL-KNN[38],我们将邻居的数量设置为建议值10。对于LSB-CMM,如[26]所述,我们将混合物组分的数量设置为10,并将Dirichlet Previor的参数α设置为0.05。对于RegISL[30],为了与PL-KNN进行公平比较,我们还将邻域数设置为10,将核宽度θ的候选集设置为{0.01,0.1,1,10},并将两个折衷参数α和β分别设置为1000和0.01。对于所有算法,其自由参数(如果存在)通过对训练集进行五次交叉验证进行调整,验证集(训练集的一部分)的精度定义为预测标签属于相应候选标签集的验证实例的比例。

 A.在本节中,我们对受控UCI数据集进行实验[43]。根据多类数据集的一般控制策略[19]、[26]、[28],我们可以通过配置两个控制参数p和r将多类数据集转换为PLL数据集,w h r e p表示部分标记的实例比例(即| Si |>1),r表示候选标签集中假标签的数量(即,r=| Si |− 1). 在我们的实验中,p和r分别设置为{0.25,0.50,0.75}和{1,2,3}。因此,我们总共有九种不同的p和r构型。实验中采用了四个UCI数据集。表III中给出了四个数据集的简要说明。对于每个PLL算法,我们对每个受控UCI数据集进行十次十倍交叉验证,以评估分类性能,并给出表IV-VII中四个数据集的平均分类精度和相应的标准差,分别地在0.05显著性水平下,通过两两t检验[44]得出的最高分类准确度和与最高准确度无统计学差异的分类准确度用黑体字表示。通过以上表格,我们观察到以下情况。1) LM-PLANE算法,尤其是其核心版本,在大多数情况下比大多数竞争算法实现更高的分类精度。2) 考虑到CLPL仅使用候选标签集上的平均输出作为目标输出(这也是我们将CLPL视为非消歧算法的原因),这很容易被非圆真值候选标签的输出所控制,毫不奇怪,CLPL在四种基于LM的算法中取得了最差的分类性能:LM-PLANE、PL-SVM、M3PL和CLPL。3)因为PL-SVM不考虑地面实况标签的输出与任何实际标签之间的余量。

B.在本节中的受控人脸识别数据集上,我们通过一个受控人脸识别数据集将我们的算法与竞争算法进行比较。原始数据集被命名为野外标记人脸(LFW)[45],[46],它从网络上收集了13233张人脸图像,属于5749个不同的人。在5749人中,610人拥有不少于4张人脸图像,我们采用了包含6733张属于这610人的图像的较小数据集来进行实验。对于610人(班级),我们随机选择?(j/10)?图像作为测试集,使用剩余图像作为训练集,其中j表示此人的图像数量。将训练集和测试集的随机分割分别重复20次,并报告平均结果。每个原始图像的大小为250×250×3。以减轻高维和 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值