解决部分标签学习问题:一种基于实例的方法

摘要在部分标签学习中,每个训练样本都与一组候选标签相关联,其中只有一个是有效的。从部分标签示例中学习的直观策略是平等对待所有候选标签,并通过平均其建模输出进行预测。尽管如此,该策略可能会遇到以下问题:来自有效标签的建模输出被来自假阳性标签的建模输出淹没。本文通过对候选标签集进行直接消歧,提出了一种基于实例的方法IPAL。简单地说,IPAL尝试通过迭代标签传播过程来识别每个部分标签示例的有效标签,然后基于其最近邻的最小错误重建对不可见实例进行分类。大量实验表明,IPAL与现有的基于实例的以及其他最先进的部分标签学习方法相比,具有良好的性能。

1引言部分标签学习处理的问题是,每个培训示例都与一组候选标签相关联,其中只有一个标签被认为是有效的[Couret al.,2011;Zhang,2014]。从部分标签示例中学习的问题自然出现在许多现实场景中,如web挖掘[Jie和Orabona,2010]、多媒体内容分析[Cour等人,2009;Zeng等人,2013]、生态信息学[Liu和Dieterich,2012]等,设X=rdd为d维输入空间,Y={y1,y2,…,yq}为具有q个可能类标签的输出空间。给定部分标号训练集D={(xi,Si)|1≤ 我≤ M},席∈ X是d维特征向量(xi1,xi2,…,xid)>和Si⊆ y是与席有关的候选标签集合,部分标签学习的任务是诱导多类分类器f:x。→ Y来自D。在部分标签学习中,XI的基本真理标签是 假设驻留在候选标签集中(即yi∈ Si)但学习算法未知。由于无法获得基本真理标签,从部分标签示例中学习的一个直观策略是以平等的方式对待每个候选标签进行模型归纳[Cour等人,2011]。通过对所有候选标签的建模输出求平均值来进行最终预测。然而,这种策略的一个潜在缺陷在于,地面真相标签(即yi)产生的基本输出将被假阳性标签(即Si\{yi})产生的非信息性输出所压倒。此外,随着候选标签集大小的增加,假阳性标签引起的压倒性影响将更加明显。在本文中,我们的目标不是采用上述平均策略,而是通过直接消除候选标签集的歧义来解决部分标签学习问题。因此,提出了一种新的部分标签学习方法IPAL,即基于实例的部分标签学习。首先,通过亲和关系分析构造训练样本上的非对称加权图。之后,IPAL尝试通过迭代标签传播过程识别每个部分标签示例的有效标签。在测试阶段,不可见的实例被分类为从其最近邻进行最小错误重构。对受控UCI数据集以及真实世界部分标记数据集的实验研究清楚地验证了IPAL相对于比较方法的有效性。本文的其余部分组织如下。第2节简要讨论了相关工作。第3节介绍了拟议IPAL方法的技术细节。第4节报告了对比实验的结果。最后,第5节对全文进行了总结,并指出了未来的研究问题。

 2相关工作部分标记学习可以看作是一个弱监督学习框架,其中部分标记训练示例所传递的监督信息是隐含的。从概念上讲,它介于监督谱的两端,即传统的有明确监督的监督学习和无监督的盲监督学习。部分标记学习与其他研究较多的弱监督学习框架相关,包括半监督学习、多实例学习和多实例学习-标签学习。尽管如此,这些学习框架处理不同类型的弱监督信息。半监督学习[Chapelle等人,2006年;Zhu和Goldberg,2009年]从大量未标记示例和少量标记示例中学习。对于未标记数据,地面真值标签假定整个标签空间,而对于部分标签数据,地面真值标签限制在候选标签集中。多实例学习[Dieterich等人,1997年;Amores,2013年]从标记的训练示例中学习,每个示例由一包实例表示。对于多实例数据,标签在行李级别分配,而对于部分标签数据,标签在实例级别分配。多标签学习[Tsoumakas等人,2010年;Zhang和Zhou,2014年]从与多个标签相关的培训示例中学习。对于多标签数据,所有关联标签均为有效标签,而对于部分标签数据,关联标签仅为候选标签。为了从部分标签示例中学习,一个直观的策略是以平等的方式对待所有候选标签,然后平均所有候选标签的输出以进行预测。遵循这一策略,一个简单的基于实例的解决方案[Hüllermier and Beringer,2006]是对看不见的实例x进行预测∗按以下方式:f(x∗) = arg maxy∈Y P i∈N(x)∗)I(y)∈ Si)。这里,I(·)是指示函数和x的预测标签∗通过将N(x)中索引的相邻示例的候选标签中的投票进行聚合来确定∗). 除了基于实例的实例化外,采用平均策略的另一个解决方案是假设一个用于判别学习的参数模型F(x,y;θ)[Cour等人,2011]。这里,所有候选标签的平均输出,即1 | Si | py∈SiF(xi,y;θ)不同于非候选标签的输出,即F(xi,y;θ)(y/∈ Si)。尽管平均策略直观且易于实施,但其有效性在很大程度上受到假阳性标签的影响,假阳性标签的输出将压倒地面真实值标签产生的基本输出。因此,从部分标签示例中学习的另一个策略是通过识别地面真值标签来消除候选标签集的歧义。遵循这一策略的现有方法将地面真值标签视为潜在变量,并利用期望最大化(EM)程序[Dempster等人,1977]迭代改进潜在变量的估计。通过EM程序优化的目标函数可以基于最大似然准则实例化:Pm i=1log?P y∈SiF(xi,y;θ)?[Jin和Ghahramani,2003;Grandvalet和Bengio,2004;Liu和Ditterich,2012],或最大保证金标准:Pm i=1?马克斯y∈SiF(xi,y;θ)− 最大y/∈SiF(xi,y;θ)?[Nguyen和Caruana,2008年]。在下一节中,将介绍一种新的部分标签学习方法,该方法遵循消歧策略。与基于EM的消歧不同,该方法在利用基于实例的技术对候选标签集进行消歧时,不假设任何参数模型。

 3 IPAL方法在消歧阶段,IPAL从两个基本阶段的部分标签示例学习,即加权图构造和迭代标签传播。设D={(xi,Si)| 1≤ 我≤ M}是部分标签训练集,其中席∈ X是一个d维实例(xi1,xi2,…,xid)>和Si⊆ Y是与席有关的候选标签集。本文在V={xi|1的训练样本集上构造了一个加权图G=(V,E)≤ 我≤ m} 。对于每个实例席,让n(席)表示训练集中确定的k近邻的索引,其中两个实例之间的距离用流行的欧几里德度量计算。因此,图G的边被设置为E={(xi,xj)|i∈ N(xj),1≤ i 6=j≤ m} 。换句话说,在xj的k近邻中,从节点xito节点xjiff xiis将有一条(定向)边。从边集合E中,可以简单地指定一个m×m权重矩阵W=[wi,j]m×mas如下:wi,j=1如果(xi,xj)∈ E否则,wi,j=0。为了对相邻实例的细粒度影响进行编码,IPAL选择通过进行一些亲缘关系分析来确定权重。设wj=[wi1,j,wi2,j,…,wik,j]>(ia∈ N(xj),1≤ A.≤ k) 表示权重向量w.r.t.xjan及其k-最近邻,通过求解以下优化问题(OP)对每个相邻实例的影响进行建模:min wj??xj− Xk a=1wia,j·xia??2(1)s.t.wia,j≥ 0(ia)∈ N(xj),1≤ A.≤ k) 如OP(1)中所示,权重向量WJI通过拟合线性最小二乘问题进行优化,该问题受非负性约束。在这里,我们不在目标函数中施加额外的正则化项(例如,wj的L1-或L2范数),以容纳更多的优化空间。对于OP(1),其最优解ˆwjc可通过应用任何现成的二次规划(QP)求解器获得。在某种程度上,优化权重ˆwia,jencodes的大小决定了Xjan与其相邻实例之间的亲和力强度。因此,IPAL将权重矩阵W指定如下:wi,j=ˆwi,jif(xi,xj)∈ E否则wi,j=0。值得注意的是,W是一个不对称的权重矩阵,它反映了相邻关系不一定对称的事实。此外,即使两个实例xind xjhappen是彼此相邻的实例,来自xito xj(即wi,j)的影响通常不同于来自xjto xi(即wj,i)的影响。2为了便于后续的迭代标签传播过程,权重矩阵W随后通过列H=WD进行归一化−1.这里,D=diag[d1,d2,…,dm]是具有dj=pmi=1wi,j的对角矩阵。设F=[fi,c]m×q是具有非负项的m×q矩阵,其中fi,c≥ 0对应席西的地面真标号的标号置信度。基于部分标签训练集,初始(先前)标签置信矩阵F(0)=P=[pi,c]m×qc可以如下实例化:∀ 1.≤ 我≤ m:pi,c=   1 | Si |,如果yc∈ Si 0,否则为(2)换句话说,在初始化步骤中,XI的标签置信度在Si中的候选标签上均匀分布。在第t次迭代中,通过传播标签信息以及归一化权重矩阵H:~F(t)=α·H>F(t)来更新F−1)+ (1 − α) ·这里P(3),参数α∈ (0,1)控制从标签传播和初始标签继承的相对信息量。在此之后,通过查阅每个培训示例的候选标签集,将F(t)重新缩放为F(t):∀ 1.≤ 我≤ m:f(t)i,c=     ~f(t)i,c P yl∈Si〜f(t)i,l,如果yc∈ Si 0,否则(4)当迭代过程终止时,可以基于最终标签置信矩阵ˆF消除每个部分标签训练示例(xi,Si)的歧义,如下所示:ˆyi=arg maxyc∈Yˆfi,c.在本文中,IPAL进一步采用类别质量归一化(CMN)机制[Zhu和Goldberg,2009]将消歧输出调整为类别先验分布:ˆyi=arg max yc∈Y ncˆnc·fi,这里的c(5),nc=pmi=1pi,cis是ycw的类质量。r、 t.先前标记置信矩阵xp,且ˆnc=Pm i=1ˆfi,cis为ycw的等级质量。r、 t.最终标记置信矩阵ˆF。在测试阶段,一个看不见的实例的类标记x∗基于消除歧义的训练实例(xi,ˆyi)预测。x的k近邻∗在训练集中,即N(x∗), 首先确定的是。然后,权重向量w∗= [w]∗ i1,w∗ i2,W∗ ik]>(ia)∈ N(x)∗),1.≤ A.≤ k) w.r.t.x∗它的k-近邻是通过求解与OP(1)相同的优化问题来确定的(用{x代替{xj,wj})∗,W∗}). 此后,基于以下最小误差重构准则对不可见实例进行分类:y∗= arg min yc∈Y十、∗− Xk a=1I(ˆyia=yc)·w∗ ia·夏??(6) 表1总结了拟议IPAL方法的完整程序。在给定部分标记训练集的情况下,通过对每个实例与其k近邻之间的亲和力关系进行分析,构造了一个非对称加权图(步骤1-8)。之后,执行迭代标签传播过程以消除每个训练示例的候选标签集的歧义(步骤9-19)。最后,基于k近邻的最小误差重构对不可见实例进行分类(步骤20-22)。

 4实验4.1实验装置本论文在受控UCI数据集[Bache和Lichman,2013]以及真实世界部分标签数据集上进行了两系列对比实验。表2总结了这些实验数据集的特征。按照流行的控制协议[Cour等人,2011年;Liu和Dieterich,2012年;Zhang,2014年;Chen等人,2014年],在三个控制参数p、r和?的不同配置下,从多类UCI数据集生成人工部分标签数据集?。这里,p控制部分标记的示例的比例(即| Si |>1),r控制候选标签集中假阳性标签的数量(即| Si |=r+1),以及?控制一个额外候选标签和基本真相标签之间的共现概率。表2列出了本文考虑的总共28(4x7)个参数配置。真实世界的部分标签数据集是从括Lost[Cour et al.,2011]、Soccer Player[Zeng et al.,2013]和Yahoo!新闻[Guillaumin et al.,2010]用于从图像或视频中自动命名人脸,MSRCv2[Liu和Ditterich,2012]用于对象分类,BirdSong[Briggs et al.,2012]用于鸟类鸣叫分类。表2中还列出了每个真实数据集的候选标签的平均数量(平均值)。将IPAL的性能与四种最先进的部分标签学习算法进行比较,每种算法都配置了各自文献中建议的参数:•PL-KNN[Hüllermier and Beringer,2006]:采用平均策略的基于实例的部分标签学习方法,其中PL-KNN考虑的最近邻数设置为10;•CLPL[Cour等人,2011]:采用平均策略的部分标签学习的参数方法,其中参数模型设置为具有平方铰链损失的SVM;•PL-SVM[Nguyen and Caruana,2008]:采用基于EM的消歧策略的部分标签学习的最大裕度方法,其中正则化参数在{10]中选择−3.103}通过交叉验证;•LSB-CMM【Liu和Ditterich,2012】:通过采用基于M的消歧策略,其中混合成分的数量被设置为每个数据集的类标签的数量。如表1所示,IPAL采用的参数设置为k=10、α=0.95和T=100.3。在本节的其余部分,对每个人工和真实部分标签数据集进行十次交叉验证。因此,记录所有比较算法的平均预测精度(以及标准偏差)

 4.2实验结果受控UCI数据集图1说明了每个比较算法的分类精度,如共现概率?步长为0.1(p=1,r=1),从0.1到0.7不等。一个标签y0被指定为每个类标签y的额外候选标签∈ Y、 其中Y0被选择与Y以概率共存?当y是地面真值标签时。否则,将选择任何其他类别标签与y同时出现。图2至图4说明了每个比较算法的分类精度,因为比例p在0.1至0.7之间变化,步长为0.1(r=1,2,3)。对于任何部分标记的示例,连同地面真值标签,Y中的r类标签将被随机拾取以构成候选标签集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值