2021-IEEE Trans-通过可信的标签引出进行部分多标签学习-（PATICLE）Partial Multi-Label Learning via Credible文献翻译

最新推荐文章于 2024-07-10 00:00:00 发布

MT_Joy

最新推荐文章于 2024-07-10 00:00:00 发布

阅读量2k

点赞数 1

分类专栏：偏多标签学习 # 偏多标签学习经典方法系列文章标签：部分多标签学习可信标签迭代标签传播预测模型假阳性标签

本文链接：https://blog.csdn.net/qq_42014059/article/details/123932641

版权

偏多标签学习同时被 2 个专栏收录

3 篇文章 9 订阅

订阅专栏

偏多标签学习经典方法系列

3 篇文章 2 订阅

订阅专栏

摘要

部分多标签学习（PML）处理每个训练示例与一组过完备的候选标签相关联的问题，其中只有一些候选标签是有效的。 PML 的任务自然出现在监督不准确的学习场景中，其目标是诱导一个多标签预测器，该预测器可以为看不见的实例分配一组适当的标签。 PML训练过程容易被隐藏在候选标签集中的误报标签误导，这是部分多标签学习的主要建模难点。在本文中，提出了一种新颖的两阶段 PML 方法，该方法通过从候选标签集中引出可信标签来进行模型归纳。在第一阶段，通过迭代标签传播估计每个 PML 训练示例的候选标签的标签置信度。在第二阶段，通过利用具有高标签置信度的可信标签，通过成对标签排序结合虚拟标签拆分或最大后验（MAP）推理来诱导多标签预测器。实验研究表明，所提出的方法可以通过可靠的标签启发从训练过程中排除大多数假阳性标签，从而实现极具竞争力的泛化性能。

1、介绍

P ARTIAL 多标签学习对应于一个具有不准确监督的特定学习框架，其中一组候选标签分配给每个训练示例，这些标签仅部分有效。例如，在众包图像标记中（图 1），在众包注释器给出的候选标签集中，由于注释器可能不可靠，因此只有其中一些是有效标签。实际上，从 PML 示例中学习的需求自然出现在许多实际应用中，在这些应用中，很难从收集的数据中获得准确的监督。

形式上，设 X= $R^{d}$ 表示 d 维特征空间，Y={ $y_{1}$ , $y_{2}$ ,...., $y_{q}$ } 表示具有 q 个可能的类标签的标签空间。给定 PML 训练集 D={( $x_{i}$ , $Y_{i}$ ) | 1≤i≤m }, $x_{i}$ ∈X 同时是一个 d 维特征向量，而 Yi $\subseteq$ Y 是与 $x_{i}$ 相关联的候选标签集。部分多标签学习采用的关键假设在于ground-truth标签集 $\widetilde{Y_{i}}$ $\subseteq$ y 的 $x_{i}$ 位于候选标签集中，即 $\widetilde{Y_{i}}$ $\subseteq$ y易，并且不能直接访问学习算法。因此，PML 的任务是引入一个多标签预测器 f : X-> $2^{y}$ 来自 D ，它可以为看不见的实例分配一组适当的标签。从 PML 训练示例中学习的一种直接策略是将 $Y_{i}$ 中的所有候选标签视为真实标签，然后采用现成的多标签学习算法来诱导多标签预测器。然而， $Y_{i}$ 中误报标签带来的标签噪声会显着影响由此产生的多标签训练过程。另一种策略是估计每个候选标签的置信度为真实标签，其中置信度分数和预测模型通过置信加权排序损失最小化或低秩置信矩阵近似以迭代方式优化。尽管如此，估计的置信度分数可能容易出错，尤其是当假阳性标签的比例很高时，由于迭代优化过程，这反过来会影响预测模型。

图 1. 一个示例性的部分多标签学习场景。在众包图像标注中，众包标注者给出的 7 个候选标签中，只有 4 个是有效标签，包括房子、树、薰衣草和法国。

在本文中，提出了一种名为 PARTICLE 的新方法，即通过可信标签启发的部分多标签学习，用于从 PML 训练示例中学习。 PARTICLE的基本思想是通过从候选标签集中引出可信标签来减轻假阳性标签的负面影响，这些标签将被视为可靠的标签信息，用于后续的模型归纳。简而言之，在第一阶段，通过迭代标签传播来识别具有高标签置信度的可信标签。在第二阶段，利用识别出的可信标签，通过成对标签排序结合虚拟标签拆分或最大后验推理来诱导多标签预测器。广泛的实验研究表明，可信标签启发是解决隐藏在候选标签集中的真实标签的主要 PML 建模困难的有效策略。

本文的其余部分安排如下。首先，简要讨论部分多标签学习的相关工作。其次，介绍了所提出的 PARTICLE 方法的技术细节。第三，报告了比较研究的详细结果。最后，我们总结并指出未来工作的几个问题。

2 相关工作

从概念上讲，部分多标签学习与两个流行的学习框架密切相关，即多标签学习和部分标签学习。

多标签学习 (MLL) 处理每个示例同时与多个有效标签相关联的问题。现有的 MLL 方法可以根据用于模型归纳的标签相关性的顺序大致分为三组，包括假设类标签之间独立的一阶方法假设成对标签相关性的二阶方法和高阶方法假设标签的子集或整个类标签集之间存在相关性。 MLL 和 PML 具有相同的目标，即诱导预测模型，该模型可以为未见过的实例分配一组适当的标签。尽管如此，PML 的任务比 MLL 更具挑战性，因为 PML 学习算法不能直接访问真实标签信息。还有关于弱标签学习的研究，其中相关标签集中缺少真实标签。因此，弱标签学习和 PML 可以被视为具有噪声标签的 MLL 的双重变体，其中弱标签学习假定不相关标签集中的假阴性标签，而 PML 假定候选标签集中的假阳性标签。

部分标签学习 (PLL) 处理每个示例与多个候选标签相关联的问题，其中只有一个是有效的。部分标签学习的任务是引入一个多类预测模型，该模型可以为看不见的实例分配一个适当的标签，其中现有的 PLL 方法通过消除候选标签集来工作或将部分标签学习问题转化为规范的监督学习问题。 PLL 和 PML 共享从噪声训练示例中学习的相似设置，其中假阳性标签驻留在候选标签集中。尽管如此，PML 的任务比 PLL 更具挑战性，因为需要从 PML 训练示例中诱导出多标签预测器而不是单标签预测器。

解决 PML 建模问题的最直接策略是将所有候选标签视为真实标签。此后，可以应用任何现成的多标签学习算法来诱导所需的多标签预测器。然而，很明显，这种直接策略的有效性往往会受到隐藏在候选标签集中的误报标签的影响。另一方面，可以选择通过估计每个候选标签作为真实标签的置信度来消除候选标签集的歧义。因此，采用迭代程序通过置信加权排序损失最小化、低秩置信矩阵近似或基于二次规划 (QP) 的判别建模来交替优化置信分数和预测模型。由于优化过程的替代性质，置信度分数的估计误差可能会在优化迭代中不断累积，从而损害耦合预测模型，尤其是当候选标签集中假阳性标签的比例很高时。

在下一节中，将介绍基于可信标签启发的两阶段部分多标签学习策略，旨在通过利用可靠的标签信息来减轻误报标签的负面影响。

3 提议的方法

所提出的 PARTICLE 方法包括两个基本阶段，即可信标签提取旨在从候选标签集中识别可靠的标签信息，以及预测模型归纳旨在利用识别的信息进行后续模型训练。 PARTICLE 的技术细节如下。

3.1 可信标签获取

在第一阶段，为了从候选标签集中引出可信标签，PARTICLE 通过基于加权图在训练实例上调整标签传播过程来工作。这样，利用特征空间中的结构信息，便于识别标签空间中可靠的标签信息。

给定 PML 训练集 D={( $x_{i}$ , $Y_{i}$ ) | 1≤i≤m },加权有向图 G = {V,E,W}基于kNN最小误差重构实例化。这里，V = { $x_{i}$ | 1≤i≤m}对应于训练实例集，E={( $x_{i}$ , $x_{j}$ )|i∈N( $x_{j}$ ), 1≤j≤m}对应于有向边的集合，其中 N( $x_{j}$ )是 $x_{j}$ 在 D 中的 k 个最近邻的索引集,W=[ $w_{1}$ ,......, $w_{m}$ $]^{T}$ 对应与 $W_{j}$ =[ $w_{1,j}$ , $w_{2,j}$ ,....., $w_{m,j}$ $]^{T}$ (1≤j≤m)的权重矩阵作为权重向量 w.r.t. $x_{j}$ 。

具体来说，wj 通过解决以下最小误差重构问题进行优化：

从概念上讲，方程式的目标。 (1) 是最小化从具有非负权重的 k 个最近邻重建 $x_{j}$ 的损失。因此，方程的线性最小二乘问题的解。 (1) 可以通过应用现成的 QP 求解器获得。

初始标记置信度矩阵 Fð0Þ 设置为 w.r.t。 PML训练示例如下：

具体来说，PARTICLE 选择将初始标签置信度均匀分布在候选标签集上。对于第 t 次迭代，通过在 H 上传播当前标记置信度来更新 F

这里，参数 a∈[0,1]控制从迭代传播和初始标记置信度 $F^{(0)}$ 继承的标记信息的比例。之后，PARTICLE 通过标准化每一行 w.r.t 将 $\widetilde{F^{(t)}}$ 重新调整为 $F^{(t)}$ 。候选标签集

随着迭代标签传播过程终止，我们使用 $F^{*}$ 表示最终的标签置信度矩阵。

基于 $F^{*}$ ，通过识别具有高标签置信度的候选标签，为每个 PML 训练示例得出可信标签是可行的。为了降低标签传播过度拟合的风险，PARTICLE 通过进一步执行 kNN 聚合来完成启发任务。给定 $x_{j}$ 及其在N( $x_{j}$ )中索引的 k 个最近邻，聚合权重向量 $w^{j}$ =[ $w_{1}^{j}$ ,...., $w_{q}^{j}$ $]^{T}$ 设置为

在这里，dist( $\cdot ,\cdot$ )计算两个实例之间的欧几里得距离。因此，得到的标记置信度向量 $\lambda ^{j}$ =[ $\lambda _{1}^{j}$ ........, $\lambda _{g}^{j}$ ]for $x_{j}$ 是通过聚合 $F^{*}$ 与 $w^{j}$

然后通过阈值 $Y_{j}^{C}$ 识别 $x_{j}$ 的可信标签 Y $\lambda ^{1:2}$ 的集合

因此， $Y_{j}^{C}$ ∈ $Y_{j}$ 由标注置信度大于指定阈值 thr∈[0,1] 的候选标签组成；。此外， $Y_{j}^{C}$ 至少包含候选具有最高标签置信度的标签（即 yl？），以避免出现空的可信标签集。

3.2 预测模型归纳

第二阶段，PARTICLE利用第一阶段引出的可信标签来诱导多标签预测模型。

让 $D^{C}$ ={( $x_{i}$ , $Y_{i}^{C}$ ) | 1≤i≤m}表示转换后的 PML 训练集，其中每个训练样例 $x_{i}$ 都与可信标签集 $Y_{i}^{C}$ 相关联，而不是与原始候选标签集 $Y_{i}$ 相关联。成对标签排序是为从 DC 中学习而量身定制的，其中类似的技术已成功应用于从多标签数据中学习。成对标签排序产生的结果进一步与虚拟标签拆分或最大后验 (MAP) 推理相结合，以完成模型归纳。

对于每个转换后的 PML 训练示例 ( $x_{i}$ , $Y_{i}^{C}$ ) 与 $Y_{j}^{C}$ ∈ $Y_{j}$ ，令 $\widetilde{Y_{i}}$ =y\ $Y_{i}$ 表示 Y 中候选标签集 Yi 的互补集。成对标签排序通过将原始学习问题转化为许多二元学习问题来工作，每个标签对 (1≤u＜z≤q)。具体来说，一个二元训练集 w.r.t ( $y_{u}$ , $y_{z}$ )从 $D^{C}$ 生成如下：

换句话说，如果 yu 和 yz 具有不同的分配 w.r.t，则 $x_{i}$ 将被用作二进制训练示例。 $Y_{i}^{C}$ 和 $\widetilde{Y_{i}}$ 。否则， $x_{i}$ 不会对二元训练集 $D_{uz}^{c}$ 的生成做出贡献。

此后，总共有 $(_{2}^{q}$ $)_{}^{}$ 二元分类器 guz : X 7！ R 可以通过调用一些二元学习算法 B 从 DC uz 导出，即 guz BðDC uzÞ。基于 $(_{2}^{q}$ $)_{}^{}$ 产生的建模输出？ ?在二元分类器中，PARTICLE 继续通过虚拟标签拆分或 MAP 推理来预测未见实例 x 的正确标签集。

3.2.1 虚拟标签拆分

在这种情况下，引入一个虚拟标签 yV 作为可信标签和非候选标签之间的人为分裂点。因此，对于每个类别标签 $y_{u}$ (1≤u≤q)，从 DC 生成一个额外的二进制训练集，如下所示：

换句话说，如果 yu 属于 $Y_{i}^{C}$ 或 $\widetilde{Y_{i}}$ ，则 xxi 将被用作二元训练示例。否则，xxi 不会有助于生成二元训练集 $D_{uV}^{C}$ 。

3.2.2 MAP推理

在这种情况下，使用简单的计数统计数据来启用基于 MAP 推理的模型预测。对于未见过的实例 xx，让 $C_{u}$ 表示统计，该统计量计算在 N (x) 索引的 x 的 k 个最近邻居上投票给 yu 的二元分类器的平均数量

我们使用 Hu 来表示 yu 是 xx 的相关标签的事件。因此，令 P( $H_{u}$ | $C_{u}$ ) 是 $H_{u}$ 在给定 $C_{u}$ 的情况下成立的后验概率，并且 P(-> $H_{u}$ | $C_{u}$ ) 是 Hu 在相同条件下不成立的后验概率。此后，x 的预测标签集由 MAP 规则确定。

根据贝叶斯定理，我们有

5结论

部分多标签学习是一种新兴的弱监督学习框架，它考虑了不准确监督的特定设置，其中每个示例都关联带有一组仅部分有效的候选标签。在本文中，我们提出了对我们早期研究 [9] 的扩展，它通过从候选标签集中引出可信标签来解决 PML 问题。这样，通过利用可信的标签信息，可以减轻假阳性标签对模型归纳的负面影响。与最先进方法的广泛比较研究表明，可信的标签启发是处理 PML 示例中的标签噪声的有效策略。

本文提出的 PARTICLE 方法对应于通过迭代标签传播和成对标签排名来实现可信标签获取和利用的一种可行实现。 4 未来，研究其他方法来获取可信标签信息并诱导具有可信度的预测模型是很有趣的。标签。此外，可以通过尝试利用领域知识 [39]、多视图表示 [6] 等辅助信息来增强对 PML 训练示例的候选标签集进行消歧的有效性