Multi-Label Learning 笔记一A Review on Multi-Label Learning Algorithms

最新推荐文章于 2023-12-27 10:26:38 发布

qq_36822881

最新推荐文章于 2023-12-27 10:26:38 发布

阅读量8.5k

点赞数 8

分类专栏：机器学习

机器学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

1、定义

定义为d维的实体空间，为q个可能标签的标签空间。multi-label learning就是从multi-label training set中学习函数。对于每个multi-label example 是一个d维的特征向量，就是与相关的一组标签。对于没有出现过的实体，多标签分类器为x预测出一组合适的标签。

2、主要挑战

1、随着标签的增加，输出空间成指数性增长（20个类别标签的输出大小卫2的20次方）

解决：通过利用标签之间的相关性（或相关性）来促进学习过程

ex:如果一个图片被标记为“巴西”那么它就很有可能与“雨林”和“足球”相关。

开发标签相关性的策略：

1、一阶策略

多标签学习的任务是逐个标签式地处理，因此忽略其他标签的共存，例如将多标签学习问题分解成许多独立的二元分类问题。一阶策略的突出优点在于其概念简单和高效。另一方面，由于标签相关性的无知，所得方法的有效性可能不是最佳的。 2、二阶策略

通过考虑标签之间的配对关系来解决多标签学习的任务，例如相关标签不相关标签之间的等级或任何一对标签之间的交互。由于二阶策略在一定程度上利用了标签相关性，因此所得到的方法可以实现良好的泛化性能。但是，在某些真实应用中，标签相关性超出了二阶假设。

3、高阶策略

通过考虑标签之间的高阶关系来解决多标签学习的任务，例如在每个标签上施加所有其他标签的影响或寻址标签的随机子集之间的连接。显然，高阶策略比一阶和二阶策略具有更强的相关建模能力，而另一方面，计算要求更高，可扩展性更低。

3、评估方法

衡量多标记度最常用的方法是标签基数：，比如每个样本的平均标签数；因此，标签密度通过标签空间中可能标签的数量对标签基数进行标准化：。另一个衡量多标签标注的就是标签多样性，比如说数据集中出现不同标签集的个数。类似地，标签多样性可以通过示例的数量来标准化以指示不同标签组的比例：。

4、阈值校准（判断是否相关的阈值，没有看懂）

通常，阈值校准可以用两种策略来完成，即将t（·）设置为常数函数或者从训练示例中引入t（·）。对于第一种策略，由于f（x，y）在R中取值，一个直接的选择是使用零作为校准常数。当f（x，y）表示y是x的适当标签的后验概率时，校准常数的另一个流行选择是0.5。此外，当测试集中所有未出现的实例都被提供时，可以设置校准常数以最小化训练集和测试集之间的特定多标签指示符上的差异，特别是标签基数。对于第二种策略，将使用堆叠式过程来确定阈值函数。一种常用的方法就是为t（·）假定一个线性模型，比如说：，是一个q维的stacking vector 存储每个标签的输出。为了计算q维权向量w *和偏差b *，基于训练集D求解以下线性最小二乘问题：

（1）

这里s(xi) = argmina∈R （|{yj | yj ∈ Yi, f (xi, yj) ≤ a}| + |{yk |yk ∈ ¯Yi, f (xi, yk) ≥ a}|）表示堆叠模型的目标输出，该模型将Y分成相关和不相关的标签，用于每个训练样例，误分类最小。

上述所有的阈值校准策略都是通用技术，可以用作任何返回实值函数f（·，·）的多标签学习算法的后处理步骤。因此，也存在一些特定的阈值校准技术，这些技术是特定于学习算法的，并且将在第3部分中作为它们固有的组件被引入。代替使用阈值函数t（·），引入h（·）从f（·，·）是用t来指定每个例子的相关标签的数量：X→{1,2，...，。。，q}使得h（x）= {y | rankf（x，y）≤t（x）}这里，当Y中的所有类标签按照f（x，·）降序排列时，rankf（x，y）返回y的等级。

5、评估指标

Example-based:

Example-based metrics:评价每个单独样本集上学习系统的表现，返回一个测试集之间的mean value.

Classification:

Subset Accuracy:

Subset Accuracy评估正确分类样本的分数。也就是预测标签类别与实值标签类别是否相符。

Hamming loss:

小三角形代表两组之间的对称性。汉明损失评估错误分类实例 - 标签对的分数，即相关标签被遗漏或预测不相关。请注意，当S中的每个示例仅与一个标签关联时，hlossS（h）将是传统错误分类率的2 / q倍。

就是平衡因子贝塔>0时，的集成。最常见的选择是β= 1，这导致了精确度和召回率的调和平均值。

example-based ranking metrics：

one-erro:

one-erro 评估顶层标签与真值标签是否相符

coverage:

该指标表示在预测标签集的排序队列中，从隶属度最高的类别开始向下，平均需要跨越多少标签才能覆盖其实际标签集的所有标签。这个值越小越好。

Ranking Loss(排序损失)：该指标表明了样本预测标签集中，预测正确的标签的隶属度低于预测错误的标签的隶属度的可能性。这个值越小越好

Average Precision:平均精度评估相关标签的平均分数高于特定标签y∈Yi

所有指标越小越好，覆盖率的优化指标：越小越好，one-erro和ranking loss趋近于0最好。对于别的 example-based multi-label 指标, 越大越好, with optimal value of 1（什么鬼？没看懂）

Label-based metrics:

对于第j类标签yj，可以基于h（·）来定义表征该标签上的二元分类性能的四个基本量：

换句话说，TPj,FPj,TNj和FNj代表yi样本的真的正例，假的正例，真的负例，假的负例。

基于上述四个量，大部分二元分类度量可以相应地导出，B（TPj，FPj，TNj，FNj）表示一些特定的二进制分类度量（B∈{Accuracy，Precision，Recall，Fβ} 4），基于标签的分类度量可以在以下模式中获得：

从概念上说，macro-averaging 和micro-average分别假设标签和例子的“相等权重”.Accuracymacro(h) = Accuracymicro(h) and Accuracymicro(h) + hloss(h) = 1

当中间函数f (·, ·)已知时，macro-averaged AUC:

这里，对应于具有（不带）标签yj的测试实例集合。

因为多标签指标通常是非凸并且不连续的，所以许多优化选择代理多标签指标。最近，研究了多标签学习的一致性，即随着训练集大小的增加，学习分类器的预期损失是否收敛于贝叶斯损失。具体而言，基于给出的替代损失函数（可以直观地描述为xX2Y上的固定分布情形）的多标签一致性的充分必要条件就是产生最佳替代损失的这些分类器必须属于产生最佳原始多标签损失的这些分类器必须属于产生最佳原始多标签损失的分类器组。

通过关注ranking loss可以发现标签对所定义的非双向凸代替损失与ranking loss一致，并且一些近期多标签学习方法与确定性多标签学习方法不一致。有趣的是，与这种负面结果相反，对于最小化ranking loss，报告了multi-label learning 的一致性补充正结果。通过使用bipartite ranking problem的减少单个标签上定义的简单单因素变量凸代理损失（指数或者逻辑）表明了 ranking loss的否定边界和收敛速率的一致性。

3、learning Algorithms

3.1、 Simple Categorization

问题转换方法：这类算法通过将多标签学习问题转化为其他成熟的学习场景来处理多标签学习问题。代表性的算法包括一阶方法、二阶相关和高阶方法分类器链，一阶方法将多标签学习任务转换为二元分类任务，二阶方法校准标签排序将多标签学习任务转换为标签排序任务和高阶方法将多标签学习任务转化为多类分类任务的随机k标签集。

算法适应方法：这类算法通过适应流行的学习技术直接处理多标签数据来处理多标签学习问题。具有代表性的算法包括一阶MLKNN自适应延迟学习技术，一阶ML-DT自适应决策树技术，二阶Rank-SVM自适应核心技术，以及二阶CML自适应信息理论技术

简而言之，问题变换方法的关键原理是将数据拟合到算法中，而算法自适应方法的关键原则是将算法适用于数据。图2总结了本节其余部分详细介绍的上述算法

3.2 problem Transformation methods

3.2.2 binary relevance

这个算法的基本思想就是将multi-label learning 问题分解为 Q个独立的二分类问题，每个二分类问题与标签空间的可能标签相对应。对于第j类标签yj，Binary Relevance首先通过考虑每个训练样例与yj的相关性构造相应的二元训练集：

（3）

之后，利用一些二元学习算法B来诱导二元分类器：因此，对于任何多标签训练样例（xi，Yi），实例xi将参与q个二元分类器的学习过程。对于相关标签yj∈Yi，xi被视为诱导gj（·）的一个正实例;另一方面，对于不相关的标签yk∈Yi，xi被认为是一个负面的例子。上述训练策略在英文中被称为交叉训练。

对于看不见的实例x，二元相关性通过查询每个单独二进制分类器上的标记相关性并且然后梳理相关标签来预测其相关联的标签集合Y：

（4）

值得注意的是，当所有的二分类器的输出全为负例时，预测出的标签集Y很有可能是空的。为了避免出现这种情况我们定义以下规则T-Criterion：

（5）

简单来说，当没有一个二分类器输出正例结果时，T-Criterion规则通过包括具有最大（最小负值）输出的类别标签来补充式（4）

二元相关性的伪代码总结在图3中。这是一种一阶方法，它为每个标签单独构建分类器，并为并行实现提供了自然机会。二元相关性最突出的优点在于其处理多标签数据的非常简单的方法（步骤1-4），其被用作许多最先进的多标签学习技术的构建块。另一方面，二元相关性完全忽略了标签之间的潜在相关性，并且当q很大并且标签密度（即LDen（D））较低时，每个标签的二元分类器可能遭遇类不平衡的问题。计算复杂度训练复杂度。

3.2.2 Classifier Chains

该算法的基本思想是将多标签学习问题转化为二元分类问题链，其中链中的后续二元分类器基于前面的预测。

对于Q个类别标签{y1,y2,...,yq}，让τ：{1，...。。。，q}→{1，...。。。，q}是一个置换函数，用于指定它们的排序，ie.对于有序列表中的第j个标签yτ（j）（1≤j≤q），通过将每个实例附加到与yτ（j）之前的那些标签的相关性来构造相应的二元训练集:

其中，连接向量xi和，表示xi之前那些标签的二进制赋值。一些二分类算法被用来引导这个二分类器In other words, gτ(j)(·) determines whether yτ(j）is a relevant label or not.

对于不曾出现的实例x，通过迭代遍历分类器链来预测其关联的标签集合Y.让代表标签yτ(j)是否是x的标签：

显然，对于如上获得的分类器链，其有效性主要受τ所规定的排序影响。为了计算排序的影响，可以用n标签空间的随机排列建立Ensemble of Classifier Chains，比如τ (1), τ(2), . . . , τ(n)。对于每一个排列τ(n)，通过使用不替换（|Dr|=0.67*|D|）或者替换（|Dr|=|D|）采样D的修改过后的D（r）,而不是在原始采样集D（r）上直接使用τ(r)引入classifier chain。

备注：分类器链的伪代码总结在图4中。它是一种高阶方法，它以随机方式考虑标签之间的相关性。与二进制相关性[5]相比，分类器链具有开发标签相关性的优点，同时由于其链接属性而失去了并行实现的机会。

在训练阶段，链式分类器通过真值标注（即方程（6）中的preiτ（j））增加了具有额外特征的实例空间。当B返回的模型能够产生后验概率时（比如。贝叶斯）将其作为分类器的概率输出，而不是维持额外特征的二值状态。其计算复杂度为，训练复杂度为

3.2.3 Calibrated Label Ranking

该算法的基本思想是将多标签学习问题转换为标签排序问题，其中标签之间的排序通过两两比较技术来实现.对于q个可能的标签{y1,y2,...,yq}，两两配对的话总共会产生q(q-1)/2个二分类，每个标签对可以是（yj,yk），(1 ≤ j < k ≤ q).具体而言，对于每个标签对（yj，yk），两两比较首先通过考虑每个训练样本与yj和yk的相对相关性来构造对应的二元训练集：

换句话说，Djk中只包含与yj和yk截然不同的实例。一些二分类算法就被用来引导这个二分类器：因此，对于任何多标签训练实例（xi，Yi），实例xi将参与二进制分类器| Yi || Yi |的学习过程。对于任何实例x∈X，如果gjk（x）> 0，学习系统投票给yj，否则投票给yk。

对于没有出现过的实例，Calibrated Label Ranking 首先将其投给q(q−1)/2 trained binary classifiers获取所有每个可能标签的得分：

（10）

基于以上定义，我们不难校验在这里，Y中的标签可以根据它们各自的投票进行排序（任意断开关系）。

此后，应进一步指定一些阈值函数，将分级标签列表分为相关和不相关的标签集。为了在成对比较框架内实现，Calibrated Label Ranking 将 a virtual label yv整合进每个多标签学习例子中（xi,Yi）。从概念上讲，虚拟标签是xi相关和不相关标签之间的人工分割点。换句话说，yV被认为排名低于yj∈Yi而排名高于yk∈。除了原始的q（q-1）/ 2二元分类器之外，将引入q个辅助二元分类器，每个新的标签对（yj，yV）（1≤j≤q）。与方程（9）类似，可以如下构造对应于（yj，yV）的二进制训练集：

（11）

基于这些，二分类算法被引入引导用于虚拟标签的二分类器：。之后，公式（10）中指定的总体投票将使用新引入的分类器进行更新：

此外，虚拟标签上的总体投票可以计算为：

因此，对于未曾出现过的x其预测标签集也变为：

通过比较方程（11）和方程（3），很明显，校准标签排名所使用的训练集DjV与二进制相关性所使用的训练集Dj相同。因此，校准标签排名可以被看作是成对比较的丰富版本，其中常规q（q-1）/ 2个二进制分类器被二进制相关性的q个二进制分类器放大以便于学习。

note:

这是一种二阶方法，它为任何一对类标签构建分类器。与先前引入的以单一方式构造二元分类器的算法相比，校准标签分级方法以一对一方式构造二元分类器（虚拟标签除外），因此具有减轻负面影响的优势。类不平衡问题。另一方面，由校准标签排序构成的二元分类器的数量根据数字类标签（即q）从线性规模增长到二次规模。对校准标签排名的改进主要集中在减少在测试阶段通过精确修剪或近似剪枝来查询的分类器的二次数目.通过利用底层二进制学习算法B的特性，例如Perceptron的双重表示，可以在训练阶段更加有效地诱导二次分类器。其计算复杂度为训练复杂度为：

3.2.4 Random k-Labelsets

该算法的主要思想就是将多标签学习问题转化为多类分类问题的集合，其中集合中的每个组件学习者都针对Y的随机子集学习，这个多类分类器由Label Powerset技术引入。

LP是将多标签学习问题转换为多类（单标签）分类问题的直接方法。令为从y的power set到自然数字的内射函数而为相应的反函数。在训练阶段，LP首先将原始多标签训练集D转化为以下多类训练集，将出现在D中的每个不同标签集作为一个新类：

显然，这里。一些多类分类算法被用来引导多类分类器：因此，对于任何多标签训练样例（xi，Yi），实例xi将被重新分配新映射的单标签σY（Yi），然后参与多类分类器归纳。

对于没有出现过的实例x，LP通过首先查询多级分类器的预测然后将其映射回Y的power set来预测其关联标签集合Y：

不幸的是，在实际可行性方面，LP有两个主要限制：

（1）不完全性：如公式16和17，LP只限于预测在训练集中出现的标签集，即不能推广到；

（2）效率低：当Y很大时，会有太多新的映射类在导致训练时过于复杂，对于新映射类极少有样本。

为了保持LP的简单性，同时克服其两个主要缺点，Random k-Labelsets选择将集成学习与LP结合以从多标签数据学习。关键策略是仅在随机k-标签集（Y中的size-k子集）上调用LP以保证计算效率，然后集成若干LP分类器以实现预测完整性。让代表y的所有可能的k-标签集合，其中第l个k-标签集合表示为Yk（l）,即与公式（15）类似，也可以通过将原始标签空间Y缩小为Yk（1）来构建多类训练集：

为了创建具有n个分量分类器的集合，随机k-标签集在n个随机k-标签集上调用LP引导多类分类器。对于没有出现过的实例x，将为每个类标签计算以下两个数量：

在这里，τ（x，yj）计算可以从集合接收yj的最大投票数，而μ（x，yj）计算yj从集合接收到的实际投票数。相应地，预测的标签组对应于：

换句话说，当实际票数超过最大票数的一半时，yj被认为是相关的。对于由n个k-标签集创建的集合，每个标签上的最大票数平均为nk / q。随机k-标签集的经验法则是k = 3，n = 2q

备注：Random k-Labelsets的伪码总结在图6中。它是一个高阶方法，其中标签相关度由k-labelsets的大小来控制。除了使用k-labelset之外，改进LP的另一种方式是修剪D中出现的小于预先指定的计数阈值的不同标签集。虽然随机k-Labelsets嵌入集合学习作为其固有部分来修改LP的主要缺点，但集合学习可以被用作meta-level strategy以通过包含同质或异质组分多标签学习者来促进多标签学习。其计算复杂度为训练复杂度为

3.3 ALgorithm Adaptation MeThods

3.3.1 Multi-Label k-Nearest Neighbor (ML-kNN)

该算法的基本思想是适应k-近邻技术来处理多标签数据，其中利用最大后验概率（MAP）规则通过推理邻居中包含的标签信息来进行预测。

对于看不见的实例x，令N（x）表示在D中标识的k个最近邻居的集合。一般情况下，实例之间的相似度用欧几里德距离测量。对于第j类标签，ML-kNN选择计算以下统计量：

即，Cj记录标签为yj的x的邻居数。

令Hj为x具有标签yj的事件，且P（Hj | Cj）表示在x具有正好具有标签yj的Cj邻居的条件下Hj所保持的后验概率。相应地，代表Hj没有相应条件的后验概率。根据Map规律，通过判断P（Hj | Cj）是否大于来判断预测标签集合。

基于贝叶斯，则有：

这里，代表Hj满足或者不满足后验概率。并且，代表Hj条件下x具有标间yj的cj的概率。As shown in Eqs.(22) and (23), it suffices to estimate the prior probabilities as well as likelihoods for making predictions.

ML-kNN通过频率计数策略完成上述任务。首先，通过计算与每个标签关联的数量训练样例来估计先验概率：

这里，s是一个平滑参数，控制均匀先验对估计的影响。一般情况下，s取值1导致拉普拉斯平滑。

其次，可能性的估计过程有些涉及。对于第j类标签yj，ML-kNN保持两个频率阵列κj和，每个包含k + 1个元素:

这里，记录了具有标签yj的邻域数。因此，κj[r]计算具有标签yj且具有正好具有标签yj的r个邻居的训练样本的数目，计算没有标签yj且没有具有正好具有标签yj的r个邻居的训练样本的数目。之后，基于κj和〜κj可以估计可能性：

之后，通过将等式（24）（先验概率）和等式（26）（似然度）代入等式（23），公式（22）中的预测标签集自然地遵循。

备注：这是一阶方法。ML-kNN具有继承lazy learning和Bayesian的优点:(a)对于每个未曾出现过的实例，决策边界可以根据不同的邻域自适应调整。(b)由于为每个类别标签估计的先验概率，类别不平衡问题可以大大减轻。还有其他一些方法可以利用惰性学习来处理多标签数据，例如将kNN与排名聚合相结合，以标签特定的风格识别kNN，将kNN扩展到覆盖整个训练集。考虑到ML-kNN不知道利用标签相关性，已经提出了几个扩展来沿着这个方向向ML-kNN提供补丁.ML-KNN训练计算复杂度：测试复杂度为：

3.3.2 Multi-label Decision TREE

该算法的基本思想是采用决策树技术处理多标签数据，其中利用基于多标签熵的信息增益准则递归地构建决策树

给定任意n个样本的多标签数据集，通过沿分割值ϑ处的第l个特征划分T获得的信息增益为：

也就是说，第l个特征值小于（大于）ϑ的例子组成。

从根节点（）开始，ML-DT定义特征和相应的分割值最大化公式27的信息增益，产生两个子节点代表和。递归调用和作为新的根节点知道碰到终止条件（子节点的小于预先指定的阈值）。

为了实例化ML-DT，计算多标签熵的机制。一个简单的解决方案是将每个子集Y⊆Y看作一个新类，然后求助于传统的单标签熵：

然而，随着新类的数量相对于|Y|呈指数增长，其中很多甚至可能不会出现在T中，因此仅具有微不足道的估计概率（即P（Y）=0）。为了避免这个问题，ML-DT假定标签之间是独立的，并以可分解的方式计算多标签熵：

这里，Pj代表样本T具有标签Yj的分数。请注意，在标签独立性假设下，方程（29）可以看作方程（28）的简化版本，它认为：

对于看不见的实例x，通过遍历路径将其馈送到学习决策树，直到到达与多个训练实例T⊆D有关的叶节点。然后，相应的预测标签集为：、

换句话说，如果对于一个叶节点落入其中的大多数训练样例具有标签yj，则在同一叶节点内分配的任何测试实例都将把yj视为其相关标签。

备注：ML-DT的伪代码总结在图8中。它是一种假定标签无关性的一阶方法，用于计算多标签熵。ML-DT的一个突出优点在于其从多标签数据中诱导决策树模型的高效率。多标签决策树可能的改进包括采用修剪策略或集合学习技术。ML-DT训练时的计算复杂度为测试时的复杂度为。

3.3.3 Ranking Support Vector Machine (Rank-SVM)

该算法的基本思想是适应最大边缘策略来处理多标签数据，其中一组线性分类器被优化以最小化经验排序损失并且能够利用核技巧处理非线性情况。让学习系统由q个线性分类器组成，和是第j个标签yj的权重向量和偏执向量。相应地，Rank-SVM通过考虑其在示例的相关和不相关标签上的排序能力来定义（xi，Yi）上的学习系统的边际：

这里，<u,v>反馈内积通常说，对于每个相关标签对，他们的辨别边界与超平面相对应。因此，，考虑xi和每个相关不相关标签对的超平面的有符号的L2距离，返回（xi,Yi）的最小余量。在整个训练集D这个学习系统的最小余量通常计算为：

学习系统会对每个训练集的相关不相关标签对进行适当排序反馈正余量。在这种理想的情况下，我们可以重新调整线性分类器以确保：

（a）

(b)

此后，方程（32）中边际最大化的问题可以表示为:

假设，我们有足够的训练样本，使得对于每个标签对存在满足因此，等式（33）中的目标等价于，优化目标就可以重写为：

为了克服最大算子带来的困难，Rank-SVM通过用和算子近似最大算子来选择简化式（34）：

为了解决公式35不能满足现实场景的约束，可以在公式35中加入松弛变量：

这里，是松弛变量集。方程（36）中的目标由两个部分组成，这两个部分由折衷参数C平衡。具体而言，第一部分对应于学习系统的边际，而第二部分对应于以铰链形式实现的学习系统的替代排序损失。请注意，代理排名损失可以通过其他方式实现，例如神经网络全局误差函数的指数形式。

注意公式（36）是一个标准的二次规划（QP）问题，带有凸目标和线性约束，可以用任何现成的QP求解器来解决。此外，为了赋予Rank-SVM非线性分类能力，一种常用的方法是通过内核技巧以其双重形式求解式（36）。关于双重制定的更多细节可以在下面找到

如2.1.3节所述，Rank-SVM采用堆叠式过程来设置阈值函数t(.)。ie.并且对于未曾出现过的实例，相应的预测标签集为：

这是一个二阶方法，它为相关不相关的标签对定义超平面上的边界。 Rank-SVM受益于内核来处理非线性分类问题，并且可以实现进一步的变体。首先，如[37]所示，公式（36）中考虑的经验排序损失可以用其他损失结构如汉明损失来代替，其可以作为结构化输出分类的一般形式。其次，阈值策略可以用堆叠过程以外的其他技术来完成。第三，为了避免内核选择问题，可以采用多核学习技术来从多标签数据中学习。用代表用QP solver解决有a个变量和b个约束公式36的复杂度，Rank-SVM训练时的计算复杂度为：，测试时复杂度为：

3.3.4 collective multi-label classifier

该算法的基本思想是适应最大熵原理来处理多标签数据，其中标签之间的相关性被编码为分布必须满足的约束条件。

对于多标签样本(x,y),设（x,y）为使用二元标签向量相应的随机变量表示，这里第j个

分量指示Y是否包含第J个标签（(yj = +1)or not (yj = −1)）。统计上讲，多标签学习的任务相当于学习联合概率分布p（x，y）。

设代表（x,y）的分布p(.,.)给出的信息熵。最大熵原理假定对当前知识状态进行最佳建模的分布是使得Hp（x，y）最大化的分布，该集合满足给定事实K：

一般来说，事实表达为对（x，y）上某个函数的期望的约束，比如。这里，代表p(.,.)的期望而Fk对应于从训练集估计的预期值e.g.

连同对p（·，·）（即Ep [1] = 1）的归一化约束，方程（38）的约束优化问题可以用标准拉格朗日乘子技术来执行。因此，最佳解决方案被证明属于吉布斯分布族:

这里，是待确定的参数集合，是用作归一化因子的分区函数：

通过假设高斯先验（即λk〜N（0，ε2）），可以通过最大化以下对数 - 后验概率函数来找到：

请注意，方程（40）是一个关于的凸函数，其全局最大值（尽管不是闭合形式）可以通过任何现成的无约束优化方法找到，例如BFGS。一般来说，大多数数值方法都需要l（| D）的梯度：

对于CML，其约束由两部分组成具体而言，，指定总数为d·q的约束。另外，指定一个的一个总数。实际上，K中的约束可以用产生CML变体的其他方式来指定

对于未出现过的实例x，相应的标签集为：

请注意，arg max的精确推理只适用于小标签空间。否则，需要应用修剪策略来显着减少argmax的搜索空间，例如，只考虑训练集中出现的标签集。

备注：

这是一种二阶方法，通过K2中的约束考虑每个标签对之间的相关性。由CML研究的二阶相关比Rank-SVM更一般，因为后者仅考虑相关不相关的标签对。作为条件随机场（CRF）模型，CML有兴趣使用等式（39）中的条件概率分布p（y | x）进行分类。有趣的是，可以用各种方式分解，比如，其中的每一项由分类器链中的分类器建模或者。其中产品中的每个项可以用节点yj和其父项paj在有向图中建模，并且当有向图对应于具有有限拓扑的多维贝叶斯网络时存在有效算法。定向图还可用于模拟多故障诊断，其中yj表示设备组件之一的良好/故障情况。如图10所示，设FUNC（a，m）表示无约束优化方法的时间复杂度，用方程（40）求解方程，CML训练时计算复杂度为测试复杂度为

qq_36822881

关注

8
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Multi-Label Learning 笔记一A Review on Multi-Label Learning Algorithms

1、定义定义为d维的实体空间，为q个可能标签的标签空间。multi-label learning就是从multi-label training set中学习函数。对于每个multi-label example 是一个d维的特征向量，就是与相关的一组标签。对于没有出现过的实体，多标签分类器为x预测出一组合适的标签。2、主要挑战 1、随着标签的增加，输出空间成指数性增长（20...
复制链接

扫一扫