多标签分类算法的研究进展

1. 机器学习中的分类问题

    在机器学习方向的相关研究中,分类问题可以被分为二分类问题、多分类问题及多标签分类问题。二分类问题即二元分类问题,其中某个样本只有“属于”或 “不属于”这一类两种情况;也可以称之为“0/1”分类,属于这一类即为“1”, 不属于即为“0”。

    多分类问题也可称为多类别分类问题,即一个样本属于且仅属于多个类(一般多于两类)中的一个,其中一个样本只能属于一个类,不同类之间是互斥的。二分类问题及多分类问题可以统称为单标签分类问题。

    多标签分类问题又称多标记学习,不同于多分类问题,在多标签分类问题中一个样本可以属于多个类别(或标签),不同类(或标签)之间是有关联的。拿一个“篮球颜色”的问题举例,二分类问题即为“篮球 A 是红色/不是红色”,多分类问题即为“篮球 A 是红色、橙色或者黄色”,多标签分类问题即为“篮球 A 是‘红 色+橙色’,篮球 B 是‘红色+黄色’,篮球 C 是‘红色+橙色+黄色’”。 上述三种分类问题的描述可以更清楚地通过图 1-1 展示。

在这里插入图片描述

2. 多标签分类算法的研究进展

    算法适应、问题转换和多标签分类器集成的方法(Ensembles of Multi-label Classifier, EMLC)是多标签分类模型(Multi-label Classification, MLC)的三种主要类型。

    算法适应方法利用多种算法将单标签学习模型转化为多标签学习模型,从而 用于解决多标签学习任务。算法适应方法的典型模型是多标签 k 近邻算法(Multilabel k-Nearest Neighbor, ML-kNN)。对于一个给定的新样本,ML-kNN 算法首 先在训练集中找到最接近它的前 k 个样本并计算这些样本中的标签数量,最后通过最大后验估计得到标签的预测概率。

    问题转换方法将多标签学习问题转化为多个单标签学习任务。问题转换方法 的代表性方法有:二元关联(Binary Relevance, BR)、分类器链(Classifier Chain, CC)及标签幂集(Label Powerset, LP)。

    二元关联方法将一个多标签问题转化为多个二元分类任务,分别为每个标签 建立一个决策树,也称二元关联方法。二元关联方法对一个新样本进行分类时, 算法取它输出所有树正预测的标签的并集进行预测。这种技术有几个缺点。首先, 它要求算法学习的树的数量等于标签的数量,但这些标签数量在某些领域可能是 几百或几千的一个数量级。其次,很明显的是,该方法在建模过程中没有利用标 签相关性这一信息。第三,从知识发现的角度来看,这种方法得到的结果树仅识 别与一个标签相关的特性,而不是识别出具有高整体相关性的特性。

    然后,一些研究认为应该在分类过程中考虑标签的相关性,即从二元关联方法转向了更复杂的方法。基于二元关联方法提出的分类器链算法的主要思想是将之前所有分类器的 0/1 标签关联添加到一组训练实例中,这样分类后的标签信息就可以传递到接下来的分类器中。在该方法中,链分类器中的标签顺序对预测精度非常重要,这对预测结果有很大的影响,这也是该方法的局限性之一。

    标签幂集是一种传统的问题转换方法,它在标签集合每个可能的子集上构建 模型。换句话说,标签幂集方法对标签的联合分布进行建模,并为每个子集创建一个子树,它将多标签训练集中的每个标签子集视为单标签多类别分类任务的 新类别,预测将是这些子集中的一个。虽然这种方法简单而有效,但是当标签的 数量增加时,它可能会在一个叶子上出现很少的实例。此外,随着标签数量的增 加,标签组合的指数数量增长是这种方法的一个潜在问题,对于标签集合中有许 多标签的数据集,标签幂集方法往往会导致过拟合问题。

    为了改进 LP 方法造成的过拟合问题,Tsoumakas 等人将标签空间划分为子 空间,并在这些子空间中应用 LP 方法。随机 k 标签集多标签分类方法(Random k-Labelsets for Multilabel Classification, RAkEL)就是根据这一原理设计的,它将标签集分割成 k 个互不重叠的子集。但是 RAkEL 方法的一个明显缺点就是其子集 k 的划分是任意选择的,没有包含标签相关性,而这些相关性往往可以从训练数据中获得。

    基于网络的标签空间划分方法(Network-based Label Space Division, NLSD)是一个建立在 LP 基础上的改良的多标签分类器集成方法,它通过社区检测方法 将标签集划分为 n 个小型标签集,这些小型的标签集(簇)在空间中可能重合。 该方法可以将标签的相关结构合并到训练集中,从而学习到 k个有代表性的 LP 分类器。因此,NLSD 方法处理的子集数量比 LP 方法少得多,同时 NLSD 方法以数据驱动的方式选择了 k 个有代表性的子集,是一种多标签分类器的集成方法。关 于多标签学习的更详细的解释,参见张敏灵等人及 Moyano 等人的研究。

本篇文章引自:基于网络的标签空间划分方法预测CYP450 酶-底物选择性
由于文章在服务器上,详细内容见:http://bbit.vip/service/main.php?version=1&type=article&id=148

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值