多标签学习问题转换策略简述

多标签学习关注于处理一个实例可拥有多个相关标签的问题,其输出空间随标签数量指数增长。关键挑战在于标签相关性的利用,包括一阶、二阶和高阶策略。多目标学习通过问题转换方法,如分类链和随机k-标签集,来应对这一问题。这些算法尝试利用标签间的关系以提高预测准确性和泛化性能。
摘要由CSDN通过智能技术生成

与传统的机器学习的目的是学习一个函数F,由F(X)->Y,X中每个x对应一个y的模式不同的是,多标签学习的目标域Y具有多个y对应一个x。可表达为H(X)->2^Y

多标签学习的关键挑战

1 从多标签数据学习的一个关键挑战在于输出矩阵空间的巨大规模,即标签集的数量随着类标签数量的增加呈指数增长。例如,对于具有20个类标签的标签空间,可能的标签集数量将超过100万(即2的20次方)

为了应对指数大小输出空间的挑战,必须通过利用标签之间的相关性(或相关性)来促进学习过程。例如,如果我们知道一幅图像有“雨林”和“足球”的标签,那幺它被标注“巴西”标签的概率就会很高;如果一份文件涉及政治,就不太可能被贴上娱乐的标签。因此,有效利用标签相关性信息被认为是多标签学习技术成功的关键。根据学习技术考虑的相关性顺序,现有的标记相关性利用的策略可以大致分为三类:

一阶策略:以逐个标签的方式处理多标签学习任务,忽略与其他标签的关系,例如将多标签学习问题分解为多个独立的分类问题。一阶策略的突出优点在于其概念简单和高效。

二阶策略:通过考虑标签对之间的关系,两两一组的来解决多标签学习的任务,如将相关标签和不相关标签之间进行排序,或在任何标签对间进行交互等。由于标签相关性在某种程度上被二阶策略利用,所得方法可以实现良好的泛化性能。然而,在某些实际应用中,标签相关性并不遵守二阶策略的先验假设,即标签间关系并不总是两两相关的。

高阶策略:通过考虑标签之间的高阶关系来解决多标签学习的任务,例如将所有其他标签的影响施加到每个标签,或寻址标签的随机子集之间的连接等。显然,高阶策略比一阶和二阶策略具有更强的相关性建模能力。

多目标学习算法

1 问题转换方法:这类算法通过将多标签学习问题转换为其他成熟的学习场景来解决该问题。

1.1 分类链

该算法的基本思想是将多标签学习问题转化为一个二元分类问题链,链中后续的二元分类器建立在前一个二元分类器的预测基础上构建训练集D{(X,PRE(X)|O(Yr,Y)}

PRE(X)=concat(PRE(xi-1),O(yr,yi-1))

这里X为输入特征向量,PRE(X)为链表,表中数据为上一个x中的PRE(x),Yr为与X对应的标签集,Y为预测得到的标签,O(Yr,y)为判别函数当Y为Yr子集时输出1,否则为0。

1.2 随机k -标签集

该算法的基本思想是将多标签学习问题转化为多类分类问题的集成,集成中的每个组件学习器以Y的一个随机子集为目标,通过label Powerset (LP)技术构建一个多类分类器。LP是一种将多标签学习问题转化为多类(单标签)分类问题的简单方法。

在训练阶段,LP首先将原来的多标签训练集D转换为子多类训练集,将D中出现的每一个不同的标签集都作为一个新类处理:D{(X,Q(Y))},这里Q为子类映射函数

对于测试集中的不可见实例x,LP通过先查询多分类器的预测,再映射回Y的幂集来预测其关联的标签集Y,即Y=Q(g(x))

 遗憾的是,LP在实际可行性上有两个主要的局限性:a)不完备性:LP局限于预测训练集中出现的标签集,即不能推广到训练集以外的标签集;b)低效率:当Y很大时,可能会有太多新映射的类导致训练的复杂性过高,另外同时也会有一些新映射类的训练示例极少。

为了保持LP的简单性,同时克服它的两个主要缺点,Random k-Labelsets选择结合集成学习,其关键策略是仅在随机k-标签集(Y中的size-k子集)上调用LP以保证计算效率,然后集成多个LP分类器以实现预测完备性。

### 回答1: 机器学习的一对其余拆分策略(One-versus-the-rest, OVR) 是一种常见的分类策略,其中将每个类别分别与其他类别进行划分。举个例子,假设有一个分类器需要预测三个类别 A、B 和 C,那么 OVR 策略就会训练三个分类器,分别用于将 A 类别与 B 和 C 类别区分开来,将 B 类别与 A 和 C 类别区分开来,以及将 C 类别与 A 和 B 类别区分开来。 最后,在进行预测时,会使用三个分类器的结果,选择结果最为确定的那一个作为最终的预测结果。这种方法的一个优点是,它可以使用二元分类器来解决多元分类问题,这在某些情况下可能会比使用多元分类器更加方便。 ### 回答2: 机器学习的一对其余拆分策略是交叉验证(Cross-validation)方法和留出法(Holdout)。这两种策略旨在评估训练模型的性能和泛化能力。 交叉验证方法将原始数据集划分为K个大小相等的子集,其中K-1个子集用于训练模型,而余下的一个子集用于验证模型的性能。这个过程将会重复K次,每次轮流选择一个子集作为验证集,其他子集作为训练集。最终,将K次验证的结果进行平均以评估模型的性能。交叉验证方法可以避免次验证的偶然性,有效地评估模型的稳定性和泛化能力。 留出法是将原始数据集划分为训练集和验证集两部分。一般而言,训练集占总数据集的大部分,而验证集则是保留一小部分数据用于评估模型的性能。模型在训练集上进行训练,然后在验证集上进行测试评估。留出法可以提供一个直观的评估结果,但其性能评估结果可能会受到数据集划分的偶然性的影响。 这两种策略在机器学习中都是常用的拆分策略,用于评估模型的性能和泛化能力。选择合适的策略取决于数据集的大小、数据分布和特定的机器学习任务。 ### 回答3: 机器学习的一对其余拆分策略是交叉验证(Cross-Validation)和训练集-测试集拆分(Train-Test Split)。 交叉验证是一种通过重复划分数据集并评估模型性能的方法。它将数据集分为k个大小相等的折(folds),然后每次选择其中k-1折作为训练集,剩下的1折作为验证集。通过多次拆分和训练,可以综合考虑不同的训练和验证集组合,得到可靠的模型性能评估结果。交叉验证可以帮助解决数据集较小或不均衡的问题,降低模型性能估计的方差,并提供更多的训练和验证信息。 训练集-测试集拆分是将数据集随机分为两部分:训练集和测试集。通常,大部分数据用于训练模型,较小的一部分用于测试模型性能。通过将测试集保留到最后,可以更好地评估模型的泛化能力,即对未知数据的预测性能。训练集-测试集拆分相对简且易于理解,适用于较大的数据集和简的模型。但是,由于拆分是随机的,结果可能会受到初始选择的影响,这可能导致模型性能的方差较大。 总的来说,交叉验证提供了更稳定和可靠的模型性能评估,特别适用于小数据集和模型选择。训练集-测试集拆分则可以直接评估模型的泛化能力,适用于较大的数据集和简的模型。根据具体情况和需求,选择适当的拆分策略有助于更准确有效地评价机器学习模型的性能。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值