One-Error多标签分类_论文阅读11——多标签特征选择

最新推荐文章于 2023-10-12 16:15:12 发布

weixin_39854369

最新推荐文章于 2023-10-12 16:15:12 发布

阅读量1.3k

点赞数 1

文章标签： One-Error多标签分类两个特征是独立好还是正相关好

论文提出了一种名为MIFS的多标签信息特征选择框架，利用标签相关性来指导特征选择，通过低维空间降噪，找到相关标签的共享特征。该方法在多标签分类任务上表现优越，尤其是在处理标签噪声和不完整性时。实验结果显示，MIFS相比其他特征选择方法，如F-score、RFS和CSFS，能获取更好的性能，特别是在宏观平均和微观平均F度量上。

摘要由CSDN通过智能技术生成

Multi-Label Informed Feature Selection

大多数现有的多标签特征选择算法：1）解决多个单标签特征选择问题，2）直接使用不完善的标签，无法找到由多个标签共享的特征。论文提出了多标签信息特征选择框架MIFS，利用标签的相关性来选择多个标签的共享特征。为了减少不好的标签信息在发现标签相关性方面的负面影响，将多标签信息分解为一个低维空间（首先对标签进行降维），然后利用减少的空间引导特征选择过程。

一、相关知识

1.1 多标签分类

多分类任务指的是一条数据只有一个标签，但是标签有多种类别。机器学习中比较经典的iris鸢尾花数据集就是标准的多分类任务，一条数据喂给模型，模型需判断它是3个类别中的哪一个。

多标签分类任务指的是一条数据可能有一个或者多个标签，举个例子：比如一个病人的体检报告，它可能被标记上，高血压，高血糖等多个标签。

多标签分类任务的两个特点：类别数量不确定，有些样本可能只有一个标签，有些样本可能存在多个标签；标签之间可能存在相互依赖关系，如一个人患有高血压，他有心血管疾病的概率也会变大，所以高血压这个label和心血管疾病的那些labels是存在一些依赖关系。

Multi-Label和传统的分类问题的区别主要在于多Label下，输出空间呈现指数级增长。目前对于Multi-Label的这类特性，学界一般是集中在更好的分析Label之间的相关性来避免这种指数增长。主要的Strategy大致可以分为三类：

First-Order Strategy：考虑label之间相互独立，就可以把Multi-label问题转换为普通的分类问题。如果一个Label有多类的话，那么就用传统的One vs All来解决。

Second-Order Strategy：考虑Label之间的两两相关性，结果会导致计算复杂度有显著的增加。

High-Order Strategy：考虑多Label之间的相关性，计算复杂度会更高。

对于Multi-Label Learning算法的评定指标一般有五个，分别为：

Hamming Loss(汉明损失)：该指标衡量预测所得标签与样本实际标签之间的不一致程度，即样本的预测标签集与世纪标签集之间的差距。这个值越小越好。

One-error(1-错误率)：该指标表示样本预测的隶属度最高的标签不属于其实际标签集的可能性。这个值越小越好。

Coverage(覆盖率)：该指标表示在预测标签集的排序队列中，从隶属度最高的类别开始向下，平均需要跨越多少标签才能覆盖其实际标签集的所有标签。这个值越小越好。

Ranking Loss(排序损失)：该指标表明了样本预测标签集中，预测正确的标签的隶属度低于预测错误的标签的隶属度的可能性。这个值越小越好。

Average Precision(平均准确度)：该指标表示预测标签集

最低0.47元/天解锁文章

weixin_39854369

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。