Multi-Label Informed Feature Selection
大多数现有的多标签特征选择算法:1)解决多个单标签特征选择问题,2)直接使用不完善的标签,无法找到由多个标签共享的特征。论文提出了多标签信息特征选择框架MIFS,利用标签的相关性来选择多个标签的共享特征。为了减少不好的标签信息在发现标签相关性方面的负面影响,将多标签信息分解为一个低维空间(首先对标签进行降维),然后利用减少的空间引导特征选择过程。
一、相关知识
1.1 多标签分类
多分类任务指的是一条数据只有一个标签,但是标签有多种类别。机器学习中比较经典的iris鸢尾花数据集就是标准的多分类任务,一条数据喂给模型,模型需判断它是3个类别中的哪一个。
多标签分类任务指的是一条数据可能有一个或者多个标签,举个例子:比如一个病人的体检报告,它可能被标记上,高血压,高血糖等多个标签。
多标签分类任务的两个特点:类别数量不确定,有些样本可能只有一个标签,有些样本可能存在多个标签;标签之间可能存在相互依赖关系,如一个人患有高血压,他有心血管疾病的概率也会变大,所以高血压这个label和心血管疾病的那些labels是存在一些依赖关系。
Multi-Label和传统的分类问题的区别主要在于多Label下,输出空间呈现指数级增长。目前对于Multi-Label的这类特性,学界一般是集中在更好的分析Label之间的相关性来避免这种指数增长。主要的Strategy大致可以分为三类:
First-Order Strategy:考虑label之间相互独立,就可以把Multi-label问题转换为普通的分类问题。如果一个Label有多类的话,那么就用传统的One vs All来解决。
Second-Order Strategy:考虑Label之间的两两相关性,结果会导致计算复杂度有显著的增加。
High-Order Strategy:考虑多Label之间的相关性,计算复杂度会更高。
对于Multi-Label Learning算法的评定指标一般有五个,分别为:
Hamming Loss(汉明损失):该指标衡量预测所得标签与样本实际标签之间的不一致程度,即样本的预测标签集与世纪标签集之间的差距。这个值越小越好。
One-error(1-错误率):该指标表示样本预测的隶属度最高的标签不属于其实际标签集的可能性。这个值越小越好。
Coverage(覆盖率):该指标表示在预测标签集的排序队列中,从隶属度最高的类别开始向下,平均需要跨越多少标签才能覆盖其实际标签集的所有标签。这个值越小越好。
Ranking Loss(排序损失):该指标表明了样本预测标签集中,预测正确的标签的隶属度低于预测错误的标签的隶属度的可能性。这个值越小越好。
Average Precision(平均准确度):该指标表示预测标签集