B、评估指标
1)简单的分类:传统监督学习的指标:准确度、F值、ROC曲线下面积(AUC)等,然而多标签学习中性能评估要比传统的单标签设置复杂得多。因此,提出一些针对多标签学习的评估指标,它们可分为两类:基于实例的指标、基于标签的指标。
基于实例的指标通过分别评估学习系统在每个测试实例上的性能来工作,然后返回整个测试集的平均值。而基于标签的指标通过分别评估学习系统在每个类标签上的性能,然后返回所有类标签的宏观/微观平均值来工作。
上图总结接下来介绍的主要多标签评估指标。
2)基于实例的指标:基于多标签分类器h(·),定义六个基于实例的分类指标
· 子集精度:
子集精度评估正确分类实例的比例,即预测的标签集与真实的标签集相同。该值越大越好。
· 汉明损失:
汉明损失评估错误分类的实例标签对的比例,即遗漏的相关标签或预测了不相关标签。该值越小越好。
· 准确率、精度、召回率、F:
· 1-错误率:
该指标表示样本预测的隶属度最高的标签不属于其实际标签集的可能性。这个值越小越好。
· 覆盖率:
该指标表示在预测标签集的排序队列中,从隶属度最高的类别开始向下,平均需要跨越多少标签才能覆盖其实际标签集的所有标签。该值越小越好
· 排序损失:
该指标表明了样本预测标签集中,预测正确的标签的隶属度低于预测错误的标签的隶属度的可能性。该值越小越好
· 平均准确度:
该指标表示排序高于特定标签的预测标签集的平均准确度。这个值越大越好。
3)基于标签的指标:对于第j类标签yj,可基于h(·)定义表示该标签上二元分类性能的四个基本量:
基于以上四个量,可以相应推导出大部分二元分类指标,则基于标签的分类指标可由以下方式获得:
· 宏观平均:
· 微观平均:
当中间实值函数f(·,·)可获得时,一个基于标签的排序指标,即宏观平均AUC,可推导出为:
对于上述基于标签的多标签指标,指标值越大,系统性能越好,最优值为1。
4)理论结果:鉴于公平和公正的评估,多标签学习算法的性能因此应该在广泛的指标上进行测试,而不是仅在被优化的指标上进行测试。
多标签指标通常是非凸和不连续的,因此在实践中,大多数学习算法都借助优化(凸)去代替多标签指标。最近,研究表明多标签学习的一致性,即随着训练集的大小增加,学习的分类器会收敛到贝叶斯损失。