摘要:在存在类别不平衡的情况下分析学习算法的性能是一项艰巨的任务。 对于某些广泛使用的度量(例如准确性),显然大类的预测性能占据了主导。 为了减轻这个问题,选择合适的评价方法至关重要。 本章介绍了一些性能度量,可用于在存在类不平衡的情况下评估分类性能,重点介绍它们的优缺点。 为了呈现此内容,本章安排如下:
3.1设置评估指标的背景
3.2给出了针对清晰,名义预测的性能指标
3.3节讨论了为分类器评分的方法
3.4讨论概率评估
3.5结束本章。
3.1 Introduction
通常通过分析学习算法在测试数据上的表现来评估学习算法的质量[18]。 为此,将学习到的分类器的预测与真实的测试数据类别(出于评估目的而从模型中隐藏出来)进行比较,并计算出一些性能指标。 根据分类器提供的信息量或我们如何解释它们,我们有以下三种可能的情况:
1.类别预测:将预测的类别标签与实际的真实类别值进行比较以评估模型;
2.数值评分预测:根据与某类有关的可能性,考虑与预测相关的一些数值评分,以对测试样本进行评分。
3.概率预测:将与预测关联的数值输出解释为属于该类的样本的概率。
某些度量与某些分类器本质上相关。例如,KNN分类器仅进行名义预测(测试集与训练集中最近的样本的类别)。标准SVM的预测是 新样本到超平面的距离相关的评分函数;朴素贝叶斯[21]的预测是实例的后验概率
但是,可以使用某些后处理技术将一个比例转换为另一比例。例如,可以使用到KNN [13]的距离作为分类器中的分数。使用对距离进行0-1标准化将SVM输出转换为概率;或使用ar