我们常常在一些论文后看到作者给出的一些评估度量,不仅仅是简单的正确率,还有Fscore、recall等看似高深的东西。那么这些东西是怎么来、怎么用的呢?
我们要从不平衡类问题讲起。因为在正、负样本不均衡的类中,如果单一使用准确率可能是很不合理的。比如有10个异常类(一般标为正类),90个正常类(负类),那么我们关心的是异常类能不能都被正确分出来,这样才能达到我们的目标效果(就是检测异常)。如果我们训练的分类器把所有类都输出为负类,分类器的准确率也有90%,但对我们的目标而言没什么软用,所以稀有类的正确分类更重要。我们需要为这种不平衡问题设计合理的评估度量。
我们汇总分类模型正确和不正确预测的实例数目的混淆矩阵:
其中术语:
混淆矩阵中的计数可以表示为百分比形式。
真正