通常情况下,我们直接使用分类结果的错误率就可以做为该分类器的评判标准了,但是当在分类器训练时正例数目和反例数目不相等时,这种评价标准就会出现问题(比如我们有1000个正例,10个负例,此时预测中500个正例被预测正确,10个负例也被预测为正例,那么准确率为500/510,非常高,但是召回率只有500/1000=50%,非常低。)。这种现象也称为非均衡分类问题。此时有以下几个衡量标准。
下面首先通过一副图来说明TP,FP,FN和TN的概念:
从图中可以看出形象的解释就是TP为预测为1而真实情况也为1的样本数量,FP为预测为1而真实情况为0的样本数量,FN为预测为0而真实情况为1的样本数量,TN为预测为0而真实情况为0的样本数量。
(1) 正确率<precise>和召回率<Recall>
如下图所示:其中准确率指预测的真实正例占所有预测为正例的比例,等于TP/(TP+FP),而召回率指预测的真实正例占所有真实正例的比例,等于TP/(TP+FN),在检索系统中称为查全率。通常我们可以很容易的构照一个高正确率或高召回率的分类器,但是很难同时保证两者成立。如