1.非均衡分类问题
在大多数情况下不同类别的分类代价并不相等,即将样本分类为正例或反例的代价是不能相提并论的。例如在垃圾邮件过滤中,我们希望重要的邮件永远不要被误判为垃圾邮件,还有在癌症检测中,宁愿误判也不漏判。在这种情况下,仅仅使用分类错误率来度量是不充分的,这样的度量错误掩盖了样例如何被错分的事实。所以,在分类中,当某个类别的重要性高于其他类别时,可以使用Precison和Recall多个比分类错误率更好的新指标。
Precison(查准率):预测为正例的样本中真正正例的比例。
Recall(召回率):真正为正例的样本有多少被预测出来。
可见,我们可以根据我们最终的目标来选择度量指标。例如,在癌症检测中,我们希望选择Recall较高的模型(有病为正例)。而在垃圾邮件过滤中,我们希望选择Precison较高的模型。但是我们很容易构造一个高查准率或高召回率的分类器,但是很难保证两者同时成立。构建一个同时使两者很大的分类器是具有挑战性的。
ROC就是一个用于度量分类中的非均衡性的工具
2.ROC曲线
ROC(Receiver Operating Characteristic)曲线和AUC(area under the curve)常被用来评价一个二值分类器(binary classifier)的优劣。
下面简单介绍ROC和AUC的特点,以及更为深入地讨论如何作出ROC曲线图以及计算AUC。
需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及我们今天要讨论的ROC和AUC。
ROC可以用来比较不同分类器的相关性能,下图是一个ROC曲线的示例。
其中,ROC曲线的横坐标为false positive rate(FPR 假阳率),纵坐标为true positive rate(TPR 真阳率)。
FPR:所有负例中有多少被预测为正例; TPR:有多少真正的正例被预测出来;
ROC 描绘了两者的相对权衡:
benefits(true postives)
costs(false positives)
下图中详细说明了FPR和TPR是如何定义的:
下图帮助理解概率分布:
F-measure: precison和recall的调和平均值。没有一个单个的度量可以告诉所有的信息,所以建议使用多个度量。
接下来我们考虑ROC曲线图