ROC和AUC的原理及AUC计算方法

本文介绍了ROC曲线和AUC在非均衡分类问题中的应用。ROC曲线通过假阳率(FPR)和真阳率(TPR)展示了分类器性能,AUC作为评价标准,值越大表示分类器效果越好。ROC曲线不受类不平衡影响,是评估分类器性能的有力工具。
摘要由CSDN通过智能技术生成

1.非均衡分类问题

      在大多数情况下不同类别的分类代价并不相等,即将样本分类为正例或反例的代价是不能相提并论的。例如在垃圾邮件过滤中,我们希望重要的邮件永远不要被误判为垃圾邮件,还有在癌症检测中,宁愿误判也不漏判。在这种情况下,仅仅使用分类错误率来度量是不充分的,这样的度量错误掩盖了样例如何被错分的事实。所以,在分类中,当某个类别的重要性高于其他类别时,可以使用Precison和Recall多个比分类错误率更好的新指标。

Precison(查准率):预测为正例的样本中真正正例的比例。

Recall(召回率):真正为正例的样本有多少被预测出来。

      可见,我们可以根据我们最终的目标来选择度量指标。例如,在癌症检测中,我们希望选择Recall较高的模型(有病为正例)。而在垃圾邮件过滤中,我们希望选择Precison较高的模型。但是我们很容易构造一个高查准率或高召回率的分类器,但是很难保证两者同时成立。构建一个同时使两者很大的分类器是具有挑战性的。

      ROC就是一个用于度量分类中的非均衡性的工具


2.ROC曲线

ROC(Receiver Operating Characteristic)曲线和AUC(area under the curve)常被用来评价一个二值分类器(binary classifier)的优劣。

下面简单介绍ROC和AUC的特点,以及更为深入地讨论如何作出ROC曲线图以及计算AUC。

需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及我们今天要讨论的ROC和AUC。

ROC可以用来比较不同分类器的相关性能,下图是一个ROC曲线的示例。

其中,ROC曲线的横坐标为false positive rate(FPR 假阳率),纵坐标为true positive rate(TPR 真阳率)。

FPR:所有负例中有多少被预测为正例; TPR:有多少真正的正例被预测出来;

ROC 描绘了两者的相对权衡:

benefits(true postives)
costs(false positives)

下图中详细说明了FPR和TPR是如何定义的:

下图帮助理解概率分布:

F-measure: precison和recall的调和平均值。没有一个单个的度量可以告诉所有的信息,所以建议使用多个度量。

      接下来我们考虑ROC曲线图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值