ROC曲线-阈值评价标准

原创 2012年03月16日 08:42:32

 ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。


ROC曲线的例子

  考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。


  列联表如下表所示,1代表正类,0代表负类。
  
  预测 
  10合计
实际1True Positive(TP)False Negative(FN)Actual Positive(TP+FN)
 0False Positive(FP)True Negative(TN)Actual Negative(FP+TN)
合计 Predicted Positive(TP+FP)Predicted Negative(FN+TN)TP+FP+FN+TN

从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TPFN),刻画的是分类器所识别出的 正实例占所有正实例的比例。另外一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR=TN/ (FPTN) = 1-FPR


其中,两列True matches和True non-match分别代表应该匹配上和不应该匹配上的

两行Pred matches和Pred non-match分别代表预测匹配上和预测匹配上的


FPR = FP/(FP + TN) 负样本中的错判率(假警报率)

TPR = TP/(TP + FN) 判对样本中的正样本率(命中率)

ACC = (TP + TN) / (P+N) 判对准确率


  在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如说 0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正例占所有正例 的比类,即TPR,但同时也将更多的负实例当作了正实例,即提高了FPR。为了形象化这一变化,在此引入ROC,ROC曲线可以用于评价一个分类器


ROC曲线和它相关的比率

(a)理想情况下,TPR应该接近1,FPR应该接近0。

ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold下会有一个TPR和FPR

比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)

(b)随着阈值theta增加,TP和FP都减小,TPR和FPR也减小,ROC点向左下移动;


  Receiver Operating Characteristic,翻译为"接受者操作特性曲线",够拗口的。曲线由两个变量1-specificity 和 Sensitivity绘制. 1-specificity=FPR,即假正类率。Sensitivity即是真正类率,TPR(True positive rate),反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。

       此外,ROC曲线还可以用来计算“均值平均精度”(mean average precision),这是当你通过改变阈值来选择最好的结果时所得到的平均精度(PPV).

  下表是一个逻辑回归得到的结果。将得到的实数值按大到小划分成10个个数 相同的部分。
  
Percentile实例数正例数1-特异度(%)敏感度(%)
10618048792.7334.64
20618028049.8054.55
306180216518.2269.92
406180150628.0180.62
50618098738.9087.62
60618052950.7491.38
70618036562.9393.97
80618029475.2696.06
90618029787.5998.17
1006177258100.00100.00
其正例数为此部分里实际的正类数。也就是说,将逻辑回归得到的结 果按从大到小排列,倘若以前10%的数值作为阀值,即将前10%的实例都划归为正类,6180个。其中,正确的个数为4879个,占所有正类的 4879/14084*100%=34.64%,即敏感度;另外,有6180-4879=1301个负实例被错划为正类,占所有负类的1301 /47713*100%=2.73%,即1-特异度。以这两组值分别作为x值和y值,在excel中作散点图。

AUC(Area Under roc Curve )计算及其与ROC的关系

让我们从头说起,首先AUC是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度;在信息检索(IR)领域中常用的...
  • chjjunking
  • chjjunking
  • 2010年10月11日 12:30
  • 45845

机器学习中的PR曲线和ROC曲线

主要是我对周志华《机器学习》第二章模型估计与选择中一些内容的总结
  • mingtian715
  • mingtian715
  • 2016年12月06日 16:03
  • 5653

ROC曲线详解

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性...
  • Uncle_Lin
  • Uncle_Lin
  • 2016年08月01日 10:00
  • 1476

机器学习之分类器性能指标之ROC曲线、AUC值

机器学习之分类器性能指标之ROC曲线、AUC值 http://www.cnblogs.com/dlml/p/4403482.html 分类器性能指标之ROC曲线、AUC值 一 r...
  • zdy0_2004
  • zdy0_2004
  • 2015年04月08日 23:01
  • 36475

ROC曲线

ROC的概念不太容易理解,尝试用更加通俗的方式来解读这个问题和中间涉及到指标.混淆矩阵.(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP),不如诸葛亮, 人才,被识别...
  • imduan
  • imduan
  • 2016年02月19日 09:41
  • 919

大白话讲解ROC曲线

前言:本文用大白话和最简单的案例来解释ROC曲线及部分应用,如有任何问题或错误欢迎各位留言~~ 一、随机选取用户营销的解释(随机线) 横轴:营销用户数(假设有1000万用户数手机号) 纵轴:有响应的...
  • l18930738887
  • l18930738887
  • 2015年06月29日 14:07
  • 5959

深度探讨机器学习中的ROC和PR曲线

引言\quad 在 21 Must-Know Data Science Interview Questions and Answers 的文章中,有这类似这样的问题,它问的是Explain what ...
  • taoyanqi8932
  • taoyanqi8932
  • 2017年01月13日 16:46
  • 8034

ROC曲线的解释(很形象)

几个概念 场景 AdaBoost的基本分类器的线性组合 f(x)=∑m=1MαmGm(x) 最终的分类器 G(x)=sign(f(x)...
  • u010159842
  • u010159842
  • 2015年11月01日 21:52
  • 2946

ROC曲线实例分析

1 ROC分析相关 ROC(Receiver Operating Characteristic,受试者工作特征曲线)的概念来自信号检测原理中 最初只是为了区分噪声和非噪声 对于二分类问题具有很好...
  • FreeApe
  • FreeApe
  • 2016年08月02日 03:11
  • 4366

ROC曲线

ROC曲线(Receiver Operating Characteeristic Curve)是显示Classification模型真正率和假正率之间折中的一种图形化方法。 解读ROC图的一些概念定义...
  • chl033
  • chl033
  • 2009年09月01日 15:18
  • 18068
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:ROC曲线-阈值评价标准
举报原因:
原因补充:

(最多只允许输入30个字)