什么是ROC曲线?如何绘制ROC曲线?如何计算AUC?ROC曲线相对P-R曲线有什么特点?

场景问题描述:

二值分类器(Binary Classifier)是机器学校领域中最常见也是应用最广泛的分类器。评价二值分类器的指标很多,比如precision,recall,F1 score P-R曲线等。但这些指标或多或少只能反映模型在某一方面的性能。相比而言,ROC曲线则有更多的优点,经常作为评估二值分类器最重要的指标之一。

 

什么是ROC曲线?

ROC曲线是Receeiver Operating charactistic curve的简称,中文名称为“受试者工作特征曲线”。

ROC曲线的横坐标为假阳性率FPR,纵坐标为真阳性率TPR。

FPR=FP/N      TPR=TP/P

   P是真实的正样本数量,N是真实的负样本数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。

例子:假如有10位疑似癌症患者,其3人很不幸确实是患了P=3,另外7人不是N=7 。医院对10位做出了诊断,针对3位癌症患者,其中2位确实是患者TP=2,。那么真阳性率TP/P=2/3。对于7位不是患者来说有一个误诊为那么FP=1,那么假阳性率是FP/N=1/7。对于该医院来说,这组分类结果就对应ROC曲线上一个点(1/7,2/3)。

 

 

如何绘制ROC曲线?

 

 

如何计算AUC?

AUC指的是ROC曲线的面积大小,该值能够量化地反应基于ROC曲线衡量出的模型性能。计算AUC 值只需要对曲线做积分既可。由于ROX一般都处于y=x这条直线的上方,所以AUC的取值一般在0.5-1之间。AUC越大说明分类效果越好。

ROC曲线相对P-R曲线有什么特点?

相对于P-R曲线,ROC曲线有一个特点,当正负样本的分布发生变化时,ROC曲线的形状能够基本保持不变,而P-R曲线的形状一般会发生激烈的变化。

 

若选择不同的测试集,P-R曲线变化非常大,而ROC曲线则能够更加稳定的反应出模型本身的好坏。所以ROC曲线适应场景更多,被广泛的应用于排序,推荐,广告等领域。如果研究者希望更多的看到模型在特定数据集上的表现,P-R曲线则能够更直观的反映其性能

 

 

展开阅读全文

没有更多推荐了,返回首页