模型评估标准AUC（area under the curve）、Precision、Recall、PRC、F1-score

最新推荐文章于 2024-08-24 13:40:24 发布

wxwhuvy

最新推荐文章于 2024-08-24 13:40:24 发布

阅读量5.7k

点赞数 2

分类专栏：数据处理

本文链接：https://blog.csdn.net/qq_31965863/article/details/102542019

版权

数据处理专栏收录该内容

3 篇文章 1 订阅

订阅专栏

AUC值

AUC（area under the curve）由分类输出/结果得到的一个值，衡量分类效果。根据字面意思是曲线下面积，是一个范围在0和1之间的值，曲线下面积AUC是指ROC曲线下面积。AUC直观地反映了ROC曲线表达的分类能力（AUC ＝ 1，代表完美分类器，0.5 < AUC < 1，优于随机分类器，0 < AUC < 0.5，差于随机分类器）。

ROC曲线

ROC是为了形象的衡量分类器的鲁棒性（无论选取多大的阈值，分类都能尽可能地正确），改变阈值绘制ROC曲线（FPR为横轴，TPR为纵轴）。

阈值是介于（0-1）之间的一个数，常取0.5（阈值的理解：对于一个班级的成绩，有考10,20,50,60,70,80,90,100等。如果将及格线定在60分，及格率可能为90%。如果将及格线定在70分，及格率可能为80%。如果将及格线定在90分，及格率可能为50%。即给定不同的分数线得到不同的及格率）。

我们知道阈值不同，分类的结果会受到影响。如果使用AUC评估模型，则考虑了阈值的变动，所以评估的效果更好。

FPR和TPR

假阳性率（False Positive Rate），负样本预测为正样本的可能性，越小越好；FPR=FP/（FP+TN）。真阳性率（True Positive Rate），正样本预测为正样本的可能性，越高越好；TPR=TP/（TP+FN）。有关实际值和预测值表格（混淆矩阵）如下：

True positive(TP)，称为真阳率，表明实际是正样本预测成正样本的样本数
False negative(FN)，称为假阴率，表明实际是正样本预测成负样本的样本数
False positive(FP)，称为假阳率，表明实际是负样本预测成正样本的样本数
True negative(TN)，称为真阴率，表明实际是负样本预测成负样本的样本数

AUC细节

给出两个样本，分类器得到的负例样本概率和正例样本概率，分类器的性能好可以表述为正样本越接近1同时负样本越接近0越好，或者负样本越接近1同时正样本越接近0越好。

1 调节阈值

图中左上角就是ROC曲线（蓝色），其中横轴就是前面说的FPR(False Positive Rate)，纵轴就是TPR(True Positive Rate)。

当阈值为0.8和0.5时，对应下面图箭头所指的点。这样，不同的阈值对应不同的点。最后所有的点就可以连在一起形成一条曲线，就是ROC曲线。

2 重叠区域

当蓝色区域与红色区域基本重叠时，ROC曲线就和接近y=x这条线了。

3 AUC表示的是正例排在负例前面的概率。

第一个坐标系的AUC值表示，所有的正例都排在负例的前面。第二个AUC值，表示有百分之八十的正例排在负例的前面。

我们知道阈值不同，分类的结果会受到影响。如果使用AUC评估模型，则考虑了阈值的变动，所以评估的效果更好。

4 ROC曲线有一个很好的特性

当测试集中的正负样本分布发生变化了，ROC曲线可以保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。当增加负样本的数量时，ROC曲线基本没有变化。

在上图中，(a)和(c)为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，(c)和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。

参考文献

https://blog.csdn.net/liweibin1994/article/details/79462554

https://blog.csdn.net/mingyuli/article/details/81184674

Precision、Recall、PRC、F1-score

Precision指标在中文里可以称为查准率或者是精确率，Recall指标在中卫里常被称为查全率或者是召回率，查准率 P和查全率 R分别定义为：

（1）P=TP/(TP+FP) 查准率(Precision）是指在所有系统判定的“真”的样本中，确实是真的的占比

（2）R=TP/(TP+TN) 查全率（Recall）是指在所有确实为真的样本中，被判为的“真”的占比

Accuracy = (TP+TN)/(TP+FP+FN+TN)=正确的预测/总的正反例

查准率和查全率是一对矛盾的度量，比如：我们如果希望好瓜尽可能多地选出来，则可以通过增加选瓜的数量来实现，如果将所有瓜都选上了，那么所有好瓜也必然被选上，但是这样查准率就会越低。

再说PRC，其全称就是Precision Recall Curve，它以查准率为Y轴，、查全率为X轴做的图。它是综合评价整体结果的评估指标。所以，哪总类型（正或者负）样本多，权重就大。也就是通常说的『对样本不均衡敏感』。引入“平衡点”(BEP)来度量，他表示“查准率=查全率”时的取值，值越大表明分类器性能越好，以此比较我们一下子就能判断A较B好。