P-R曲线 RPC曲线

最新推荐文章于 2023-10-23 21:20:55 发布

白给菜鸟

最新推荐文章于 2023-10-23 21:20:55 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/Yang_137476932/article/details/105243299

版权

参考：

https://blog.csdn.net/zhanht/article/details/88669537

https://zhuanlan.zhihu.com/p/104917232

1.样本正反例基本概念

TP: True Positive 指正确分类成为正的样本数，实际为正，预测为正
FP: False Positive 指错误分类为正的样本数，实际为负，预测为正
FN: False Negative 指错误分类为负的样本数，实际为正，预测为负
TN: True Negative 指正确分类为负的样本数，实际为负，预测为负

TP+FP+TN+FN 样本总数 TP + FN 实际正样本数 FP+TN 实际负样本数

TP+FP 预测为正的样本数，包括预测正确的预测错误的

TN+FN 预测为负的样本数，包括预测正确的预测错误的

2.准确率和召回率

P: Precision 准确率 P= $\frac{TP}{TP+FP}$ 预测结果为正时真正为正的比率
R: Recall 召回率 R= $\frac{TP}{TP+FN}$ 预测结果中正例占真实正例的比率

准确率表示的是，预测为正例的样本中，有多少比例是预测对的。

召回率表示的是，真实为正例的样本中，有多少比例被预测对了。

3.P-R曲线

在PR曲线中，以Recall（召回率）为x轴，Precision为y轴。选定不同阈值，从而得到不同的x轴和y轴的值，画出曲线。

将样本按照按照预测为正例的概率值从大到小进行排序，从第一个开始，逐个将当前样本点的预测值设置为阈值，有了阈值之后，即可得出混淆矩阵各项的数值，然后计算出P和R，以R为横坐标，P为纵坐标，绘制于图中，即可得出P-R曲线，示意图如下。图参考水印。

模型好坏评价指标：1.看右上角越高越包住其他的线越好2.平衡点，越右上越好3.线下包围面积4.F1值

F1是P和R的调和平均值，更关注PR中较小的值。

4.真正率和假正率

TPR: True Positive Rate TPR= $\frac{TP}{TP+FN}$
FPR: False Positive Rate FPR= $\frac{FP}{FP+TN}$

TPR表示的是，正例的样本被正确预测为正例的比例。

FPR表示的是，反例的样本中被错误预测为正例的比例。

5.ROC曲线、AUC面积

类似的，将样本排好序后，从第一个开始，逐渐的将其和其之前的点预测为正例，其他的预测为反例，这样就能计算出TPR和FPR，以FPR为横坐标，TPR为纵坐标，即可绘制出ROC（Receiver Operating Characteristic）曲线，示意图如下。ROC曲线下面覆盖的面积称为AUC（Area Under ROC Curve）。用于评估模型的好坏，面积的计算可以通过梯形去插值计算，公式和示意图如下：

模型好坏评价指标：1.看左上角越高越包住其他的线越好2.AUC 越大越好面积越大，表示分类性能越好。

6.具体实例画P-R图和TPR-FPR图

某分类器的预测效果如下：

True表示实际样本属性，Hyp表示预测结果样本属性，第4列即是Score，Hyp的结果通常是设定一个阈值，比如上表Hyp(0.5)和Hyp(0.6)就是阈值为0.5和0.6时的结果，Score>阈值为正样本，小于阈值为负样本，这样只能算出一个ROC值，

当阈值为0.5时，TPR=6/(6+0)=1，FPR=FP/(FP+TN)=2/(2+2)=0.5,得到ROC的一个坐标为（0.5,1）；Recall=TPR=1，Precision=6/(6+2)=0.75，得到一个PR曲线坐标(1,0.75)。同理得到不同阈下的坐标，即可绘制出曲线

7.P-R曲线和ROC曲线的联系

定理1：对于一个给定的包含正负样本的数据集，ROC空间和PR空间存在一一对应的关系，也就是说，如果recall不等于0，二者包含完全一致的混淆矩阵。我们可以将ROC曲线转化为PR曲线，反之亦然。

定理2：对于一个给定数目的正负样本数据集，一条曲线在ROC空间中比另一条曲线有优势，当且仅当第一条曲线在PR空间中也比第二条曲线有优势。（这里的“一条曲线比其他曲线有优势”是指其他曲线的所有部分与这条曲线重合或在这条曲线之下。

观察公式可知，TPR=Recall 即P-R图的横坐标与TPR-FPR图的纵坐标是对应的。

8.P-R曲线和ROC曲线的区别与选择

当正负样本差距不大的情况下，ROC和PR的趋势是差不多的，但是当负样本很多的时候，两者就截然不同了，ROC效果依然看似很好，但是PR上反映效果一般。解释起来也简单，假设就1个正例，100个负例，那么基本上TPR可能一直维持在100左右，然后突然降到0.如图，(a)(b)分别为正负样本1:1时的ROC曲线和PR曲线，二者比较接近。而(c)(d)的正负样本比例为1:1，这时ROC曲线效果依然很好，但是PR曲线则表现的比较差。这就说明PR曲线在正负样本比例悬殊较大时更能反映分类的性能。

一般情况下，模型评估选择P-R或者ROC没啥区别，但是当正样本的个数严重少于负样本个数时，P-R曲线相比较于ROC曲线能够更加直观的表现模型之间的差异，更加合适。

白给菜鸟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
P-R曲线 RPC曲线

参考：https://blog.csdn.net/zhanht/article/details/88669537https://zhuanlan.zhihu.com/p/1049172321.样本正反例基本概念TP: True Positive指正确分类成为正的样本数，实际为正，预测为正FP: False Positive指错误分类为正的样本数，实际为负，预测为正FN: F...
复制链接

扫一扫