P-R曲线 RPC曲线

参考:

https://blog.csdn.net/zhanht/article/details/88669537

https://zhuanlan.zhihu.com/p/104917232

1.样本正反例基本概念

TP: True Positive 指正确分类成为正的样本数,实际为正,预测为正
FP: False Positive 指错误分类为正的样本数,实际为负,预测为正
FN: False Negative 指错误分类为负的样本数,实际为正,预测为负
TN: True Negative 指正确分类为负的样本数,实际为负,预测为负

TP+FP+TN+FN 样本总数  TP + FN 实际正样本数  FP+TN 实际负样本数 

TP+FP 预测为正的样本数,包括预测正确的预测错误的

TN+FN 预测为负的样本数,包括预测正确的预测错误的

 

2.准确率和召回率

P: Precision 准确率  P=\frac{TP}{TP+FP}    预测结果为正时真正为正的比率
R: Recall   召回率  R=\frac{TP}{TP+FN}    预测结果中正例占真实正例的比率

准确率表示的是,预测为正例的样本中,有多少比例是预测对的。

召回率表示的是,真实为正例的样本中,有多少比例被预测对了。

 

3.P-R曲线

在PR曲线中,以Recall(召回率)为x轴,Precision为y轴。选定不同阈值,从而得到不同的x轴和y轴的值,画出曲线。

将样本按照按照预测为正例的概率值从大到小进行排序,从第一个开始,逐个将当前样本点的预测值设置为阈值,有了阈值之后,即可得出混淆矩阵各项的数值,然后计算出P和R,以R为横坐标,P为纵坐标,绘制于图中,即可得出P-R曲线,示意图如下。图参考水印。

模型好坏评价指标:1.看右上角 越高越包住其他的线越好2.平衡点,越右上越好3.线下包围面积4.F1值

    F1是P和R的调和平均值,更关注PR中较小的值。

4.真正率和假正率

TPR: True Positive Rate  TPR=\frac{TP}{TP+FN}
FPR: False Positive Rate FPR=\frac{FP}{FP+TN}

TPR表示的是,正例的样本被正确预测为正例的比例。

FPR表示的是,反例的样本中被错误预测为正例的比例。

 

5.ROC曲线、AUC面积

类似的,将样本排好序后,从第一个开始,逐渐的将其和其之前的点预测为正例,其他的预测为反例,这样就能计算出TPR和FPR,以FPR为横坐标,TPR为纵坐标,即可绘制出ROC(Receiver Operating Characteristic)曲线,示意图如下。ROC曲线下面覆盖的面积称为AUC(Area Under ROC Curve)。用于评估模型的好坏,面积的计算可以通过梯形去插值计算,公式和示意图如下:

模型好坏评价指标:1.看左上角 越高越包住其他的线越好2.AUC 越大越好面积越大,表示分类性能越好。

6.具体实例画P-R图和TPR-FPR图

某分类器的预测效果如下:

True表示实际样本属性,Hyp表示预测结果样本属性,第4列即是Score,Hyp的结果通常是设定一个阈值,比如上表Hyp(0.5)和Hyp(0.6)就是阈值为0.5和0.6时的结果,Score>阈值为正样本,小于阈值为负样本,这样只能算出一个ROC值,

当阈值为0.5时,TPR=6/(6+0)=1,FPR=FP/(FP+TN)=2/(2+2)=0.5,得到ROC的一个坐标为(0.5,1);Recall=TPR=1,Precision=6/(6+2)=0.75,得到一个PR曲线坐标(1,0.75)。同理得到不同阈下的坐标,即可绘制出曲线

7.P-R曲线和ROC曲线的联系

定理1:对于一个给定的包含正负样本的数据集,ROC空间和PR空间存在一一对应的关系,也就是说,如果recall不等于0,二者包含完全一致的混淆矩阵。我们可以将ROC曲线转化为PR曲线,反之亦然。

定理2:对于一个给定数目的正负样本数据集,一条曲线在ROC空间中比另一条曲线有优势,当且仅当第一条曲线在PR空间中也比第二条曲线有优势。(这里的“一条曲线比其他曲线有优势”是指其他曲线的所有部分与这条曲线重合或在这条曲线之下。

观察公式可知,TPR=Recall  即P-R图的横坐标与TPR-FPR图的纵坐标是对应的。

8.P-R曲线和ROC曲线的区别与选择

当正负样本差距不大的情况下,ROC和PR的趋势是差不多的,但是当负样本很多的时候,两者就截然不同了,ROC效果依然看似很好,但是PR上反映效果一般。解释起来也简单,假设就1个正例,100个负例,那么基本上TPR可能一直维持在100左右,然后突然降到0.如图,(a)(b)分别为正负样本1:1时的ROC曲线和PR曲线,二者比较接近。而(c)(d)的正负样本比例为1:1,这时ROC曲线效果依然很好,但是PR曲线则表现的比较差。这就说明PR曲线在正负样本比例悬殊较大时更能反映分类的性能。

一般情况下,模型评估选择P-R或者ROC没啥区别,但是当正样本的个数严重少于负样本个数时,P-R曲线相比较于ROC曲线能够更加直观的表现模型之间的差异,更加合适。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值