PR曲线和ROC曲线理解

PR曲线和ROC曲线是数据挖掘中2个常见的评估指标(对于二分器而言),理解如下:

一、pr曲线:

1)y轴为precision,x轴为recall。

2)pr曲线上各个取值为当前p下,样本判断结果:大于p的为正样本,反之为负样本。

3)pr曲线从左到右的取值点,为p值降序下的锚点。

4)随着p值降低,越多样本判为正样本,recall不断增大,而precision则计算大于p的那些样本的precision(给定一些样本,模型预测的有多准),理论上precision不断降低,最小值为全量样本中正样本占比。

5)可知,pr曲线容易受到样本分布(训练样本中的正负样本比值)影响。

 

二、ROC/AUC

1)y轴是正样本的正判概率(对全量样本而言,正样本的召回率),x轴是负样本的误判概率(对于全量样本而言,负样本的判错率)。

2)同pr曲线,x轴和y轴的取值都是依据降序的p值计算而来。

3)随着p值不断降低,正样本召回率不断增大,而负样本的错判率也是不断增大,最后相交于(1,1)处。

4)ROC曲线计算过程中,不涉及到正负样本的比值(样本分布)的影响,只受到正样本集合或者负样本集合的影响。

5)物理含义:随机给出一个正样本和一个负样本,正样本预测概率大于负样本预测概率的程度。

 

总结:

1、pr曲线因为涉及到精确率precision计算,容易受到样本分布的影响。而roc曲线本质上是正样本或者负样本召回率计算,不收样本分布的影响。

2、区分精确率、准确率的区别:精确率是对于预测为正样本的那些样本而言,准确率是对于全量样本的预测结果(预测为正样本或者预测为负样本)而言。

 

更多学习笔记可以关注我的微信公众号「kelly学挖掘」,欢迎交流。

-- over --

 

 

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值