PR曲线、ROC、AUC

查准率, 查全率的基本定义

预测结果与真实类别的组合:

 

真实情况

预测

正例

结果

反例

正例

TP(true positive)

FN(false negative)

反例

FP(false positive)

TN(true negative)

查准率 P= TP/(TP + FP)

查全率 R= TP/(TP + FN)

查准率与查全率是一对矛盾的度量,即查全率要高的话TP就要尽可能的多,一定的预测准确率下相应的FP就也会增加,因此查准率就会下降。同样的查准率要是高的话,根据公式FP就得小一些, 而根据FP+FN=反例(定数),FN就大一些,因此查全率就小一些。

PR曲线的绘制:

首先根据学习器的预测结果是正例的可能性的由大到小对样例进行排序,之后再按顺序逐个把样本作为正例进行预测,则每次就可以计算出当前的查全率与查准率,并以查全率为横坐标,查准率为纵坐标作图,这样就可以得到PR曲线。

用途:可以直观地显示出学习器再样本总体上的性能,若一个学习器的PR曲线可以完全包住另一个学习率的PR曲线,那么可以断言前者的性能由于后者。但如果PR曲线出现了交叉,则可以比较PR曲线下的面积,但是面积只不太好估算。故一般用平衡点(Break-Even Point 简称BEP),或者F1, Fβ 衡量学习器的性能。

BEP:即“查准率 == 查全率”

BEP大的性能好一些。

F1 :基于查准率和查全率的调和平均(harmonic mean)

如公式所示:F1 对查准率和查全率的重视程度一样。但有时对查全率和查准率有不同的要求,如在查找罪犯时要求查准全高一些,但在用户推荐为减少对用户的打扰提高用户体验那就应该重视查准率,因此引出F1的一般式Fβ。

Fβ :则是查全率和查准率的加权调和平均

如公式所示:β度量了对查全率和查准率的不同重视程度;即β>1更加重视查全率,β<1更加重视查准率。

ROC(Receiver Operating Characteristic)曲线:研究学习器的泛化性能

ROC曲线的绘制:首先根据学习器的预测结果对所有样例进行排序,按此顺序诸葛把样本作为正例进行预测,每次计算出TPR(true positive rate)和FPR(false positive rate)分别作为纵、横坐标,进行绘图就可以得到“ROC曲线”。

应用:若一个学习器的ROC曲线可以完全包住另一个学习率的曲线,那么前者的性能要好于后者;若有交叉则根据ROC曲线下的面积即AUC(Area Under ROC Curve)。

ROC曲线其实描述的是随分类阈值的变化,分类器效果的变化。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值