p-r曲线和roc曲线

1.混淆矩阵

在这里插入图片描述

这是一个二分类问题的混淆矩阵,横纵坐标分别为预测和实际分类类别。二分类问题的混淆矩阵有四个可能的预测结果分别为真正例(TP)/假正例(FP)/假反例(FN)/真反例(TN)。

2.P-R曲线

首先引入两个概念R-查全率(召回率)和P-查准率(准确率)
P = TP / (TP+FP)
R = TP / (TP+FN)
查准率即是指所有预测为真的样本中实际为真的比例,查全率即是指实际为真的样本中有多少被预测为真。
我们希望模型拥有很高的P时R也很高,但如果两个模型一个P高一个R高,此时如何来判别两个模型的预测结果的好坏呢,这就是P-R曲线的作用。
将模型按预测为真的概率从小到大排列,选取不同的划分点,划分点左边为负例,右边为正例。每一个划分点都得到一组P/R。将每组PR值放到P-R坐标系就可以拟合出一条P-R曲线。
在这里插入图片描述
如图,P-R曲线包围的面积越大,则模型越好。当面积差不多时,P = R的点(平衡点)值越大则模型越好

3.ROC曲线

引入概念TPR(真正例率)和FPR(假正例率)
TPR = TP / (TP+FN)
FPR = FP / (TN+FP)
TPR即实际为真的样本中预测为真的比例,FPR即实际为假的样本中预测为真的比例
同P-R曲线一样,将TPR和FPR绘制到坐标系得到ROC曲线,如图
在这里插入图片描述
ROC曲线的线下面积即AUC,AUC越大模型越好
参考书:《机器学习》——周志华

The use of the area under the ROC curve in the evaluation of machine learning algorithms. https://www.sciencedirect.com/science/article/abs/pii/S0031320396001422

statistical comparisons of classifiers over multiple data sets. https://dl.acm.org/doi/10.5555/1248547.1248548

a simple generalisation of the area under the roc curve for multiple class classification problems. https://link.springer.com/article/10.1023/A:1010920819831

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值