python 计算曲线面积_利用Python中的numpy包实现PR曲线和ROC曲线的计算!

本文通过实例详细讲解如何使用Python的numpy库计算并绘制PR曲线和ROC曲线,帮助理解这两种评估分类器性能的指标。通过随机生成数据模拟分类结果,进而计算和展示曲线,加深对精确度(Precision)、召回率(Recall)和真正例率(TPR)、假正例率(FPR)的理解。
摘要由CSDN通过智能技术生成

闲来无事,边理解PR曲线和ROC曲线,边写了一下计算两个指标的代码。在python环境下,sklearn里有现成的函数计算ROC曲线坐标点,这里为了深入理解这两个指标,写代码的时候只用到numpy包。事实证明,实践是检验真理的唯一标准,在手写代码的过程中,才能真正体会到这两个评判标准的一些小细节,代码记录如下。
一、模拟一个预测结果
因为两个曲线都是用来判断一个分类器分类性能的,所以这里直接用随机数生成一组类别和对应的置信度。类别有0、1两个类别。置信度从0到1随机生成。
data_len = 50 label = np.random.randint(0, 2, size=data_len) score = np.random.choice(np.arange(0.1, 1, 0.01), data_len) 复制代码
生成结果如下:其中第一行代表真实的类别,第二行代表分类器判断目标是类别1的置信度。
label 1 0 1 0 0 1 1 …… score 0.22 0.31 0.92 0.34 0.37 0.18 0.51 …… 因为我们的置信度是随机生成的,所以得到的结果等同于一个二分类器“瞎猜”的结果。
二、PR曲线
不管是PR曲线还是ROC曲线,首先要选定一个类别,然后针对这个类别具体计算。
该曲线的横坐标是召回率(R),纵坐标是精确度(P),故命名为PR曲线。 举一个简单的例子来说明P和R的定义:假设一个二分类器需要预测100个样本,这些样本中有80个类别1,20个类别0。当把置信度取某一个值S时,假设此时分类器认为有60个样本是类别1,在预测的这60个人样本中,有50个样本预测正确,其余10个样本预测错误。那么

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值