python 计算曲线面积_利用Python中的numpy包实现PR曲线和ROC曲线的计算！

最新推荐文章于 2023-10-23 21:44:42 发布

weixin_39559015

最新推荐文章于 2023-10-23 21:44:42 发布

阅读量1.9k

点赞数

文章标签： python 计算曲线面积

本文通过实例详细讲解如何使用Python的numpy库计算并绘制PR曲线和ROC曲线，帮助理解这两种评估分类器性能的指标。通过随机生成数据模拟分类结果，进而计算和展示曲线，加深对精确度（Precision）、召回率（Recall）和真正例率（TPR）、假正例率（FPR）的理解。

摘要由CSDN通过智能技术生成

闲来无事，边理解PR曲线和ROC曲线，边写了一下计算两个指标的代码。在python环境下，sklearn里有现成的函数计算ROC曲线坐标点，这里为了深入理解这两个指标，写代码的时候只用到numpy包。事实证明，实践是检验真理的唯一标准，在手写代码的过程中，才能真正体会到这两个评判标准的一些小细节，代码记录如下。
一、模拟一个预测结果
因为两个曲线都是用来判断一个分类器分类性能的，所以这里直接用随机数生成一组类别和对应的置信度。类别有0、1两个类别。置信度从0到1随机生成。
data_len = 50 label = np.random.randint(0, 2, size=data_len) score = np.random.choice(np.arange(0.1, 1, 0.01), data_len) 复制代码
生成结果如下：其中第一行代表真实的类别，第二行代表分类器判断目标是类别1的置信度。
label 1 0 1 0 0 1 1 …… score 0.22 0.31 0.92 0.34 0.37 0.18 0.51 …… 因为我们的置信度是随机生成的，所以得到的结果等同于一个二分类器“瞎猜”的结果。
二、PR曲线
不管是PR曲线还是ROC曲线，首先要选定一个类别，然后针对这个类别具体计算。
该曲线的横坐标是召回率（R），纵坐标是精确度（P），故命名为PR曲线。举一个简单的例子来说明P和R的定义：假设一个二分类器需要预测100个样本，这些样本中有80个类别1，20个类别0。当把置信度取某一个值S时，假设此时分类器认为有60个样本是类别1，在预测的这60个人样本中，有50个样本预测正确，其余10个样本预测错误。那么

最低0.47元/天解锁文章

weixin_39559015

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫