混淆矩阵与AUROC

骑着乌云看雪

已于 2023-02-11 15:51:21 修改

阅读量1k

点赞数

分类专栏：想看花书文章标签：人工智能深度学习

于 2023-02-09 22:19:28 首次发布

原文链接：https://blog.csdn.net/pearl8899/article/details/109829306

版权

想看花书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

1.auc的计算原理
2. sklearn.metrics.roc_curve()绘制ROC曲线

1.auc的计算原理

从常用评价指标文章中摘出来：

ROC（Receiver Operating Characteristic）曲线是以假正率（FPR）和真正率（TPR）为轴的曲线，ROC曲线下面的面积我们叫做AUC，auroc范围在0.5-1之间,如下图所示：

在这里插入图片描述

纵坐标为真阳性率（True Positive Rate, TPR）： TPR = TP / P，其中P是真实正样本的个数，TP是P个正样本中被分类器预测为正样本的个数。横坐标为假阳性率（False Positive Rate, FPR）： FPR = FP / N ，N是真实负样本的个数，FP是N个负样本中被分类器预测为正样本的个数。

（1）曲线与FP_rate轴围成的面积（记作AUC）越大，说明性能越好，即图上L2曲线对应的性能优于曲线L1对应的性能。即：曲线越靠近A点（左上方）性能越好，曲线越靠近B点（右下方）曲线性能越差。出色的模型的AUC接近1，这意味着它具有良好的可分离性度量,较差的模型的AUC接近于0，这意味着它的可分离性度量最差。

（2）A点是最完美的performance点，B处是性能最差点。

（3）位于C-D线上的点说明算法性能和random猜测是一样的–如C、D、E点。位于C-D之上（即曲线位于白色的三角形内）说明算法性能优于随机猜测–如G点，位于C-D之下（即曲线位于灰色的三角形内）说明算法性能差于随机猜测–如F点。

（4）虽然ROC曲线相比较于Precision和Recall等衡量指标更加合理，但是其在高不平衡数据条件下的的表现仍然过于理想，不能够很好的展示实际情况。

2. sklearn.metrics.roc_curve()绘制ROC曲线

在sklearn中，sklearn.metrics.roc_curve() 函数用于绘制ROC曲线。

主要参数：
y_true：真实的样本标签，默认为{0，1}或者{-1，1}。如果要设置为其它值，则 pos_label 参数要设置为特定值。例如要令样本标签为{1，2}，其中2表示正样本，则pos_label=2。
y_score：对每个样本的预测结果。
pos_label：正样本的标签。
返回值的计算
roc_curve() 函数有3个返回值：

fpr：False positive rate。
tpr：True positive rate。
thresholds
下面以 sklearn 中的例子说明如何计算 fpr 和tpr。

>>> import numpy as np
>>> from sklearn import metrics
>>> y = np.array([1, 1, 2, 2])
>>> scores = np.array([0.1, 0.4, 0.35, 0.8])
>>> fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)
>>> fpr
array([0, 0.5, 0.5, 1])
>>> tpr
array([0.5, 0.5, 1, 1])
>>> thresholds
array([0.8, 0.4, 0.35, 0.1])

在这里插入图片描述