AUC计算的两种实现方式以及python代码

最新推荐文章于 2023-12-11 00:06:44 发布

weixin_43264415

最新推荐文章于 2023-12-11 00:06:44 发布

阅读量1.3w

点赞数 13

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43264415/article/details/99072092

版权

AUC计算方法

1.通过ROC曲线面积计算AUC

AUC（Area Under Curve）被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

要绘制ROC曲线，首先需要知道混淆矩阵。

	P	N
P’	TP	FP
N’	FN	TN

其中P,N代表实际值为正例和反例，P’和N’代表预测为正例和反例。所以TP、FP、TN、FN的实际意义为：
TP：预测为正例实际为正例的样本个数
FP：预测为正例实际为反例的样本个数
FN：预测为反例实际为正例的样本个数
TN：预测为反例实际为反例的样本个数
归纳起来就是P,N代表你预测的结果为正例还是反例，T,F代表你的预测结果是否正确。举个例子FN就是你预测为反例，但是你预测错了，等价于预测为反例实际为正例。

ROC曲线横坐标为假正率（FPR），纵坐标为真正率（TPR）。其中TPR = TP / P = TP / (TP + FN); FPR = FP / N = FP / (TN + FP)。
绘制ROC曲线的过程就是对于预测结果取不同的分类阈值，大于等于阈值预测为正例，小于阈值预测为负例，这样就可以得到不同的TPR和FPR值，从而画出ROC曲线，此时ROC曲线为阶梯状的，求AUC就是求每一个梯形的面积之和。为了更好的理解，举下面这个简单的例子：

实际值	1	0	1	0
预测概率	0.8	0.6	0.3	0.2

1.初始阈值设为1+最大概率（此处为0.8）即为1.8，将所有样本预测为负例。
初始阈值为1+最大概率的做法参考sklearn源码：https://github.com/scikit-learn/scikit-learn/blob/1495f6924/sklearn/metrics/ranking.py#L537 中的解释：
thresholds[0] represents no instances being predicted and is arbitrarily set to max(y_score) + 1.
TP = 0，FP = 0， FN = 2， TN = 2；TPR = 0， FPR = 0；因此坐标点为（0, 0）
2.将阈值设为0.8，此时第一个样本为正例，其余为负例。
TP = 1，FP = 0， FN = 1， TN = 2；TPR = 0.5， FPR = 0；因此坐标点（0, 0.5）
3.将阈值设为0.6，此时第一，二个样本为正例，其余为负例。
TP = 1，FP = 1， FN = 1， TN = 1； TPR = 0.5， FPR = 0.5；因此坐标点为（0.5, 0.5）
…
依次类推，剩余坐标点为（0.5, 1）和（1, 1）；
最后结果如图所示：
在这里插入图片描述
AUC计算公式为：
$\sum_{i=1}^{m-1} 0.5*(x_{i+1}-x_{i})*(y_{i+1}+y_{i})$

最低0.47元/天解锁文章

weixin_43264415

关注

13
点赞
踩
51

收藏

觉得还不错? 一键收藏
0
评论
AUC计算的两种实现方式以及python代码

AUC计算方法1.通过ROC曲线面积计算AUCAUC（Area Under Curve）被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。要绘制ROC曲线，首先需要知道混淆矩阵。PNP’TPFPN’FNTN其中P,N代表实际...
复制链接

扫一扫