AUC计算的两种实现方式以及python代码

AUC计算方法

1.通过ROC曲线面积计算AUC

AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

要绘制ROC曲线,首先需要知道混淆矩阵。

P N
P’ TP FP
N’ FN TN

其中P,N代表实际值为正例和反例,P’和N’代表预测为正例和反例。所以TP、FP、TN、FN的实际意义为:
TP:预测为正例实际为正例的样本个数
FP:预测为正例实际为反例的样本个数
FN:预测为反例实际为正例的样本个数
TN:预测为反例实际为反例的样本个数
归纳起来就是P,N代表你预测的结果为正例还是反例,T,F代表你的预测结果是否正确。举个例子FN就是你预测为反例,但是你预测错了,等价于预测为反例实际为正例。

ROC曲线横坐标为假正率(FPR),纵坐标为真正率(TPR)。其中TPR = TP / P = TP / (TP + FN); FPR = FP / N = FP / (TN + FP)。
绘制ROC曲线的过程就是对于预测结果取不同的分类阈值,大于等于阈值预测为正例,小于阈值预测为负例,这样就可以得到不同的TPR和FPR值,从而画出ROC曲线,此时ROC曲线为阶梯状的,求AUC就是求每一个梯形的面积之和。为了更好的理解,举下面这个简单的例子:

实际值 1 0 1 0
预测概率 0.8 0.6 0.3 0.2

1.初始阈值设为1+最大概率(此处为0.8)即为1.8,将所有样本预测为负例。
初始阈值为1+最大概率的做法参考sklearn源码:https://github.com/scikit-learn/scikit-learn/blob/1495f6924/sklearn/metrics/ranking.py#L537 中的解释:
thresholds[0] represents no instances being predicted and is arbitrarily set to max(y_score) + 1.
TP = 0,FP = 0, FN = 2, TN = 2;TPR = 0, FPR = 0;因此坐标点为(0, 0)
2.将阈值设为0.8,此时第一个样本为正例,其余为负例。
TP = 1,FP = 0, FN = 1, TN = 2;TPR = 0.5, FPR = 0; 因此坐标点(0, 0.5)
3.将阈值设为0.6,此时第一,二个样本为正例,其余为负例。
TP = 1,FP = 1, FN = 1, TN = 1; TPR = 0.5, FPR = 0.5; 因此坐标点为(0.5, 0.5)

依次类推,剩余坐标点为(0.5, 1)和(1, 1);
最后结果如图所示:
在这里插入图片描述
AUC计算公式为:
A U C = ∑ i = 1 m − 1 0.5 ∗ ( x i + 1 − x i ) ∗ ( y i + 1 + y i ) AUC= \sum_{i=1}^{m-1} 0.5*(x_{i+1}-x_{i})*(y_{i+1}+y_{i}) AUC=i=1

  • 13
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值