理解AUC-ROC

Zewen PAN

已于 2022-03-30 22:07:48 修改

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：深度学习人工智能决策树 auc

于 2022-03-30 22:02:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39591031/article/details/123858091

版权

机器学习专栏收录该内容

11 篇文章

订阅专栏

文章目录

前言
1. 混淆矩阵
2. TPR, FPR
3. ROC
4. AUC
参考链接

前言

整理了一下资料，辅助理解一下这个模型评测指标。参考链接见文末。

1. 混淆矩阵

请添加图片描述
对于一个二分类任务（假定为1表示正类， 0表示负类），对于一个样本，分类的结果总共有四种：

类别实际为1，被分为0，FN（False Negative）
类别实际为1，被分为1，TP（True Positive）
类别实际为0，被分为1，FP（False Positive）
类别实际为0，被分为0，TN（True Negative）

把这些文字画成图表，给它起个名——混淆矩阵。

2. TPR, FPR

请添加图片描述

FPR（False Positive Rate）= FP /（FP + TN），即负类数据被分为正类的比例

TPR（True Positive Rate）= TP /（TP + FN），即正类数据被分为正类的比例

3. ROC

ROC曲线是如何得到的
对于样本数据，我们使用分类器对其进行分类，分类器会给出每个数据为正例的概率。

但是概率是个连续值，我们要转化为二分类结果。对此可以设定一个阈值，当某个sample被判断为正例的概率大于这个阈值时，认为该sample为正例，小于则为负例。

然后通过计算我们就可以得到一个(TPR , FPR)数值对，对应图像上的一个点。通过不断调整阈值，就得到若干个点，从而画出一条曲线。

理解ROC图像
可以看出，当阈值越大时，越多的样本被分为负例，而这些样本中其实也有正例的存在。所以：

TPR下降（正例数据被分为负例了）
FPR下降（负类数据更不会被分为正例，但是影响要比TPR小，所以斜率呈上升趋势）。

阈值越小时，越多的样本被分为正例，而这些样本中可能包含是正例，却被分为负例的样本以及是负例却被分为正例的样本，所以：

TPR上升（更多的正例样本被分为正例）
FPR上升（更多的负例样本被分为正例，影响更大，所以斜率呈下降趋势）。

4. AUC

定义
AUC，（Area Under Curve），被定义为ROC曲线下的面积

AUC取值范围
显然这个面积小于1，又因为ROC曲线一般都处于y=x这条直线的上方，所以AUC一般在0.5到1之间。

使用AUC的原因
使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

AUC含义
AUC的含义为，当随机挑选一个正样本和一个负样本，根据当前的分类器计算得到的score将这个正样本排在负样本前面的概率。

如何根据AUC的值断分类器（预测模型）优劣

AUC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

参考链接

https://zhuanlan.zhihu.com/p/100059009
https://zhuanlan.zhihu.com/p/58587448
https://blog.csdn.net/xys430381_1/article/details/88198167
https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5
https://blog.csdn.net/fengdu78/article/details/105002719

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。