理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

最新推荐文章于 2024-08-08 18:06:21 发布

Catherine-HFUT

最新推荐文章于 2024-08-08 18:06:21 发布

阅读量1.3k

点赞数 1

分类专栏：动手学深度学习文章标签：机器学习 python 深度学习算法自然语言处理

原文链接：https://www.6aiq.com/article/1549986548173

版权

动手学深度学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

下面是真正率和假正率的示意，我们发现 TPR 和 FPR 分别是基于实际表现 1 和 0 出发的，也就是说它们分别在实际的正样本和负样本中来观察相关概率问题。 **正因为如此，所以无论样本是否平衡，都不会被影响。**还是拿之前的例子，总样本中，90% 是正样本，10% 是负样本。我们知道用准确率是有水分的，但是用 TPR 和 FPR 不一样。这里，TPR 只关注 90% 正样本中有多少是被真正覆盖的，而与那 10% 毫无关系，同理，FPR 只关注 10% 负样本中有多少是被错误覆盖的，也与那 90% 毫无关系，所以可以看出：如果我们从实际表现的各个结果角度出发，就可以避免样本不平衡的问题了，这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因。
在这里插入图片描述

1. ROC（接受者操作特征曲线）

ROC（Receiver Operating Characteristic）曲线，又称接受者操作特征曲线。该曲线最早应用于雷达信号检测领域，用于区分信号与噪声。后来人们将其用于评价模型的预测能力，ROC 曲线是基于混淆矩阵得出的。
在这里插入图片描述

TPR 越高，同时 FPR 越低（即 ROC 曲线越陡），那么模型的性能就越好。ROC 曲线无视样本不平衡无论红蓝色样本比例如何改变，ROC 曲线都没有影响。
3. AUC（曲线下的面积）

2.AUC曲线下面积（Area Under Curve）

为了计算 ROC 曲线上的点，我们可以使用不同的分类阈值多次评估逻辑回归模型，但这样做效率非常低。幸运的是，有一种基于排序的高效算法可以为我们提供此类信息，这种算法称为曲线下面积（Area Under Curve）。

比较有意思的是，如果我们连接对角线，它的面积正好是 0.5。对角线的实际含义是：随机判断响应与不响应，正负样本覆盖率应该都是 50%，表示随机效果。 ROC 曲线越陡越好，所以理想值就是 1，一个正方形，而最差的随机判断都有 0.5，所以一般 AUC 的值是介于 0.5 到 1 之间的。

AUC 的一般判断标准

0.5 - 0.7：效果较低，但用于预测股票已经很不错了

0.7 - 0.85：效果一般

0.85 - 0.95：效果很好

0.95 - 1：效果非常好，但一般不太可能

3.ROC/AUC 的 Python 实现

from sklearn import metrics
from sklearn.metrics import auc 
import numpy as np
y = np.array([1, 1, 2, 2])  
scores = np.array([0.1, 0.4, 0.35, 0.8])  
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)
metrics.auc(fpr, tpr) 

0.75

POC&AUC参考博文

Catherine-HFUT

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

这里写目录标题1. ROC（接受者操作特征曲线）2.AUC曲线下面积（Area Under Curve）3.ROC/AUC 的 Python 实现P,R,F1值的介绍真正率（TPR） = 灵敏度 = TP/(TP+FN)假正率（FPR） = 1- 特异度 = FP/(FP+TN)下面是真正率和假正率的示意，我们发现 TPR 和 FPR 分别是基于实际表现 1 和 0 出发的，也就是说它们分别在实际的正样本和负样本中来观察相关概率问题。 **正因为如此，所以无论样本是否平衡，都不会被影响。**还是拿之
复制链接

扫一扫

专栏目录