机器学习中常用的性能度量—— ROC 和 AUC

沉住气CD

于 2024-02-04 14:49:12 发布

阅读量1.1k

点赞数 25

分类专栏：机器学习常用算法文章标签：机器学习人工智能 python 数据挖掘

本文链接：https://blog.csdn.net/pydarren/article/details/136026002

版权

机器学习常用算法专栏收录该内容

11 篇文章 3 订阅

订阅专栏

什么是泛化能力？

通常我们用泛化能力来评判一个模型的好坏，通俗的说，泛化能力是指一个机器学期算法对新样本（即模型没有见过的样本）的举一反三的能力，也就是学以致用的能力。

举个例子，高三的学生在高考前大量的刷各种习题，像五年高考三年模拟、三年高考五年模拟之类的，目的就是为了在高考时拿到一个好的分数，高考的题目就是新题，一般谁也没做过，平时的刷题就是为了掌握试题的规律，能够举一反三、学以致用，这样面对新的题目也能从容应对。这种规律的掌握便是泛化能力，有的同学很聪明，考上名校，很大程度上是该同学的泛化能力好。

在机器学习中，对于分类和回归两类监督学习，分别有各自的评判标准，这里我们讨论常用于分类任务的性能度量标准——AUC 和 ROC。

几个重要概念：混淆矩阵、准确率、精准率和召回率

1. 混淆矩阵

假设我们建立的是二分类模型，将实际类别和预测类别进行两两组合，就形成了混淆矩阵。

真实情况		预测结果
	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

接下来的性能度量指标都是由混淆矩阵的各个元素计算得来。

2. 准确率

$准确率=\frac{TP+TN}{TP+TN+FP+FN}$

在样本均衡的情况下，准确率是一个适用的性能度量指标，但是，在样本不平衡的情况下，并不能很好的衡量结果。例如，在信用风险评估中，正样本为 90%，负样本（发生违约的样本）为 10%，样本严重失衡，在这种情况下，即使我们全部将样本预测为正样本，正确率也会达到 90%的高准确率。这也说明了，在样本失衡相对严重的情况下，即使准确率很高，结果也会有很大的水份，准确率指标会失效。

3. 查准率

查准率（Precision）又叫精准率，是指在所有被预测为正的样本中实际为正的样本的概率，即在预测为正的样本中，我们有多少把握可以预测正确：

$查准率=\frac{TP}{TP+FP}$

查准率和准确率的区别在于：查准率代表对正样本结果中的预测精度，而准确率则代表整体的预测准确程度，既包括正样本，也包括负样本。

4. 召回率

召回率（Recall）又叫查全率，指在实际为正的样本中被预测为正样本的概率。应用场景：在网贷信用风险评估中，相对好用户，我们更关心坏用户，不能错放任何一个坏用户，因为如果我们过多的将坏用户当成好用户，这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额，造成严重亏损。召回率越高，表示实际坏用户被预测出来的概率越高，即“宁可错杀一千，绝不放过一个。”

$精准率 = TP / (TP + FN)$

一般来说，查准率和召回率是一对矛盾的度量。查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。
例如，若希望将好瓜尽可能多地选出来，则可通过增加选瓜的数量来实现，如果将所有西瓜都选上，那么所有的好瓜也必然都被选上了，但这样查准率就会较低；若希望选出的瓜中好瓜比率尽可能高，则可只挑选最有把握的瓜，但这样就难免会漏掉不少好瓜，使得查全率较低，通常只有在一些简单的任务中，才可能使查全率和查准率都很高。

如果想要在两者之间找到一个平衡点，通常会使用 F1 分数，它同时考虑了查准率和查全率，让二者同时达到最高，取一个平衡。

$F1=\frac{2 \times 查准率 \times 召回率}{(查准率+召回率)}$

ROC和AUC

1. 真正率和假正率

ROC 和 AUC 可以在无视样本不平衡的情况下进行性能度量，关键在于两个指标：真正率（TPR）和假正率（FPR），其中真正率也叫灵敏度（Sensitivity），假正率则为 1-特异度（Specifucity）。

$真正率(TPR)=灵敏度=\frac{TP}{TP+FN}$
$假正率(FRP)=1-特异度=\frac{FP}{FP+TN}$

可以发现 TPR 和 FPR 分别是基于真实情况 1 和 0 出发的，即分别在真实情况下的正样本和负样本中来观察相关概率问题，正因为如此，所以无论样本是否平衡，都不会被影响。在之前的信用评估例子中，90% 为正样本，10% 为负样本，我们知道用准确率衡量结果是有水份的，但是用 TPR 和 FPR 不一样，这里，TPR 只关注 90% 正样本中有多少是真正被覆盖的，而与剩余 10% 无关，同理，FPR 只关注 10% 负样本中有多少是被错误覆盖的，也与其他 90% 毫无关系，所以可以看出：如果我们从实际表现的各个结果角度出发，就可以避免样本不平衡的问题了，这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 指标的原因。

2. ROC-接受者操作特征曲线

ROC(Receiver Operating Characteristic)曲线，又称接受者操作特征曲线，最早应用于雷达信号检测领域，用于区分信号和噪声。后来人们将其用于评价模型的预测能力，ROC 曲线是基于混淆矩阵得出的。

ROC曲线中横坐标为假正率(FPR)，纵坐标为真正率(TPR)，是通过遍历所有阈值来绘制整条曲线的，当我们不断的遍历所有阈值，预测的正样本和负样本是不断变化，相应的在 ROC 曲线图中就会沿着曲线滑动。

在这里插入图片描述

改变阈值只是不断的改变正负样本数，即 TPR 和 FPR，但是曲线本身是不会改变的。那如何通过 ROC 来判断一个模型的好坏呢？我们知道 FRP 表示模型虚报的响应程度，TPR 表示模型预测响应的覆盖程度，一个好的模型虚报的越少越好，覆盖的越多越好，这就等价于 TPR 越高，同时 FPR 越低，即 ROC 曲线越陡时，模型的性能就越好。

在这里插入图片描述

之前已经讨论了 ROC 曲线为什么可以无视样本的不平衡，这里通过动图进行演示，可以发现：无论红蓝样本比率如何改变，ROC 曲线都没有影响。

在这里插入图片描述

3. AUC-曲线下面积

AUC 是一种基于排序的高效算法，取值越大，代表模型的预测效果越好，其一般判断标准为：

0.5～0.7：效果较低；
0.7～0.85：效果一般
0.85～0.95：效果很好
0.95～1：效果非常好，但很可能是过拟合导致的

sklean 的 metrics 对 ROC 和 AUC 的计算进行了实现。

沉住气CD

关注

25
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
机器学习中常用的性能度量—— ROC 和 AUC

通常我们用泛化能力来评判一个模型的好坏，通俗的说，泛化能力是指一个机器学期算法对新样本（即模型没有见过的样本）的举一反三的能力，也就是学以致用的能力。举个例子，高三的学生在高考前大量的刷各种习题，像五年高考三年模拟、三年高考五年模拟之类的，目的就是为了在高考时拿到一个好的分数，高考的题目就是新题，一般谁也没做过，平时的刷题就是为了掌握试题的规律，能够举一反三、学以致用，这样面对新的题目也能从容应对。这种规律的掌握便是泛化能力，有的同学很聪明，考上名校，很大程度上是该同学的泛化能力好。
复制链接

扫一扫