模型性能度量

不知道叫什么丸

已于 2022-04-24 20:08:00 修改

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-04-23 23:22:59 首次发布

本文链接：https://blog.csdn.net/wan_15/article/details/124372596

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

模型性能度量

分类任务中的性能度量
参考文献

分类任务中的性能度量

一、错误率与精度

1、定义：错误率是分类错误的样本树占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

2、这是分类任务中最仓用的两种性能度量，既适用于二分类任务，也适用于多分类任务。

二、查准率、查全率与F1

1、对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例(false positive) 、真反倒(true negative) 、假反例(false negative) 四种情形，令 $T P 、 F P 、 T N 、 F N$ 分别表示其对应的样例数，则显然有 $T P + F P + T N + F N = 样例总数$ ，分类结果的“混淆矩阵”(cofusion matrix) 如下表所示。
![[Pasted image 20220423212507.png]]
2、查准率 $P$ 与查全率 $R$ 分别定义为：
$P=\frac{TP}{TP+FP}$
$R=\frac{TP}{TP+FN}$

3、查准率与查全率是一对矛盾的度量，一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。

4、 $P - R$ 曲线：以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线。
在这里插入图片描述

若一个学习器的 $P - R$ 曲线被另一个学习器的曲线完全“包住” ，则可断言后者的性能优于前者。如果两个学习器的 $P - R$ 曲线发生了交叉，一个比较合理的判据是比较 $P - R$ 曲线节面积的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对"双高"的比例。但这个值不太容易估算，因此人们设计了一些综合考虑查准率、查全率的性能度量。

“平衡点” (Break-Event Point，简称BEP)就是这样一个度量，它是“查准率=查全率”时的取值，但BEP还是过于简化了些，更常用的是 $F 1$ 度量：
$F1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}$

$F 1$ 是基于查准率与查全率的调和平均(harinonic mean)定义的：
$\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$

在一些应用中，对查准率和查全率的重视程度有所不同，而 $F 1$ 度量的一般形式 $F_\beta$ 能让我们表达出对查准率/查全率的不同偏好，它定义为：
$F_\beta=\frac{(1+\beta^2)\times P\times R}{(\beta^2 \times P)+R}$

其中 $\beta > 0$ 度量了查全率对查准率的相对重要性。 $\beta=1$ 时退化为标准的 $F 1$ ； $\beta>1$ 时查全率有更大影响； $\beta<1$ 时查准率有更大影响。

$F_\beta$ 是加权调和平均：
$\frac{1}{F_\beta}=\frac{1}{1+\beta^2}(\frac{1}{P}+\frac{\beta^2}{R})$
与算术平均 $(\frac{P+R}{2})$ 和几何平均 $\sqrt{P\times R}$ 相比，调和平均更重视较小值。

很多时候我们有多个二分类混淆矩阵，例如进行多次训练/测试，每次得到一个混淆矩阵；或是在多个数据集上进行训练/测试，希望估计算法的“全局”性能；或是执行多分类任务，每两两类别的组合都对应一个混淆矩阵。一种直接的方法是计算各混淆矩阵的查准率和查全率，然后取平均，计算得到 “宏查准率”、“宏查全率” 以及相应的 “宏 $F 1$ ”。另一种方法是先将各混淆矩阵对应元素进行平均，得到 $T P 、 F P 、 T N 、 F N$ 的平均值，再基于这些平均值计算出 “微查准率”、“微查全率”、以及相应的 “微 $F 1$ ”。

三、ROC与AUC

1、与 $P - R$ 曲线相似，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图就得到了 “ $R O C$ 曲线”， $R O C$ 曲线的纵轴是 “真正例率” (True Positive Rate，简称TPR) ，横轴是 “假正例率" (False Positive
Rate，简称FPR) ，两者分别定义为：
$TPR=\frac{TP}{TP+FN}$
$FPR=\frac{FP}{TN+FP}$

$R O C$ 曲线如下：对角线对应于 “随机猜测” 模型，而点 (0, 1) 则对应于将所有正例排在所有反例之前的 “理想模型”。
在这里插入图片描述

2、进行学习器的比较时，与 $P - R$ 图相似，若一个学习器的 $R O C$ 曲线被另一个学习器的曲线完全 “包住”，则可断言后者的性能优于前者；若两个学习器的 $R O C$ 曲线发生交叉，则较为合理的判据是比较 $R O C$ 曲线下的面积，即 $A U C$ (Area Under ROC Curve)。

3、 $A U C$ 的计算：

方法一：对阶梯型面积求解
$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)(y_i+y_{i+1})$

方法二： $A U C$ 很有趣的性质是，它和 Wilcoxon-Mann-Witney Test 是等价的，就是测试任意给一个正类样本和一个负类样本，正类样本的 score 有多大的概率大于负类样本的 score。我们知道，在有限样本中我们常用的得到概率的办法就是通过频率来估计之，这种估计随着样本规模的扩大而逐渐逼近真实值。具体来说就是统计一下所有的 $M\times N$ ( $M$ 为正类样本的数目， $N$ 为负类样本的数目) 个正负样本对中，有多少个组中的正样本的 score 大于负样本的 score。当二元组中正负样本的 score 相等的时候，按照 0.5 计算，然后除以 $M N$ 。
$AUC=\frac{\sum_{x^+\in D^+}\sum_{x^-\in D^-}(bool(f(x^+)>f(x^-))+\frac{1}{2}bool(f(x^+)=f(x^-)))}{MN}$

4、 $R O C$ 曲线有一个很好的特性：当测试集中的正负样本分布发生变化了， $R O C$ 曲线可以保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。
在这里插入图片描述

在上图中，(a)和©为 $R O C$ 曲线，(b)和(d)为 $P - R$ 曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，©和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出， $R O C$ 曲线基本保持原貌，而 $P - R$ 曲线则变化较大。

参考文献

周志华著.机器学习,北京:清华大学出版社,2016. (ISBN 978-7-302-42328-7)
# 模型评估指标AUC（area under the curve）
# AUC，ROC我看到的最透彻的讲解

不知道叫什么丸

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模型性能度量

模型性能度量分类任务中的性能度量一、错误率与精度二、查准率、查全率与F1三、ROC与AUC参考文献分类任务中的性能度量一、错误率与精度1、定义：错误率是分类错误的样本树占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。2、这是分类任务中最仓用的两种性能度量，既适用于二分类任务，也适用于多分类任务。二、查准率、查全率与F11、对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例(false positive) 、真反倒(tr
复制链接

扫一扫

专栏目录