分类任务算法的性能度量

最新推荐文章于 2023-09-07 10:38:17 发布

aiqi6666

最新推荐文章于 2023-09-07 10:38:17 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/aiqi6666/article/details/80707696

版权

本文详细介绍了分类任务的性能度量，包括准确率、精确率、召回率及其关系，重点讲解了P-R曲线、ROC曲线的绘制原理和AUC的计算。强调在样本不平衡时，ROC和PR曲线的重要性，尤其是PR曲线在正负样本分布极不均匀情况下的优势。

摘要由CSDN通过智能技术生成

一.准确率 - accuracy

这个好理解，就是分类正确的样本数占样本总数的比例，但在二分类且正反例不平衡的情况下，这个基本没有参考价值，举个栗子：
在测试集里，有100个sample，99个反例，只有1个正例。如果我的模型不分青红皂白对任意一个sample都预测是反例，那么我的模型的accuracy是正确的个数／总个数 = 99/100 = 99%，你拿着这个accuracy高达99%的模型屁颠儿屁颠儿的去预测新sample了，而它一个正例都分不出来，有意思么。。。

二.精确率 - precision和召回率 - recall

这里写图片描述
精确率P=TP/(TP+FP) 表示在预测结果为正例的样本中，有多少是真正的正例。
召回率R=TP/(TP+FN) 表示在所有真正为正例的样本中，有多少被预测出来。
精确率和召回率是一对相对矛盾的度量！
F1值是精确率和召回率的调和均值，即F1=2PR/(P+R)，相当于精确率和召回率的综合评价指标。
另外还有Fα值，为F1值的变体， Fα=（α^2+1）PR/(α^2 P+R) ，利用α给P和R赋予不同的权重，若α=1则为F1值。α>1时精确率有更大影响；α<1时召回率有更大影响。

三.P-R曲线

在很多情况下，我们可以根据学习器的预测结果对样例进行排序，排在前面的是学习器认为最可能是正例的样本，排在后面的是学习器认为最不可能是正例的样本，按此顺序逐个把样本作为正例进行预测，则每次可计算当前的精确率和召回率，以精确率为y轴，以召回率为x轴，可以画出下面的P-R曲线。
这里写图片描述
如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C，但是A和B的性能无法直接判断，但我们往往仍希望把学习器A和学习器B进行一个比较，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。平衡点（BEP）是查准率=查全率时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * P * R ／( P + R )，同样，F1值越大，我们可以认为该学习器的性能较好。

四.ROC曲线

ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣。
纵轴为真正例率TPR=TP/(TP+FN)
横轴为假正例率FPR=FP/(FP+TN)
下面看一个例子：
假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变“discrimination threashold”？我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率4。
这里写图片描述
接下来，我们从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都大于等于0.6，而其他样本则都认为是负样本。每次选取一个不同的threshold，我们就可以得到一组FPR和TPR，即ROC曲线上的一点。这样一来，我们一共得到了20组FPR和TPR的值，将它们画在ROC曲线的结果如下图：
这里写图片描述
当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

五.AUC的计算

与P-R曲线类似，若一个学习器的ROC曲线被另一个学习器的ROC曲线完全包住，可以认为后者的效果比较好。但一般用AUC(Area under curve)来评测，即ROC曲线下的面积，AUC越大，表示效果越好。

最直观的，根据AUC这个名称，我们知道，计算出ROC曲线下面的面积，就是AUC的值。事实上，这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下面的面积之和。这样，我们先把score排序(假设score越大，此样本属于正类的概率越大)，然后一边扫描就可以得到我们想要的AUC。但是，这么做有个缺点，就是当多个测试样本的score相等的时候，我们调整一下阈值，得到的不是曲线一个阶梯往上或者往右的延展，而是斜着向上形成一个梯形。此时，我们就需要计算这个梯形的面积。由此，我们可以看到，用这种方法计算AUC实际上是比较麻烦的。
一个关于AUC的很有趣的性质是，它和Wilcoxon-Mann-Witney Test是等价的。这个等价关系的证明留在下篇帖子中给出。而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。有了这个定义，我们就得到了另外一中计算AUC的办法：得到这个概率。我们知道，在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。这和上面的方法中，样本数越多，计算的AUC越准确类似，也和计算积分的时候，小区间划分的越细，计算的越准确是同样的道理。具体来说就是统计一下所有的 M×N(M为正类样本的数目，N为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候，按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数（即n=M+N）
第三种方法实际上和上述第二种方法是一样的，但是复杂度减小了。它也是首先对score从大到小排序，然后令最大score对应的sample 的rank为n，第二大score对应sample的rank为n-1，以此类推。然后把所有的正类样本的rank相加，再减去M-1种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N。即

另外，特别需要注意的是，再存在score相等的情况时，对相等score的样本，需要赋予相同的rank(无论这个相等的score是出现在同类样本还是不同类的样本之间，都需要这样处理)。具体操作就是再把所有这些score相等的样本的rank取平均。然后再使用上述公式。