机器学习之“查准率”、“查全率”、“F1-Score”、“ROC”、“混淆矩阵”的定义

最新推荐文章于 2023-10-26 02:09:19 发布

未见青山老。

最新推荐文章于 2023-10-26 02:09:19 发布

阅读量4k

点赞数

分类专栏：人工智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_41133375/article/details/105804319

版权

人工智能专栏收录该内容

17 篇文章 13 订阅

订阅专栏

机器学习之“查准率”、“查全率”、“F1-Score”、“ROC”、“混淆矩阵”的定义

一、查准率（precision）、查全率（precision）、F1

对于二分类问题，可根据样例根据其真实类别与学习器预测类别的组合划为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative），分别用TP、FP、TN、FN表示相应样例数，样例总数=TP+FP+TN+FN；分类结果混淆矩阵：在这里插入图片描述
查准率P和查全率R分别定义为

P = TP/(TP+FP)

R = TP/(TP+FN)
查准率和查全率是一对矛盾的指标，一般说，当查准率高的时候，查全率一般很低；查全率高时，查准率一般很低。比如：若我们希望选出的西瓜中好瓜尽可能多，即查准率高，则只挑选最优把握的西瓜，算法挑选出来的西瓜（TP+FP）会减少，相对挑选出的西瓜确实是好瓜（TP）也相应减少，但是分母（TP+FP）减少的更快，所以查准率变大；在查全率公式中，分母（所有好瓜的总数）是不会变的，分子（TP）在减小，所以查全率变小。
在实际的模型评估中，单用查准率或者查全率来评价模型是不完整的，评价模型时必须用Precision/Recall两个值。这里介绍三种使用方法：平衡点（Break-Even Point，BEP）、F1度量、F1度量的一般化形式。
若一个学习器P-R曲线被另一个学习器的曲线完全"包住",则可断言后者的性能优于前者，例如图中学习器A 的性能优于学习器C; 如果两个学习器的P-R 曲线发生了交叉7,例如图中的A 与B ，则难以一般性地断言两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较然而，在很多情形下，人们往往仍希望把学习器A 与B 比出个高低. 这时一个比较合理的判据是比较P-R 曲线节面积的大小。
平衡点（BEP）：是产准率和查全率曲线中查准率=查全率时的取值
在这里插入图片描述
但BEP还是过于简化了些，更加常用的是F1度量查准率与查全率：

具体应用中可能对P和R有不同的倚重。比如商品推荐中，为了尽可能少打扰用户，更希望推荐内容确是用户感兴趣的，这时候查准率更重要。而在逃犯检索系统中，更希望尽可能少漏掉逃犯，此时查全率更重要。

F1度量的一般形式Fβ（加权调和平均）就可以表达这种偏好。
在这里插入图片描述
ß = 1时退化为标准的F1,当β>1意味着P占比重更大，反之则是R。

二、ROC（Receiver Operating Characteristic，受试者工作特征）

源于二战。ROC曲线横轴是假正例率（False Positive Rate，FPR）,纵轴是真正例率（True Positive Rate，TPR）。
在这里插入图片描述

在不同的应用任务中,我们可根据任务需求来采用不同的截断点,例如若我们更重视“查准率”，则可选择排序中靠前的位置进行截断;若更重视“查全率”，则可选择靠后的位置进行截断.因此,排序本身的质量好坏，体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏，或者说，“一般情况下”泛化性能的好坏. ROC曲线则是从这个角度出发来研究学习器泛化性能在这里插入图片描述
的有力工具.

三、混淆矩阵

1、什么是混淆矩阵

混淆矩阵是对分类问题的预测结果的总结。使用计数值汇总正确和不正确预测的数量，并按每个类进行细分，这是混淆矩阵的关键所在。混淆矩阵显示了分类模型的在进行预测时会对哪一部分产生混淆。它不仅可以让您了解分类模型所犯的错误，更重要的是可以了解哪些错误类型正在发生。正是这种对结果的分解克服了仅使用分类准确率所带来的局限性。