准确率(precision)、召回率(recall)与F1

最新推荐文章于 2024-10-02 12:58:44 发布

Answerlzd

最新推荐文章于 2024-10-02 12:58:44 发布

阅读量3.2k

点赞数 1

分类专栏：机器学习入门文章标签：准确率召回率 F度量

本文链接：https://blog.csdn.net/Answer3664/article/details/98631104

版权

机器学习入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文深入探讨了分类任务中的性能度量，包括错误率、精度、准确率、召回率及F1度量的概念与计算方法。并通过准确率-召回率曲线（P-R曲线）展示不同学习器的性能对比，最后介绍了宏准确率、宏召回率和微准确率等多分类场景下的性能度量。

摘要由CSDN通过智能技术生成

在分类任务中，两种最常用的性能度量是错误率和精度。错误率是分类错误的样本数占样本总数的比例；精度则是分类正确的样本数占样本总数的比例。错误率和精度虽然常用，但并不能满足所有任务需求。

例如在信息检索和Web搜索中，经常关心的问题是“检索出来的信息有多少比例是用户感兴趣的”、“用户感兴趣的信息有多少被检索出来了”。准确率和召回率就是用来描述此类问题的性能度量。在有些问题中准确率被称为查准率，召回率被称为查全率，其实都是一个意思。

一、准确率、召回率

对于二分类问题，可将样例根据真实值和预测值分为四类——真正例（true positive）、假正例（false positive）、真反例（true negative）和假反例（false negative）。令TP、FP、TN、FN分别表示对应的样例数，则有TP+FP+TN+FN=样例总数。

真实值	预测值
真实值	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

这张表称为混淆矩阵（confusion matrix）。

准确率P和召回率R分别定义为：

$P=\frac{TP}{TP+FP}$

$R=\frac{TP}{TP+FN}$

准确率和召回率是一对相互矛盾的度量。准确率高时，召回率往往偏低；而召回率高时，准确率往往偏低。例如，若希望将用户感兴趣的信息筛选出来，则可通过增加选择信息的数量来实现，这样召回率高了，准确率就会降低；若希望筛选出来的信息用户喜欢的比例尽可能的高，则会选择最有把握的信息，这样就会漏选其他用户可能感兴趣的信息，使得召回率就会偏低。通常只有在一些简单的任务中，才可能使准确率和召回率都很高。

二、比较准确率和召回率

以召回率为横轴、准确率为纵轴作图，就能得到准确率-召回率曲线，简称“P-R曲线”。

如何根据P-R曲线选择合适的学习器呢？

若一个学习器的P-R曲线被一个学习器的曲线完全“包住”，则选择后面那个大的，例如曲线中B的性能优于C的性能。
如果两个学习器的曲线发生了交叉，例如图中的A和B。一个方法是比较P-R曲线下面积的大小，但是这个值不太好算。所以另一个方法是选择“平衡点”（Break-Even Point，简称BEP）。平衡点是 准确率=召回率 时的取值。所以可认为A的性能优于B。