机器学习-Precision（查准率）、Recall（查全率）、P-R曲线

库里不会写代码

已于 2022-10-23 10:28:09 修改

阅读量4.7k

点赞数 2

文章标签：机器学习 python

于 2022-10-19 22:22:45 首次发布

本文链接：https://blog.csdn.net/m0_52053228/article/details/127374780

版权

本文介绍了查准率（Precision）和查全率（Recall）的概念，以及如何使用Python的`precision_recall_curve`函数绘制P-R曲线。通过实例展示了在机器学习中评估模型性能的重要性，并提供了简单的Python代码示例。

摘要由CSDN通过智能技术生成

前言

我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”“用户感兴趣的信息中有多少被检索出来了”。“查准率”（precision）与“查全率”（recall）是更为适用于此类需求的性能度量。

一、查准率P、查全率R与P-R曲线

查准率P、查全率R：

在了解查准率P（亦称“准确率”）、查全率R（亦称“召回率”）的定义之前，我们需要先了解TP、FP、TN、FN。

TP：真正例（true positive）

FP：假正例（false positive）

TN：真反例（true negative）

FN：假反例（false negative）

下表可以直观地看出各自的含义：

分类结果混淆矩阵
真实情况	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

由此定义查准率P与查全率R：

$P=\frac{TP}{TP+FP}$ $R=\frac{TP}{TP+FN}$

P-R曲线：

以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称“P-R曲线”，其代表的是查准率P与查全率R的关系。

下图为西瓜书中给出的一个示意图：

二、Python实现

代码如下（示例）：

#选择测试数据
import pandas as pd

df = pd.read_csv('file_name.csv')
X = df[df.columns[:-1]]
y = df[df.columns[-1]]

#训练——测试数据集划分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X[y < 2], y[y < 2],test_size=.5,random_state=1)

#构造模型
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
#model.predict_proba将返回属于各个类别的概率，每行概率和为1
y_prob = model.predict_proba(X_test)[:,1]

#计算P值和R值：precision_recall_curve函数返回值分别为查准率precision，查全率recall，以及对应的阈值thresholds

precision, recall, thresholds = sklearn.metrics.precision_recall_curve(y_test, y_prob, pos_label=None, sample_weight=None)

#然后根据precision, recall绘制PR曲线

plt.plot()