目录
前言
我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”“用户感兴趣的信息中有多少被检索出来了”。“查准率”(precision)与“查全率”(recall)是更为适用于此类需求的性能度量。
一、查准率P、查全率R与P-R曲线
查准率P、查全率R:
在了解查准率P(亦称“准确率”)、查全率R(亦称“召回率”)的定义之前,我们需要先了解TP、FP、TN、FN。
TP:真正例(true positive)
FP:假正例(false positive)
TN:真反例(true negative)
FN:假反例(false negative)
下表可以直观地看出各自的含义:
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
由此定义查准率P与查全率R:
P-R曲线:
以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,其代表的是查准率P与查全率R的关系。
下图为西瓜书中给出的一个示意图:
二、Python实现
代码如下(示例):
#选择测试数据
import pandas as pd
df = pd.read_csv('file_name.csv')
X = df[df.columns[:-1]]
y = df[df.columns[-1]]
#训练——测试数据集划分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X[y < 2], y[y < 2],test_size=.5,random_state=1)
#构造模型
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
#model.predict_proba将返回属于各个类别的概率,每行概率和为1
y_prob = model.predict_proba(X_test)[:,1]
#计算P值和R值:precision_recall_curve函数返回值分别为查准率precision,查全率recall,以及对应的阈值thresholds
precision, recall, thresholds = sklearn.metrics.precision_recall_curve(y_test, y_prob, pos_label=None, sample_weight=None)
#然后根据precision, recall绘制PR曲线
plt.plot()
此代码参考:Asher117的【Python】绘制PR曲线https://blog.csdn.net/Asher117/article/details/112531255
总结
P-R图直观地显示出学习器在样本总体上的查全率、查准率。本文章仅简单概述了Precision、Recall以及P-R曲线的概念以及如何用Python绘制P-R曲线,作者目前也是机器学习小白,希望可以同大家一起进步!