机器学习-Precision(查准率)、Recall(查全率)、P-R曲线

目录


前言

        我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”“用户感兴趣的信息中有多少被检索出来了”。“查准率”(precision)“查全率”(recall)是更为适用于此类需求的性能度量。


一、查准率P、查全率R与P-R曲线

查准率P、查全率R:

在了解查准率P(亦称“准确率”)、查全率R(亦称“召回率”)的定义之前,我们需要先了解TP、FP、TN、FN。

TP:真正例(true positive)

FP:假正例(false positive)

TN:真反例(true negative)

FN:假反例(false negative) 

下表可以直观地看出各自的含义:

分类结果混淆矩阵
真实情况预测结果
正例反例
正例TP(真正例)FN(假反例)
反例FP(假正例)TN(真反例)

由此定义查准率P查全率R

P=\frac{TP}{TP+FP}                R=\frac{TP}{TP+FN}

P-R曲线:

以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,其代表的是查准率P与查全率R的关系。

下图为西瓜书中给出的一个示意图:

二、Python实现

代码如下(示例):

#选择测试数据
import pandas as pd

df = pd.read_csv('file_name.csv')
X = df[df.columns[:-1]]
y = df[df.columns[-1]]

#训练——测试数据集划分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X[y < 2], y[y < 2],test_size=.5,random_state=1)

#构造模型
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
#model.predict_proba将返回属于各个类别的概率,每行概率和为1
y_prob = model.predict_proba(X_test)[:,1]

#计算P值和R值:precision_recall_curve函数返回值分别为查准率precision,查全率recall,以及对应的阈值thresholds

precision, recall, thresholds = sklearn.metrics.precision_recall_curve(y_test, y_prob, pos_label=None, sample_weight=None)

#然后根据precision, recall绘制PR曲线

plt.plot()

此代码参考:Asher117的【Python】绘制PR曲线https://blog.csdn.net/Asher117/article/details/112531255


总结

P-R图直观地显示出学习器在样本总体上的查全率、查准率。本文章仅简单概述了Precision、Recall以及P-R曲线的概念以及如何用Python绘制P-R曲线,作者目前也是机器学习小白,希望可以同大家一起进步!

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

库里不会写代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值