什么是pr曲线
对于一个二分类问题,我们可以根据模型的分类结果将其分为四类:TP、FP、TN、FN。
取不同的阈值可以得到一个确定的混淆矩阵,再根据上述引入的概念可以得到相关值。
根据横轴recall数轴precision可以绘制出pr曲线。
绘制代码
#选择测试数据
import pandas as pd
df = pd.read_csv('file_name.csv')
X = df[df.columns[:-1]]
y = df[df.columns[-1]]
#训练——测试数据集划分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X[y < 2], y[y < 2],test_size=.5,random_state=1)
#构造模型
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
#model.predict_proba将返回属于各个类别的概率,每行概率和为1
y_prob = model.predict_proba(X_test)[:,1]
#计算P值和R值:precision_recall_curve函数返回值分别为查准率precision,查全率recall,以及对应的阈值thresholds
precision, recall, thresholds = sklearn.metrics.precision_recall_curve(y_test, y_prob, pos_label=None, sample_weight=None)
#然后根据precision, recall绘制PR曲线
plt.plot(precision, recall)
plt.show()