预测 \ 真实 | 0 | 1 |
---|---|---|
0 | TN | FN |
1 | FP | TP |
PR曲线:
首先,Precision = TP / (FP + TP),Recall = TP / (FN + TP)
一般情况下二分类的分类阈值取0.5(即【预测为1的概率】≥0.5时将该样本预测为1类,否则预测为0类)。如果取不同的分类阈值时,会有不同的分类结果,对应有不同的P、R值
PR曲线就是取不同分类阈值时得到的(P,R)值所对应坐标点(横坐标为R值,纵坐标为P值)连成的曲线
例:有20个样本,它们的真实类别和预测分数(预测为1的概率)分别如下图所示(按预测分数从大到小排序)
此时各样本的预测类别还未确定。取不同的预测为1类的阈值,可以得到不同的各样本预测类别。比如阈值设为0.5,则第1~10个样本的预测类别将为1,第11~20个样本的预测类别将为0;若阈值设为0.6,则只有第1~4个样本预测为1,第5~20个样本预测为0
将阈值分别设为第1~20个样本的预测分数,可以得到不同的预测结果,也就得到不同的(P,R)值,将它们画点连线就得到了PR曲线
ROC曲线:
首先,FP Rate = FP / (TN + FP),TP Rate = TP / (FN + TP)(和recall一样)
与上面类似,取不同的阈值时得到不同的FPR、TPR,将其对应坐标点(横坐标为FPR,纵坐标为TPR)连线得到ROC曲线
AUC:
即Area Under Curve,ROC曲线下面积
注意PR曲线下面积叫做AP(average precision)
参考:
P-R曲线深入理解_keep forward, go, go, go-CSDN博客
PR曲线 可算是明白了 precision recall曲线_乱七八糟的笔记-CSDN博客_precision-recall曲线