PR曲线、ROC曲线、AUC都是个啥

最新推荐文章于 2024-07-14 12:25:25 发布

彩虹编程

最新推荐文章于 2024-07-14 12:25:25 发布

阅读量479

点赞数 6

分类专栏： Cver基础知识文章标签：算法机器学习

本文链接：https://blog.csdn.net/Mac_Jie/article/details/139045160

版权

Cver基础知识专栏收录该内容

2 篇文章 0 订阅

订阅专栏

二分类的性能指标：PR曲线、ROC曲线、AUC的基本相关概念

PR 曲线

PR曲线实则是以precision（精准率）和recall（召回率）这两个变量而做出的曲线，其中recall为横坐标，precision为纵坐标。
一条PR曲线要对应一个阈值。通过选择合适的阈值，比如50%，对样本进行划分，概率大于50%的就认为是正例，小于50%的就是负例,从而计算相应的精准率和召回率。
如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者。
我们还可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1=2×P×R／(P+R)，同样，F1值越大，我们可以认为该学习器的性能较好。

度量

精确率、查准率 P：预测为正例中预测正确的
召回率、查全率 R：真实结果为正例对应的判断结果（判断正例判断对的TP+判断负例判断错的FN）中判断为正例的
真正例率(TPR): TPR=TP/(TP+FN) 与召回率相同
假正例率(FPR): FPR=FP/(TN+FP) 真实结果为负例对应的判断结果中判断为正例的

混淆矩阵

在这里插入图片描述

%matplotlib notebook
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import precision_recall_curve,roc_auc_score,average_precision_score,auc

def draw_pr(confidence_scores,data_labels):
    plt.figure()
    plt.title('PR Curve')
    plt.xlabel('Recall')
    plt.ylabel('Precision')
    plt.grid()
    
#     精准率、召回率、阈值
    precision,recall,thresholds = precision_recall_curve(data_labels,confidence_scores)
    AP = average_precision_score(data_labels,confidence_scores)
    
    plt.plot(recall,precision,label='pr_curve(AP=%0.2f)'%AP)
    plt.legend()
    plt.show()

ROC曲线（Receiver Operating Characteristic）受试者工作特征曲线

ROC曲线实则是以假正例率（FPR）和真正例率（TPR）这两个为变量而做出的曲线，其中 FPR 为横坐标， TPR 为纵坐标。

分类器可以给出每个样本数据为正例的概率，我们设定一个阈值，当概率大于阈值则预测结果为正例，否则为负例。此时，通过计算我们可以得到一个（TPR,FPR）对，即图像上的一个点。通过不断调整阈值，就得到若干个点，从而画出一条曲线。

为什么使用ROC曲线

ROC有一个很好的特性，当测试集中的正负样本分布变化时，ROC曲线能够保持不变。
实际情况中经常出现类不平衡的现象，即负样本比真样本多很多的情况（或者相反）

如何调整这个阈值呢？

一般来说，分类器会对一批数据（20个）的每个样本给出一个是正例的概率。对给出的概率进行排序，然后依次使用概率作为阈值，这样就得到了20组（FPR， TPR）。
也可以使用未经softmax（或其他处理的）的概率值

AUC（Area Under Curve）

ROC下的面积，[0,1]，通常在[0.5,1]之间。
ROC曲线能直观体现分类器的性能，但是需要一个数值，直接判定分类器的性能好坏。

def draw_roc(confidence_scores,data_labels):
    plt.figure()
    plt.grid()
    plt.title('ROC Curve')
    plt.xlabel('FPR')
    plt.ylabel('TPR')
    fpr,tpr,thresholds = roc_auc_score(data_labels,confidence_scores)
    auc = auc(fpr,tpr)
    plt.plot(fpr,tpr,label='roc_curve(AUC=%0.2f)'%auc)
    plt.legend()
    plt.show()

# 正样本的置信度,即模型识别成１的概率
confidence_scores = np.array([0.9, 0.78, 0.6, 0.46, 0.4, 0.37, 0.2, 0.16])
# 真实标签
data_labels = np.array([1,1,0,1,0,0 ,1,1])
draw_roc(confidence_scores,data_labels)
draw_pr(confidence_scores,data_labels)

# 整合了两个函数的画图部分，可以用draw_plt函数处理
def draw_plt(title,xlabel,ylabel,x,y,label_name):
    plt.figure()
    plt.grid()
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.plot(x,y,label=label_name)
    plt.legend()
    plt.show()