目录
一、ROC和PR曲线定义
1.1 ROC曲线与AUROC
ROC曲线 [1], [2](Receiver Operating Characteristic Curve,接收者操作特征曲线)是一种用于评估二分类模型性能的重要工具。ROC曲线通过不同阈值下的真阳性率(True Positive Rate, TPR)和假阳性率(False Positive Rate, FPR)的变化情况,直观地展示模型的分类能力。具体而言,ROC曲线的横轴表示假阳性率,纵轴表示真阳性率。假阳性率是指将负样本错误地分类为正样本的比例,而真阳性率是指将正样本正确地分类为正样本的比例。通过调整分类阈值,可以得到一系列不同的假阳性率和真阳性率,从而绘制出ROC曲线。
TPR = TP TP + FN ,FPR = FP TN + FP \text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}},\text{FPR} = \frac{\text{FP}}{\text{TN} + \text{FP}} TPR=TP+FNTP,FPR=TN+FPFP
其中,TP为真阳性,TN为真阴性,FN为假阴性,FP为假阳性。
一个理想的分类器应该在ROC曲线上尽可能接近左上角,即假阳性率为0,真阳性率为1。ROC曲线下的面积(AUROC, Area Under ROC)是衡量分类器性能的一个重要指标, AUROC (或称AUC)的值介于0和1之间。AUROC值越接近1,说明分类器的性能越好;值为0.5时,说明分类器的表现与随机猜测相当。AUROC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
在实际应用中,ROC曲线和AUC可以帮助我们选择最合适的分类阈值,比较不同分类器的性能,并判断模型是否具有较高的鉴别能力。
1.2 PR曲线与AUPRC
PR曲线 [3], [4](Precision-Recall Curve,精确率-召回率曲线)是另一种用于评估二分类模型性能的工具,特别适用于数据不平衡的情况。PR曲线通过展示不同阈值下的精确率(Precision)和召回率(Recall),帮助评估模型在识别少数类样本时的表现。具体而言,PR曲线的横轴表示召回率,纵轴表示精确率:
-
精确率(Precision):也称为正预测值(Positive Predictive Value),是指模型预测为正的样本中实际为正的比例。计算公式为: