二值分类器Binary Classifier:机器学习领域最常用、应用最广泛的分类器。ROC曲线是评估其模型的重要指标之一。
ROC曲线Receiver Operating Characteristic Curve,受试者工作特征曲线,横坐标为FPR(假阳性率False Positive Rate),纵坐标为TPR(真阳性率True Positive Rate)。
FPR=FP/N,负样本被预测为正样本/真实的负样本;
TPR=TP/P,正样本被预测为正样本/真实的正样本。
ROC曲线通过不断移动“截断点”来生成曲线上一组关键点,因此当截断点选择为无穷时,FP=TP=0,所以曲线的第一个坐标点为(0,0);同理,最后一个点为(1,1)。
AUC,Area Under Curve,一般的情况下,ROC曲线会在y=x的上方,故而AUC取值一般为0.5~1之间。
相对于P-R曲线,ROC曲线在测试集正负样本比例发生变化时,形状基本保持不变,降低了不同测试集的干扰,更能反映模型本身的好坏,因此ROC曲线的使用场景很多。而P-R曲线则能反映模型在特定数据集上模型的性能。