一、什么是ROC曲线
1、ROC曲线,又可以称之为接受者操作特征曲线(Receiver Operating Characteristic Curve),
ROC曲线下的面积,称为AUC(Area Under Cureve),可以衡量评估二分类模型的分类好坏。
2、AUC是1乘以的方格中的一部分,起大小在0-1之间,AUC越大说明模型效果越好,
- AUC=1,是完美的分类器,该模型至少存在一个阈值,可以将正负样本完美的划分开
- 0.5<AUC<1,优于随机猜测,数值越大,分类效果越好
- AUC=0.5,说明模型没有分类效果,即随机
- AUC<0.5,比随机猜测要差,然而若方向预测,该模型可以优于随机猜测
二、ROC曲线如何绘制
1、ROC曲线由预测概率和阈值来共同决定
分类模型的输出结果中包含一个0到1的概率值,该概率代表着对应的样本被预测为某类别的可能性,通过阈值来进行划分,概率大于阈值的为正,概率小于阈值的负。
样本 | 预测概率 | 阈值(thresholds=0.9) | 阈值(thresholds=0.5) |
1 | 0.95 | 正 | 正 |
2 | 0.86 | 负 | 正 |
3 | 0.64 | 负 | 正 |
4 | 0.43 | 负 | 负 |
2、TPR和FPR
ROC曲线的横坐标为FPR,纵坐标为TPR,FPR是错误的预测为正的概率,TPR为正确的预测为正的概率(注意TPR+FTR不是固定等于1的)
FPR=负的预测为正的数量/原本为负的数量(FPR = FP/(TN+FP))
TPR=正的预测为正的数量/原本为正的数量(召回率:TPR = TP/(TP+FN))
备注:TN+FP为负样本总量;TP+FN为正样本总量。
FPR越小越好,TPR越大越好
三、ROC的曲线绘制步骤
1、将全部样本按概率递减排序
2、