ROC曲线和PR曲线均为类别不平衡问题中常用的评估方法。
ROC曲线纵坐标是真阳性率(TPR),也就是召回率,横坐标是假阳性率。 TPR = TP/(TP+FN),FPR=FP/(FP+TN),可以看到TPR是关于正例的,来多少正例正确识别的比例,FPR是所有负例中去判断的。所以当正负样本变化时,曲线不会发生太大的变化。
1.上文提到ROC曲线的优点是不会随着类别分布的改变而改变,但这在某种程度上也是其缺点。因为负例N增加了很多,而曲线却没变,这等于产生了大量FP。像信息检索中如果主要关心正例的预测准确性的话,这就不可接受了。
2.在类别不平衡的背景下,负例的数目众多致使FPR的增长不明显,导致ROC曲线呈现一个过分乐观的效果估计。
PR曲线的横坐标是召回率,纵坐标是精准率。PR更关注正例,精准率为TP/(TP+FP),当负例增多导致FP增多时,精准率会下降。
ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言PR曲线完全聚焦于正例。