ROC曲线与PR曲线的关系
简介
ROC曲线
在正负样本不平衡时,Acurracy常常不能很好地反映模型的真实分类能力,而此时ROC曲线的AUC经常被来评价模型的效果。因为ROC曲线关注的是TPR(y轴;有多少比例的正样本被识别出来)和FPR(x轴;有多少比例的负样本被错误识别成正样本),因此正负样本的相对大小不会影响这两个指标。相当于把TP用正样本总数归一化,把FP用负样本总数归一化,再看阈值对这两个‘归一化’以后的指标的影响。
Percision-Recall Curves
PR曲线的全称是Percision-Recall Curves,它的x轴代表Recall(即TPR;有多少比例的正样本被识别出来),y轴是Percision(识别为正的样本中,有多少比例是正确的)。与ROC曲线十分类似,也适用于评价样本偏斜情况下,模型的效果。但与ROC曲线的‘归一化’思路不同,PR曲线用另外一种方法来缓解数据偏斜问题。由定义可知,PR曲线只关心与正类有关的参数(TP, FN, FP)。因此,即使正负类样本的数目相差较大,由于不包含TN,也不会对最后的曲线结果带来很大的影响。
相通点
解决数据偏斜问题
ROC: ‘归一化’
PR: 不考虑TN,只关心模型在正类上的效果
计算方式
如果数据集确定,