accuracy、precision、recall、F1-score、ROC曲线、PR曲线、AUC
正负样本不平衡accuracy没有意义。于是提出precision(精确率、查准率)= TP/(TP+FP)、recall(召回率、查全率)= TP/(TP+FN)。两者之间有trade-off。想预测地准就保守,想覆盖全就预测不准。
F1-score综合考虑查准和查全。F1-score = 2* precision*recall / (precision + recall)。
ROC和AUC可以无视数据不平衡,优点是对数据分布变化(测试数据集会变化)鲁棒,缺点是不平衡数据不如PR曲线。
介绍ROC之前先引入:灵敏度和(1-特异度),也叫做真正率(TPR)和假正率(FPR)。
灵敏度(Sensitivity) = TP/(TP+FN)
特异度(Specificity) = TN/(FP+TN)
灵敏度就是召回率。由于我们比较关心正样本,所以需要查看有多少负样本被错误地预测为正样本,所以使用(1-特异度),而不是特异度。
由此定义:
真正率(TPR) = 灵敏度 = TP/(TP+FN) 作为纵轴
假正率(FPR) = 1- 特异度 = FP/(FP+TN) 作为横轴
TPR和FPR的分母都是真实数据标签,且都是同一类的,所以不受样本样本比例影响。所以,ROC曲线不受样本不平衡影响
ROC反应模型的排序能力,模型越好曲线越陡峭,离(0,1)点越近,AUC的物理意义是模型有多大概率将任意正样本排到负样本之前。
precision纵轴,recall横轴。RP曲线越接近(1,1)越好。
PR曲线与ROC曲线的相同点是都采用了TPR (Recall),都可以用AUC来衡量分类器的效果。不同点是ROC曲线使用了FPR,而PR曲线使用了Precision,因此PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例,所以在此情况下PR曲线被广泛认为优于ROC曲线。
参考
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率