最常见的指标Accuracy到底有哪些不足。
Accuracy是分类问题中最常用的指标,它计算了分类正确的预测数与总预测数的比值。但是,对于不平衡数据集而言,Accuracy并不是一个好指标。
假设我们有100张图片,其中91张图片是「狗」,5张是「猫」,4张是「猪」,我们希望训练一个三分类器,能正确识别图片里动物的类别。其中,狗这个类别就是大多数类 (majority class)。当大多数类中样本(狗)的数量远超过其他类别(猫、猪)时,如果采用Accuracy来评估分类器的好坏,那么即便模型性能很差 (如无论输入什么图片,都预测为「狗」),也可以得到较高的Accuracy Score(如91%)。此时,虽然Accuracy Score很高,但是意义不大。当数据异常不平衡时,Accuracy评估方法的缺陷尤为显著。
二分类模型
混淆矩阵(confusion matrix, including TP, TN, FP, FN)
- Accuracy
- Precision
- Recall
- F1-score
当False Negative (FN)的成本代价很高 (后果很严重),希望尽量避免产生FN时,应该着重考虑提高Recall指标(如癌症诊断系统);
当False Positive (FP)的成本代价很高 (后果很严重)时,即期望尽量避免产生FP时,应该着重考虑提高Precision指标(如垃圾邮件检测系统)。
多分类模型
- Macro-average方法
- Weighted-average方法
- Micro-average方法
详见
感谢
多分类模型Accuracy, Precision, Recall和F1-score的超级无敌深入探讨.
参考文章
4 things you need to know about AI: accuracy, precision, recall and F1 scores
Accuracy, Precision and Recall: Multi-class Performance Metrics for Supervised Learning