性能度量——代价曲线
一、常见的性能度量
1、错误率/精度
2、precision/recall 及F1
P-R曲线,若一个曲线A完全包住另外一个B,则A优于B
3、ROC/AUC
ROC:TPR(y)-FPR(x),考虑的是排序的质量
AUC:Area Under ROC Curve
二、常见的性能度量方式的优缺点
1、单标量(错误率,精度,auc):
- 过于简单,不能表达出模型不同方面的性能;
- 不能明确指出在什么具体情况下,模型A优于B,只能给定哪个模型好,而实际情况是不同情况下A,B性能优劣可能不同
(AUC也存在这个问题)
2、ROC:
优点:
- 二维信息,保留对正负样本分类的信息;
- 对于各种分类阈值都能知道其分类情况;
- 若一个曲线完全包住另外一个,可知优劣;
缺点:
- 即使给定分类代价以及阈值,也不能直接得到一个明确的代价值
- 它是基于阈值两边的分布计算得来,不能直接把所有样本分到一个类别里对比性能
- 两个分类器的性能区别?