没有测量,就没有科学。
-----门捷列夫
模型评估主要分为离线评估和在线评估两个阶段。
在模型评估过程中, 分类问题、 排序问题、 回归问题往往需要使用不同的指标进行评估。 在诸多的评估指标中, 大部分指标只能片面地反映模型的一部分性能。 如果不能合理地运用评估指标, 不仅不能发现模型本身的问题, 而且会得出错误的结论。
准确率( Accuracy) , 精确率( Precision) , 召回率( Recall) , 均方根误差( Root Mean Square Error, RMSE)
准确率是分类问题中最简单也是最直观的评价指标, 但存在明显的缺陷。 比如, 当负样本占99%时, 分类器把所有样本都预测为负样本也可以获得99%的准确率。 所以, 当不同类别的样本比例非常不均衡时, 占比大的类别往往成为影响准确率的最主要因素。
以人脸检测与识别为例讲解相关指标:
- 真阳性(True Positive,TP):指被分类器正确分类的正例数据
- 真阴性(True Negative,TN):指被分类器正确分类的负例数据
- 假阳性(False Positive,FP):将负类预测为正类数 (误检)
- 假阴性(False Negative,FN):将正类预测为负类数(漏检)
准确率Accuracy =(TP+TN)/(TP+TN+FP+FN)
正检率 = TP/(TP+TN+FP+FN)
误检率 = FP/(TP+TN+FP+FN)
漏检率 = FN/(TP+TN+FP+FN)
precision = TP/(TP+FP);
Recall = TP/(TP+FN)=TP/P ;
正样本对总数P = TP+ FN
负样本对总数 N = TN+ FP
ROC曲线的横坐标为:FPR = FP/N,纵坐标为:TPR=TP/P
1. 误识率(False Accept Rate, FAR):这是将其他人误作指定人员的概率;
2. 拒识率(False Reject Rate , FRR):这是将指定人员误作其它人员的概率;
计算方法:设定一个分数阈值T,FAR=非同人分数>T/非同人比较的次数,FRR=同人比较分数<T/同人比较的次数,即FAR(False Accept Rate)和FRR都是一个关于T的函数;
一般,FAR=0.001时,FRR的值作为参考,值越小,性能越好。
误识率FAR=错误识别为正样本数/负样本对总数= FP /N;FAR=FPR
拒识率FRR=错误识别为负样本数/正样本对总数= FN/P;FRR=1-TPR
3. 采用的阈值不同,FAR和FRR这两个指标也不相同,一般情况下,误识率(FAR)随着阈值放宽条件而增大,拒识率(FRR)随着阈值放宽条件而减小。因此,可以采用等错率(Equal Error Rate, EER)作为性能的指标,EER是拒识率和误识率的一个平衡点(FAR=FRR),等错率能够取到的值越低,表示算法的性能越好;
4. AUC值作为算法好坏的评判标准,面积越大,表示分类性能越好
MAP
precision = TP/(TP+FP);
Recall = TP/(TP+FN)=TP/P ;
把每种recall对应最大的precision求和取平均即AP。
笔记于《百面机器学习》