本篇介绍常用的评价指标,并介绍其原理,加上一些自己的理解。
介绍篇——评价指标
最新更改:2020-6-22
评价指标用来评价一个学习器的好坏。
评价模型我们始终要明白一个道理NFL:没有免费的午餐!
学习器的评价不是绝对的,它取决于你使用的数据特点,需求,算法等各种方面。
回归任务常用的评价指标是均方误差:
假设:实际结果为Y,预测结果为Y’,样本集个数n,那么:
本文主要介绍分类任务的评价指标:
=>正式开始前认识四个值,通过这四个值,可以求得一部分指标。
实际结果 | 正例(预测) | 反例(预测) |
---|---|---|
正例 | TP | FN |
反例 | FP | TN |
1、精度+错误率
① 精度(Accuracy,又称正确率):分类正确的样本占全部样本的比例
=>定义:(TP+TN)/(TP+FN+FP+TN)
②错误率 :分类错误的样本占全部样本的比例
=>定义:(FN+FP)/(TP+FN+FP+TN)
2、查准率+查全率+F1
① 查准率(Precision,又称准确率):预测是正例的样本中,的确是正例的比例
=>定义:(TP)/(TP+FP)
②查全率(Recall,又称召回率):正例的样本中,被预测为正例的比例
=>定义:(TP)/(TP+FN)
③F1
如上图为P-R(Pre-Rec)图,如果两个学习器的曲线没有相交,那么谁与xy轴组成的面积更大,谁的性能更好;那么如果相交了呢?这是如果用面积表示的话会产生一些异论,于是BEP(平衡点)被提出来解决这个问题,常用的度量就是F1值:
PS:因为Pre与Rec表示不同,在一些需求条件下会用二者一个比较更好而不是两个值一起比较。Pre与Rec与F1在计算原理时,对于混淆矩阵的处理不同,他们有又有分别对应的宏值与微值。
3、ROC+AUC
根据学习器的预测结果对样例进行排序,最有可能为正样本的在前,最不可能的在后,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图’就得到了 ROC 曲线(类比P-R图)
PS:曲线为ROC曲线,曲线下的阴影面积为AUC。
真正例率(TPR)与假正例率(FPR):
学习器的比较时,与P-R 图相似,一个学习器的 ROC 曲线被另一个学习器的曲线完全"包住", 则后者的性能优于前者;若两个学习ROC 曲线发生交叉,则难以比较,此时如果一定要进行比较 则较为合理的判据是 比较 ROC 线下 的面积,即比较AUC。