2.3 性能度量
对模型的泛化性能进行评估,不仅需要有效可的评估方法,还要有模型的泛化能力的评价标准,这就是性能度量。
对预测任务就要把模型对于每个输入的预测效果f(x)与真实的结果进行比较。
回归任务最常用的性能度量是“均方误差”,就是类似数学方差。即实际输出与预期输出做差求平方在求均值。
2.3.1 错误率与精度
错误率与精度是分类任务中最常用的两种性能度量。
2.3.2 查准率、查全率和F1
首先,引入概念“混淆矩阵”。
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(Ture Positive)、假正例(False Positive)、真反例(True Negetive)、假反例(False Negetive)。
令TP、FP、TN、FN分别表示这四种情况。
则有如下混淆矩阵:
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP | FN |
反例 | FP | TN |
则查准率P和查全率R分别定义为:
P = TP/(TP+FP) 预测结果为正例的全部情况中,真实情况也为正例的比例
R = TP/(TP+FN) 真实情况为正例的全部情况中,预测结果也为正例的比例
查准率高时查全率往往低,查全率高时查准率往往低。
由查准率和查全率可以画出一个曲线,叫做P-R曲线,纵轴为查准率P,横轴为查全率R。(下图来源:https://blog.csdn.net/dpengwang/article/details/93461022)
当一条曲线完全包住另一条曲线时,称这个学习器效果更好。例如,B与C相比,B的效果更好,但是A与B相交不能得出哪个学习器效果更好,因此要引入一些指标来衡量不同的学习器学习效果。
例如,引入平衡点BEP这个度量,即比较P=R的时候的性能来衡量学习器的性能。图中条角平分线就是BEP。
更常用的是F1,F1 = 2PR/(P+R) = 2TP/(样例总数+TP-TN)
F1的一般形式是Fβ:
Fβ=(1+β^2)*P*R/((β^2*P)+R)
当β=1时,Fβ即为F1,当β<1时,查准率有更大影响,当β>1时查全率又更大影响。
当进行多多次训练/测试时会产生多个二分类混淆矩阵,或者在多数据上进行训练/测试,在或者对于多酚类问题时两两对应一个混淆矩阵,因此我们需要在多个混淆矩阵上总额和考察查准率和查全率。
我们对此可以分别计算出多个矩阵的查准率P,查全率R,再计算出来平均值,得到宏查准率(Macro-P)和宏查全率(Macro-R),及相应的宏F1(Macro-F1)。
还可以将TP FP TN FN进行平均在求得微查准率(Micro-P)、微查全率(Micro-R)及相应的微-F1(Micro-F1)。
ROC与AUC
ROC曲线则是从这个角度出发来研究学习器泛化性能的工具。
ROC(Receiver Operating Characteristic) 受试者工作特征。
TPR=TP/(TP+FN)
FPR=FP/(TN+FP)
AUC可以对ROC曲线下的面积求和而得。