机器学习常用性能度量指标
回归任务性能指标
回归任务最常用的指标是"均方误差"(mean squared error):
给定样例集D={(x1,y1),(x2,y2),...,(xm,ym)},其中yi是示例xi的真实标记。记f(x)为预测结果。均方误差表示为:
分类任务性能指标
错误率与精度
这两个指标既适用于二分类任务,也适用于多分类任务。
错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。
错误率定义为:
精度定义为:
显然acc(f;D)=1-E(f;D)
查准率、查全率、与F1
这三个指标使用于二分类问题。
其中查准率也称准确率,查全率也称召回率。
二分类问题中,根据样本预测样例与真实类别的组合可划分为四类:
TP(真正例),FP(假正例),TN(真反例),FN(假反例)
查准率P(precision)与查全率R(recall)分别定义为:
查准率与查全率是一对矛盾的度量。而F1是一个综合考虑查准率与查全率的度量,
其基于查准率与查全率的调和平均定义:
即:
F1度量的一般形式-Fβ,能让我们表达出对查准率、查全率的不同偏好,此处不详述。
ROC与AUC
ROC(receiver operatingcharacteristic)全称是“受试者工作特性”曲线。其综合考虑了概率预测排序的质量,体现了学习器在不同任务下的“期望泛化性能”的好坏。
ROC曲线的纵轴是“真正例率”(TruePositive Rate,TPR),横轴是“假正例率”(False Positive Rate,FPR),分别定义为:
AUC(Area Under ROC Curve)代表ROC曲线下面积。代表了样本预测的排序质量。