一、性能量度
性能量度:衡量模型泛化能力的评价标准。性能量度反映了任务需求,在对比不同模型的能力时,会使用不同的性能量度,使用不同的性能量度往往会导致不同的评判结果。
方法:把学习器预测结果与真实标记比较
二、常用性能量度
1、回归任务最常用的性能量度:均分误差
D={(x1,y1),(x2,y2),…,(xm,ym}为数据集,p(.)为概率密度
表达式为E(f;D)=∫(x~D)(f(x)-y)^2 p(x)d(x)
2、分类任务中常用的性能量度
1.错误率与精度
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例
错误率表示:E(f;D)=∫(x~D)‖(f(x)≠y)p(x)d(x)
精度表示:acc(f;D)=∫(x~D)‖(f(x)=y)p(x)d(x)=1-E(f;D)
2.查准率、查全率与F1
TP+FP+TN+FN=样本总数
真实情况 | 预测结果 | 预测结果 |
---|---|---|
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
查准率P=TP/(TP+FP)(真正正确的在预测正确中的比例)
查全率R=TP/(TP+FN)(真正正确的在真实正确中的比例)
查准率和查全率是一对矛盾的度量
P-R曲线
若一个学习器的P-R曲线被另一个学习器完全包住,则后者的性能优于前者,若有交叉则有如下方法判断:
基于BEP(平衡点(查准率=查全率))的比较
F1度量
F1=2×P×R/(P+R)=2×TP/(样例总数+TP-TN)
F1的一般形式-Fβ
Fβ=(1+β^2)×P×R/(P+R)
先求查准率和查全率的平均值再计算
宏查准率:macro-P=1/n∑(Pi)
宏查全率:macro-R=1/n∑(Ri)
宏F1:macro-F1=(2×macro-P×macro-R)/(macro-P+macro-R)
先将混淆矩阵对应元素平均值再计算
微查准率:micro-P=TP的平均值/(TP的平均值+FP的平均值)
微查全率:micro-R=TP的平均值/(TP的平均值+FN的平均值)
微F1:micro-F1=(2×micro-P×micro-R)/(micro-P+micro-R)
3.ROC与AUC
ROC曲线的纵轴是真正确率TPR,横轴是假正确率FPR
TPR=TP/(TP+FN)
FPR=FP/(TN+FP)
通过调阈值(预测试与阈值比较来分为正反两类)改变TPR,FPR
在实际绘图中,给定m+个正例和m-个反例,设前一个标记点坐标(x,y),当前若为真正例,则对应标记点的坐标为(x,y+1/m+);当前若为假正例,则对应标记点的坐标为(x+1/m-,y)。
AUC(ROC曲线下的面积)当两ROC交叉时判断孰优孰劣。
公式:
4.代价敏感错误率和代价曲线
目的:为权衡不同类型错误所造成的不同损失
代价矩阵:
真实类别 | 预测类别 | 预测类别 |
---|---|---|
第0类 | 第1类 | |
第0类 | 0 | cost01 |
第1类 | cost10 | 0 |
代价敏感错误率:
代价曲线:
横轴正例概率代价:
(p为正例比例)
纵轴归一化代价:
面积即为所在条件下学习器的期望总体代价。