回归任务最常用的性能度量是均方误差
1.错误率与精度
错误率:分类错误的样本占样本总数的比例
精度:分类正确的样本占样本总数的比例
2.查准率、查全率与F1
TP:真正例 FN:假反例
FP:假正例 TN:真反例
查准率P=TP/(TP+FP)
查全率R=TP/(TP+FN)
查准率和查全率是一对矛盾的度量。
在进行比较时,若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者。
平衡点/BEP:查准率=查全率
F1=2*P*R/(P+R)=2*TP/(样例总数+TP-TN)
3.ROC与AUC
ROC曲线的纵轴是真正例率TPR,横轴是假正例率FPR
TPR=TP/(TP+FN)
FPR=FP/(TN+FP)
AUC为ROC曲线下各部分的面积求和而得到。
4.代价敏感错误率与代价曲线
不同类型的错误所造成的后果不同即代价不同,重要的是代价比值而非绝对值。
FNR=1-TPR
ROC曲线上每一点对应了代价平面上的一条线段,设ROC曲线上点的坐标为(FPR,TPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价。若将ROC曲线上的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为在所有条件下学习器的期望总体代价。