在预测任务中, 给定样本集
D={(x1,y1),(x2,y2),...,(xm,ym)}
, 其中
yi
是样本
xi
的真实标记, 要评估学习器的性能, 就要把学习预测结果
f(x)
跟真实的标记进行比较。
回归任务常用均方误差(mean squared error)
E(f;D)=1m∑i=1m(f(xi)−yi)2
更一般的, 对于数据分布 D 和其概率密度函数
E(f:D)=∫x⊂D(f(x)−y)2p(x)dx
错误率与精度
给定样本集
D
, 分类错误率定义为
精度定义为
acc(f;D)=1m∑i=1m(f(xi)==yi)
更一般的, 对于数据分布 D 和其概率密度函数
E(f;D)=∫x⊂D(f(x)≠y)p(x)dx
acc(f;D)=∫x⊂D(f(x)==y)p(x)dx=1−E(f;D)
混淆矩阵(Confusion Matrix)
对于二分类问题, 可以将其真实类别和预测类别的组合划分为TP(true positive), FP(false positive), TN(true negative), FN(false negative)四种, 显然 TP + FP + TN + FN = 样本总数。
分类结果的混淆矩阵如下所示
真实情况 | 预测结果 |
---|---|
正例 | 正例(TP) |
正例 | 反例(TN) |
反例 | 正例(FP) |
反例 | 反例(FN) |
查准率
P
与查全率R
P=TPTP+FP
R=TPTP+TF
P-R曲线, ROC 与 AUC
P-R 曲线是以P为纵轴, R为横轴作图得到的曲线.
平衡点(Break-Even Point) 是 P == R 时候的取值.
True Positive Rate(TPR)
False Positive Rate(FPR)
TPR=TPTP+FN
FPR=FPTN+FP
ROC曲线就是以TPR为纵轴, FPR为横轴的曲线
AUC(Area Under ROC Curve)
Reference
- 机器学习 - 周志华 清华大学出版社