机器学习笔记 - 性能度量

在预测任务中, 给定样本集 D={(x1,y1),(x2,y2),...,(xm,ym)} , 其中 yi 是样本 xi 的真实标记, 要评估学习器的性能, 就要把学习预测结果 f(x) 跟真实的标记进行比较。
回归任务常用均方误差(mean squared error)

E(f;D)=1mi=1m(f(xi)yi)2

更一般的, 对于数据分布 D 和其概率密度函数p(.), 均方误差可描述为
E(f:D)=xD(f(x)y)2p(x)dx

错误率与精度

给定样本集 D , 分类错误率定义为

E(f;D)=1mi=1m(f(xi)yi)

精度定义为

acc(f;D)=1mi=1m(f(xi)==yi)

更一般的, 对于数据分布 D 和其概率密度函数p(.), 错误率和精度定义为
E(f;D)=xD(f(x)y)p(x)dx

acc(f;D)=xD(f(x)==y)p(x)dx=1E(f;D)

混淆矩阵(Confusion Matrix)

对于二分类问题, 可以将其真实类别和预测类别的组合划分为TP(true positive), FP(false positive), TN(true negative), FN(false negative)四种, 显然 TP + FP + TN + FN = 样本总数。
分类结果的混淆矩阵如下所示

真实情况预测结果
正例正例(TP)
正例反例(TN)
反例正例(FP)
反例反例(FN)

查准率 P 与查全率R

P=TPTP+FP

R=TPTP+TF

 P-R曲线, ROC 与 AUC

P-R 曲线是以P为纵轴, R为横轴作图得到的曲线.
平衡点(Break-Even Point) 是 P == R 时候的取值.
True Positive Rate(TPR)
False Positive Rate(FPR)

TPR=TPTP+FN

FPR=FPTN+FP

ROC曲线就是以TPR为纵轴, FPR为横轴的曲线
AUC(Area Under ROC Curve)

Reference

  • 机器学习 - 周志华 清华大学出版社
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值