机器学习模型评估与选择(2)

上节讨论了留出法、交叉验证法、自助法这三种实验评估方法,有了方法,还需要评价标准,这就是性能度量

性能度量也有很多中种,之前说过
分类:预测离散值,二分类和多分类
回归:预测连续值

回归任务最常用的性能度量是均方误差,一般的,对于数据分布D和概率密度函数p:

E(f;D)=xD(f(x)y)2p(x)dx E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x

其中,f(x)是学习器的预测结果,y是真实label。

主要讨论分类任务种常用的性能度量


错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例
对于数据分布D和概率密度函数p,错误率如下:
错误率

对于数据分布D和概率密度函数p,精度如下:
精度


错误率和精度不能满足所有任务需求,例如对于西瓜问题有:
“挑出的西瓜有多少比例是好瓜”——查准率
“所有的好瓜有多少比例被挑出来”——查全率
对于二分类问题,定义混淆矩阵如下:

这里写图片描述
这时,查准率P可以定义为:

P=TPTP+FP P = T P T P + F P

查准率就是预测结果种的正例的准确率
查全率R可以定义为:
R=TPTP+FN R = T P T P + F N

查全率是真实情况的正例被预测出来的比例

在复杂任务中,查准率和查全率是一对矛盾的度量。

根据学习器的预测结果对样例进行排序,“最可能”是正例的样本排在前面。按这个顺序逐个选择样本作为边界,这个样本之前都作为正例(包括这个样本),这个样本之后都作为反例,计算出当前的查准率P,查全率R,这就是PR图中的一个点。当只包含1个样本作为正例的时候的PR pair是多少(R肯定接近0,P理论上接近1),2个、3个、一直到所有的检测样本都包含。以P为纵轴,R为横轴,就得到PR曲线

这里写图片描述

如上图所示,A的曲线完全包住C,故学习器A的性能优于C;而A,B曲线有交叉,就不能断定谁优谁劣,只能在具体P或R值下比较。

平衡点(BEP):P=R时的取值

也可以基于平衡点比较学习器性能,此时,A性能>B性能>C性能

因为BEP太简单了,更常用F1度量,F1度量是基于查准率P和查全率R的调和平均定义的。

1F1=12(1P+1R
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值