模型评估与选择

经验误差与过拟合

错误率

精度 = 1- 错误率

误差是实际预测输出与真实样本输出的差异, 分为训练误差、泛化误差

例如:预测值为[0123]     真实值为[0121]     误差为|Y-Y1| = [0002]

过拟合和欠拟合 (P24 树叶的分类)

评估方法

1,留出法(三七分 或者六四分)

2,交叉验证

多少个样本分多少个测试集合 ,每个样本都当一次测试集

3,自助法(包外估计)

从样本中随机抽取一个,再将样本放入总样本中。再次抽取。

验证集

性能度量

1 均方误差 回归任务最常用

2 求错误率 II代表

3 查全率:在真实的类别中,预测正确的比列,分母是真实类别的样本数量。

查准率:在所预测的类别中,预测正确的比列,分母是预测类别的样本数量。

混淆矩阵》

0类 10个  预测0类正确 8  错误: 4  ==》》查全率  8/10  查准率 8/(4+8)  

查全率和查准率适用于数据分布不充分。

例如:1 2 3 4 5 6 7 8 9 10 ,5为1类,其余为0类,只需要将所有的数据都归为0类,这样准确率也至少有90percent。

P-R反向关系原理

4 P-R曲线的平衡点BEP(break-even point)

西瓜书p31

F1度量

\frac{1}{F1} = \frac{1}{P}+\frac{1}{R}

 

多分类问题的度量

执行多分类问题,每两两类别的组合对应一个混淆矩阵。例如:1,2,3,4,5,6,7,8,9,10

两两组合类别,(1,2)(1,3),...(2,2)..(8,9)  总共组合10*9/2  ( c_{10}^{2})

 

ROC曲线 

AUC即 ROC curve 与假正例的面积

AUC = 1- rank 

 rank loss 计算

 II()代表计算个数

判断为5的正例有 6个  非5有6个, 第一个5 有两个大于,第二个5有一个,第三个5有1个

计算罚分2+1+1 = 4  ,假设没有等于罚分,则 rank = 4/6*6。

代价敏感错误率与代价曲线

回归的‘均方误差’

假设检验

二项检验????

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值