西瓜书之模型评估与选择(笔记一)

一些概念

       P类问题——所有复杂度为多项式时间的问题集合

       NP类问题——可以在多项式时间内验证一个解是否正确的问题

评估方法

数据要分为训练集和测试集(注意在划分训练集和测试集的时候,要保持数据分布的一致性),

有三种方法:

1.留出法

  •  将训练集跟测试集划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。
  • 在使用时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
  • 常见做法是留2/3~4/5作为训练集,剩余的作为测试集

2.交叉验证法

  • 一般称为k折交叉验证
  • 一整个数据集划分为K类,然后将k-1类作为训练集,剩下的1类作为测试集。以此类推,进行k次
  • 常用的是10折交叉验证、5折交叉验证、8折交叉验证

3.自助法

  • 给定包含m个样本的数据集D,随机(放回)抽样抽出D'个,(有约36.8%的数据一定不会被采样到——这些数据可用作测试),D'用作训练集,D/D'用作测试
  • 能从初始数据集中产生多个不同的训练集
  • 数据集较小且难以划分的时候特别有用

 性能度量

1.错误率

所有[f(xi)≠yi(预测不等于真实)]/m(所有样本数)

2.精度

1-错误率

3.查准率

真实情况预测情况
正例反例
正例TP(真正例)FN(假正例)
反例FP(假反例)TN(真反例)

P=TP(真实和预测都是正例)/TP+FP(预测是正例)

4.查全率

R=TP(真实和预测都是正例)/TP+FN(真实情况是正例,无论预测出来是正还是假)

 注:查准率高时,查全率往往是低的;查准率低时,查全率往往是高的。通常只有一些简单的任务,才可能使查准率和查全率都比较高

一些概念:

置信度(可靠度)   总体参数值落在样本统计值某一区内的概率;

置信区间    指在某一置信水平下,样本统计值与总体参数值间误差范围

置信区间越大,置信水平越高

自由度    指计算某一统计量时,取值不受限制的变量个数。通常,df=n-k. n为样本含量,k为被限制的条件数或变量个数.

比较检验方法(待写详细):

1.假设检验

2.交叉检验t检验

3.McNemar检验

4.Friedman检验、Nemenyi后续检验

关于偏差、方差、噪声

偏差   度量了学习算法的期望预测与真是结果的偏离程度-----刻画了学习算法本身的拟合能力

方差   度量了同样大小的训练集的变动所导致的学习性能的变化-----刻画了数据扰动所造成的影响

噪声   表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界-----刻画了学习问题本身的难度

训练不足-----拟合能力不够强----偏差主导泛化错误率

训练加深-----拟合能力增强,数据扰动能被学习到-----方法主导泛化错误率

训练过猛-----容易造成过拟合

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值