西瓜书第二章笔记-评估方法

本文介绍了机器学习中数据集划分的三种常见方法:留出法、交叉验证法和自助法,以及它们各自的优缺点。错误率和精度作为基础评估指标,被用来衡量模型的性能。留一法在小样本时适用,但计算成本高;交叉验证能更充分利用数据,而自助法则在数据有限时提供额外训练集。选择合适的数据划分方法对于模型的泛化能力至关重要。
摘要由CSDN通过智能技术生成

基础指标

错误率:测试样本中错判比例

精度:1-错误率

训练集和测试集划分方法:

1.留出法

总数据集D=训练集S+测试集T

传统的三七开之类的,三成测试集,七成训练集。一般还要采用分层采样,让测试集和训练集中正负样本比例相同。

单次留出法往往不够可靠,一般会随机多次。

2.交叉验证法

k折交叉验证即将全部样本D分成k份,然后选出其中k-1份当作训练集,剩余1份当作测试集,并将此过程重复k次(每次的测试集都不同)。

划分时也可选用多种划分方式,一般k折交叉验证通常要随机使用不同的划分方式重复p次,这叫p次k折交叉验证。

如果样本一共只有m个,然后取k=m,这叫留一法,这样就不受随机样本划分的影响了,由于训练集比较接近D,所以效果往往比较准确,但是耗时多。

3.自助法

上面两种方法都不太能完全利用D训练(留一法耗时太多),为了解决这个问题,提出自助法(bootstrapping)。

给定包含m个样本的数据集D,有放回的采样m次,每次拿1个样本,(注意采样总数和数据集D的样本总数是一样的!!!),这样可以得到D',D'作为训练集,D\D'作为测试集,这样的测试结果也叫“包外估计”。

自助法在数据集较小、难以有效划分训练/测试集时很有用。且能从初始数据集中产生多个不同的训练集,对集成学习比较好。

但是也有缺点,改变了初始数据集的分布,会引入估计偏差,所以在数据集充足的情况下还是留出和交叉验证好一些。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值