简单概括一下机器学习中划分数据集的三种方式

# 这还是机器学习总结的一小部分,接上一篇基本属术语,最后我会发一个总结(还没整理完)#

综述:

留出法和交叉验证法适用于样本数量较大的数据集,自助法适合样本数量较小的数据集。

1、留出法:

概述:对于一个训练集d,比如有1到10十个数字,我们把1-6分为训练集,8-10分为测试集。这就是留出法。

留出法的要点

我认为有三个:

1、要保证训练集和测试集中的样本分布相似。比如在西瓜里,若有5个好瓜和5个坏瓜,训练集里就要有3个好瓜和3个坏瓜。测试集里就要有2个好瓜和2个坏瓜。

2、进行多次留出,计算多次结果的平均值作为最终结果:我们可以进行多次的随机划分,并把每次的测试集的结果取平均值。

3、训练集的划分尽量占数据集的2/3到4/5之间

2、交叉验证法(k折交叉验证):

概述:把数据集平均分为k部分,每次用k-1部分作为训练集,剩下1部分作为测试集。为减少因样本分布而产生的误差,我们通常会使用不同的划分重复p次,最终取多次结果的均值。

k折交叉验证的特殊情况:留一法

3、自助法:

有数据集d,现在新建一个空集d‘,然后每次随机取一个样本,复制进d’,再把这个样本放回d,这样的过程进行m次,最后就有了d‘作为训练集,d-d'作为测试集。

  • 11
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值