机器学习数据集(训练集、测试集)划分方法

本文介绍了机器学习中数据集划分的三种常用方法:留出法、交叉验证法和自助法。留出法通过随机划分数据为训练集和测试集,但可能因划分不同导致评估结果不稳定。交叉验证法通过多次切分数据进行训练和测试,减少偏差。自助法则基于有放回的采样创建训练集,适用于数据量小的情况。每种方法都有其适用场景和优缺点。
摘要由CSDN通过智能技术生成

  一个模型的好坏终归还是需要一个客观的评价标准,但是现有标准都比较难以适用于单次评估,毕竟单次评估过于具有偶然性,这个问题的解决方法就是多训练几次模型,综合评估一下。
  但是训练模型总不能,在相同的数据集上,一直运行,一直评估。一个比较好的解决方法就是对数据集进行不同的划分,然后多训练几个模型,最后指标综合一下。这篇文章整理一下机器学习中数据集划分的方法,当然划分的主要目的还是为了多方面的评估模型。
  划分数据集的过程中主要目的就是为了把数据划分为不同的训练集和测试集,一般文献中也会将验证集隐含在训练集中,两者都是在训练过程中使用的。数据集选择的过程中有几点要求需要遵循。

  • 训练集应尽可能的与测试集互斥
  • 一定程度上,要保持训练和测试数据分布的一致性,这样有利于模型学习

   如果数据的采样过程中,想要保留类别比例,也就是说把每一个类别的数据作为采样单元,这样的采样方式就称为分层采样了。以下介绍几种基础的数据集选择方式。

留出(Hold-out)法

  直接将数据集D划分为两个互斥的集合,分别作为训练集和测试集。不同的划分能够导致不同的效果,因此单次使用留出法得到的估计结果往往不够可靠稳定,一般采用若干次随机划分, 重复试验之后取平均值作为评估结果。
  因为数据集被分成了数据集和测试集,这就导致了使用训练集训练的模型与整个数据集有差异。通常需要对S(训练集)和T(测试集)的比例进行权衡,一般使用 2 3 到 4 5 \frac{2}{3}到\frac{4}{5} 32

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值