K折交叉验证处理数据!

本文介绍了在机器学习中,由于数据点有限,导致训练集和测试集划分可能影响模型评估的可靠性。为此,提出了K-折交叉验证方法,详细解释了其原理,并通过Python的sklearn库展示了其实现过程。最后,讨论了K折交叉验证的关键参数,如n_splits、shuffle和random_state,并提供了一个实际案例的交叉验证代码示例。
摘要由CSDN通过智能技术生成

机器学习(Machine Learning)与 深度学习(Deep Learning)的相关研究中,经常会将数据集(dataset)划分为训练集(training set)跟测试集(testing set)这两个子集,训练集用以建立模型(model),测试集则用来评估该模型对未知样本进行预测时的精确度,正规的说法是模型的泛化能力(generalization ability)。
但是有时候我们的数据点少,训练集和测试集就会很少,因此模型结果可能会有很大波动。也就是说,训练集和测试集的划分方式可能会对模型产生很大影响,这就无法对模型进行可靠评估。

在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集随机分为k个小数据集,每次将其中一个小数据集作为测试集,剩下k-1个小数据集作为训练集进行训练,这就是K-折交叉验证

注意:当你把原始数据的训练集和测试集都划分好了之后,做K折交叉验证需要在原来的训练集上做,得出相关的结论,再在测试集上看结果。

下面上图让大家直观了解下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值