ML之FE：特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码

一个处女座的程序猿

已于 2024-03-05 00:26:29 修改

阅读量6.2k

点赞数 9

分类专栏： DataScience ML 精选(人工智能)-中级文章标签：机器学习人工智能数据挖掘

于 2020-09-07 18:59:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41185868/article/details/108411370

版权

精选(人工智能)-中级同时被 3 个专栏收录

329 篇文章 1316 订阅 ¥99.90 ¥299.90

订阅专栏

514 篇文章 131 订阅

订阅专栏

326 篇文章 72 订阅

订阅专栏

本文深入探讨了特征工程中五大数据集划分方法：留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据（如时间序列）分割法。强调了不同方法的适用场景，如留1法在大样本量时的计算成本，K折交叉验证在小样本时的优势，以及自助采样法对小数据集的处理。还提到了StratifiedShuffleSplit等分层随机划分方法以保持类别比例。

摘要由CSDN通过智能技术生成

ML之FE：特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码

导读：将整个数据集D划分为三个互斥的集合{训练集、验证集和测试集}。在对数据集进行划分时，目前最常用的思路，是要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。例如在分类任务中至少要保持样本的类别比例相似。因此通常使用分层采样（stratified sampling）划分数据以保留类别比例，比如带Stratified前缀的方法均可。

留1法/留p法：常用在数据集样本数量很大时，但也比较耗算力。比如采用2:1:1或者4:1:1的比例进行划分。如果数据集样本量较少时，采用这种划分方法，得到的模型评估结果往往不够稳定。

k折交叉验证法：交叉验证充分的利用了数据集中的数据，因此当样本数量较小时，可以采用这种方法划分数据集。

自助采样法Bootstrap Resampling：适用于小的、难以划分的数据集，不可避免的改变原始分布(带来偏差)

目录

ML之FE：特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码

ML之FE：特征工程中常用的五大数据集划分方法(特殊类型数据分割，如时间序列数据分割法)讲解及其代码

ML之FE：特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、时间序列数据分割法)全部具体代码实现

特征工程中常用的数据集划分方法及其代码实现

0、各种方法对比：留1法、留多法、k折交叉验证

1、留1法/留P法

1.1、留1法LeaveOneOut、LeaveOneGroupOut

1.2、留P法LeavePOut、LeavePGroupsOut

2、随机划分法ShuffleSplit、GroupShuffleSplit、StratifiedShuffleSplit

3、K折交叉验证法KFold、GroupKFold、StratifiedKFold

ML之FE：特征工程中常用的五大数据集划分方法—模型训练/模型评估中常用的两种方法代码实现(留一法一次性切分训练和K折交叉验证训练)

3.1、KFold源代码解释

3.2、GroupKFold源代码解释

3.3、StratifiedKFold源代码解释

4、自定义分割方案数据PredefinedSplit

5、特殊类型数据分割

6、自助采样法Bootstrap Resampling

了解本专栏

一个处女座的程序猿

关注

9
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个处女座的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。