ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码

514 篇文章 131 订阅
326 篇文章 72 订阅
本文深入探讨了特征工程中五大数据集划分方法:留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据(如时间序列)分割法。强调了不同方法的适用场景,如留1法在大样本量时的计算成本,K折交叉验证在小样本时的优势,以及自助采样法对小数据集的处理。还提到了StratifiedShuffleSplit等分层随机划分方法以保持类别比例。
摘要由CSDN通过智能技术生成

ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码

导读:将整个数据集D划分为三个互斥的集合{训练集、验证集和测试集}。在对数据集进行划分时,目前最常用的思路,是要尽可能保持数据分布的一致性避免因数据划分过程引入额外的偏差而对最终结果产生影响。例如在分类任务中至少要保持样本的类别比例相似。因此通常使用分层采样(stratified sampling)划分数据以保留类别比例,比如带Stratified前缀的方法均可。

  • 留1法/留p法:常用在数据集样本数量很大时,但也比较耗算力。比如采用2:1:1或者4:1:1的比例进行划分。如果数据集样本量较少时,采用这种划分方法,得到的模型评估结果往往不够稳定。
  • k折交叉验证法:交叉验证充分的利用了数据集中的数据,因此当样本数量较小时,可以采用这种方法划分数据集。
  • 自助采样法Bootstrap Resampling:适用于小的、难以划分的数据集,不可避免的改变原始分布(带来偏差)

目录

相关文章

ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码

ML之FE:特征工程中常用的五大数据集划分方法(特殊类型数据分割,如时间序列数据分割法)讲解及其代码

ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、时间序列数据分割法)全部具体代码实现

特征工程中常用的数据集划分方法及其代码实现

0、各种方法对比:留1法、留多法、k折交叉验证

1、留1法/留P法

1.1、留1法LeaveOneOut、LeaveOneGroupOut

1.2、留P法LeavePOut、LeavePGroupsOut

2、随机划分法ShuffleSplit、GroupShuffleSplit、StratifiedShuffleSplit

3、K折交叉验证法KFold、GroupKFold、StratifiedKFold

ML之FE:特征工程中常用的五大数据集划分方法—模型训练/模型评估中常用的两种方法代码实现(留一法一次性切分训练和K折交叉验证训练)

3.1、KFold源代码解释

3.2、GroupKFold源代码解释

3.3、StratifiedKFold源代码解释

4、自定义分割方案数据PredefinedSplit

5、特殊类型数据分割

6、自助采样法Bootstrap Resampling

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值