ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码
导读:将整个数据集D划分为三个互斥的集合{训练集、验证集和测试集}。在对数据集进行划分时,目前最常用的思路,是要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。例如在分类任务中至少要保持样本的类别比例相似。因此通常使用分层采样(stratified sampling)划分数据以保留类别比例,比如带Stratified前缀的方法均可。
- 留1法/留p法:常用在数据集样本数量很大时,但也比较耗算力。比如采用2:1:1或者4:1:1的比例进行划分。如果数据集样本量较少时,采用这种划分方法,得到的模型评估结果往往不够稳定。
- k折交叉验证法:交叉验证充分的利用了数据集中的数据,因此当样本数量较小时,可以采用这种方法划分数据集。
- 自助采样法Bootstrap Resampling:适用于小的、难以划分的数据集,不可避免的改变原始分布(带来偏差)
目录
ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其相关函数源码
ML之FE:特征工程中常用的五大数据集划分方法(特殊类型数据分割,如时间序列数据分割法)讲解及其代码
ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、时间序列数据分割法)全部具体代码实现
1.1、留1法LeaveOneOut、LeaveOneGroupOut
1.2、留P法LeavePOut、LeavePGroupsOut
2、随机划分法ShuffleSplit、GroupShuffleSplit、StratifiedShuffleSplit
3、K折交叉验证法KFold、GroupKFold、StratifiedKFold
ML之FE:特征工程中常用的五大数据集划分方法—模型训练/模型评估中常用的两种方法代码实现(留一法一次性切分训练和K折交叉验证训练)