sk-learn中StratifiedShuffleSplit（）函数实现对数据集的划分

最新推荐文章于 2024-05-30 00:26:08 发布

Kun Li

最新推荐文章于 2024-05-30 00:26:08 发布

阅读量1.3w

点赞数 5

分类专栏：函数用法

本文链接：https://blog.csdn.net/u012193416/article/details/79313601

版权

52 篇文章 12 订阅

订阅专栏

sk-learn中提供了对数据集进行打乱划分的函数，StratifiedShuffleSplit（）是非常实用的函数，数据集在进行划分之前，首先是需要进行打乱操作，否则容易产生过拟合，模型泛化能力下降。

sklearn.model_selection.StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=None)

参数 n_splits 是将训练数据分成train/test对的组数，可根据需要进行设置，默认为10

参数test_size和train_size是用来设置train/test对中train和test所占的比例。

注*：train_num≥2，test_num≥2 ;test_size+train_size可以小于1*

参数 random_state控制是将样本随机打乱

函数作用描述
1.其产生指定数量的独立的train/test数据集划分数据集划分成n组。
2.首先将样本随机打乱，然后根据设置参数划分出train/test对。
3.其创建的每一组划分将保证每组类比比例相同。即第一组训练数据类别比例为2:1，则后面每组类别都满足这个比例

代码举例：

如上代码所示，产生了3组数据，每组都是x，y训练和测试的索引值。

test_size = 0.5，表示测试和训练数据各占一半，train和test的索引值每个都是2

n_splits = 3 ，有三组索引值

我们取最后一组索引值：

训练集第0个是[1,2]，第2个是[1,2]，标签是对应的0,1

测试集第3个是[3,4]，第1个是[3,4]，标签对应的是1,0

关注