sk-learn中StratifiedShuffleSplit()函数 实现对数据集的划分

sk-learn中提供了对数据集进行打乱划分的函数,StratifiedShuffleSplit()是非常实用的函数,数据集在进行划分之前,首先是需要进行打乱操作,否则容易产生过拟合,模型泛化能力下降。


sklearn.model_selection.StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=None)

参数  n_splits 是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10

参数test_size和train_size是用来设置train/test对中train和test所占的比例。

注*:train_num≥2,test_num≥2 ;test_size+train_size可以小于1*

参数 random_state控制是将样本随机打乱

函数作用描述 
1.其产生指定数量的独立的train/test数据集划分数据集划分成n组。 
2.首先将样本随机打乱,然后根据设置参数划分出train/test对。 
3.其创建的每一组划分将保证每组类比比例相同。即第一组训练数据类别比例为2:1,则后面每组类别都满足这个比例

代码举例:


如上代码所示,产生了3组数据,每组都是x,y训练和测试的索引值。

test_size = 0.5,表示测试和训练数据各占一半,train和test的索引值每个都是2

n_splits = 3 ,有三组索引值


我们取最后一组索引值:


训练集第0个是[1,2],第2个是[1,2],标签是对应的0,1

测试集第3个是[3,4],第1个是[3,4],标签对应的是1,0

  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值