python 自动划分数据集为测试集和验证集train_test_split

本文介绍了Python中用于自动划分数据集为测试集和验证集的train_test_split函数,详细说明了test_size、train_size、random_state等参数的作用,并通过example1和example2展示了如何将数据和标签按比例7:3进行拆分。
摘要由CSDN通过智能技术生成

如果不想看具体参数的可以拉到最后看通常使用方式

用train_test_split可以自动帮你把数据集划分为测试集和验证集

from sklearn.model_selection import train_test_split

output= sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)

*array:长度相同的可索引序列/形状[0]:输入包括lists, numpy arrays, scipy-sparse matrices 或者 pandas dataframes.
test_size:float 或 int, default=None。这个就是测试集在数据集中的比例,如果不设置或者设置为None,则自动设置为1-train_size,如果train_size 也为None,则将其设置为0.25
train_size :float 或 int, default=None。这个是测试集在数据集中比例,用法与test_size相似。
random_state :int,RandomState instance 或None,default=None。在应用拆分之前,控制应用于数据的改组。为多个函数调用传递可重复输出的int值。
shuffle:bool, default=True。是否打乱数组。如果shuffle = False,则stratify必须为None;
stratify:array-like, default=None。如果不是None,则将数据用作类标签以分层方式拆分。

output:list, length=2 * len(arrays):包含输入分离后的测试集和验证集。

example1:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值