【sklearn】数据集拆分 sklearn.moduel_selection.train_test_split

Enzo 想砸电脑

已于 2023-03-26 15:29:46 修改

阅读量820

点赞数

文章标签： sklearn 机器学习 python

于 2022-07-20 21:59:13 首次发布

本文链接：https://blog.csdn.net/weixin_37804469/article/details/125901360

版权

sklearn 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

函数

X_train,X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, 
                                                                           test_size=None, 
                                                                           train_size=None, 
                                                                           random_state=None, 
                                                                           shuffle=True, 
                                                                           stratify=None)

参数：

X：待划分的样本特征集合
y：待划分的样本标签
test_size：若在0~1之间，为测试集样本数目与原始样本数目之比；若为整数，则是测试集样本的数目。
random_state：随机数种子，默认不设置。不设置的话，每次运行分割出来的测试数据集都是随机的；设置的话，每次运行划分出来的都是同一个结果。不同种子划分出的结果不一样，相同种子运行划分出的结果一样。

返回值

X_train 划分出的训练集数据（返回值）
X_test 划分出的测试集数据（返回值）
y_train 划分出的训练集标签（返回值）
y_test 划分出的测试集标签（返回值）

举例：

import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(20).reshape((10, 2)), np.arange(10)
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_state=12)

print('X\n',X)
print('\n y \n',y)
print('\n X_train \n',X_train)
print('\n X_test \n',X_test)
print('\n y_train \n',y_train)
print('\n y_test \n',y_test)