函数
X_train,X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y,
test_size=None,
train_size=None,
random_state=None,
shuffle=True,
stratify=None)
参数:
- X: 待划分的样本特征集合
- y: 待划分的样本标签
- test_size: 若在0~1之间,为测试集样本数目与原始样本数目之比;若为整数,则是测试集样本的数目。
- random_state:随机数种子,默认不设置。不设置的话,每次运行分割出来的测试数据集都是随机的;设置的话,每次运行划分出来的都是同一个结果。不同种子划分出的结果不一样,相同种子运行划分出的结果一样。
返回值
- X_train 划分出的训练集数据(返回值)
- X_test 划分出的测试集数据(返回值)
- y_train 划分出的训练集标签(返回值)
- y_test 划分出的测试集标签(返回值)
举例:
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(20).reshape((10, 2)), np.arange(10)
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_state=12)
print('X\n',X)
print('\n y \n',y)
print('\n X_train \n',X_train)
print('\n X_test \n',X_test)
print('\n y_train \n',y_train)
print('\n y_test \n',y_test)