sklearn中, 对样本数据进行训练集和测试集分割的API :sklearn.model_selection.train_test_split(*arrays, **options)
参数说明:
array : 具有相同行数的样本数据序列(每个序列中的样本数要一致);
可以有多个样本序列,序列可以是python list, numpy array, matrice, pandas dataframe。
test_size/train_test : 训练集和测试集的比例,两个参数任选一个就行,取值是 0.0 ~ 1.0.
random_state : 随机数种子设置,设定一个int 型数字后,只要种子数值一样,多次产生的随机数是一致的。
shuffle : bool类型,是否对样本书打乱再进行训练集和测试集数据的分割。
返回值:对样本数据分割后的训练集和测试集的数据。
from sklearn.model_selection import train_test_split
import numpy as np