1、train_test_split
将数组或矩阵拆分为随机训练和测试子集
用法:
sklearn.model_selection.train_test_split(*arrays, **options)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
参数:
* 具有相同长度/形状的可索引数组的序列[0]
允许的输入是列表,numpy数组,稀疏矩阵或熊猫数据框。
test_size 浮点数,整数或无,可选(默认值:无)
如果为float,则应在0.0到1.0之间,并且代表要包含在测试拆分中的数据集的比例。如果为int,则表示测试样本的绝对数量。如果为None,则将值设置为火车尺寸的补码。如果train_size也是,则将其设置为0.25。
train_size 浮点数,整数或无(默认值:无)
如果为float,则应在0.0到1.0之间,并表示要包含在火车分割中的数据集的比例。如果为int,则表示火车样本的绝对数量。如果为“无”,则该值将自动设置为测试大小的补码。
random_state int,RandomState实例或无,可选(默认值:无)
如果为int,则random_state是随机数生成器使用的种子;否则为false。如果是RandomState实例,则random_state是随机数生成器;如果为None,则随机数生成器是所使用的Rando