该函数可以随机划分样本数据为训练集和测试集,并返回划分好的训练集和测试集数据。
sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.3,random_state=5)
参数详解:
train_data
:待划分样本数据train_target
:待划分样本数据的结果,与train_data一一对应test_size
:可以为浮点、整数或None,默认为None
浮点数表示测试数据占总样本的比例;整数表示测试样本的样本数量;
若为None时,test size自动设置成0.25 test_size决定划分测试、训练集比例random_state
:设置随机数种子
在其它参数相同的情况下,同一个随机数得到的随机数组一样
若为0或None或不填,则每次得到数据都不一样stratify
:可以处理数据不平衡问题
stratify=train_target时,每次划分后,测试集和训练集中的标签比例同原始的样本中标签的比例相同。假设原始样本中标签A和标签B的比例为1:5,测试集和训练集中标签A和标签B的比例都为1:5