sklearn中train_test_split()函数可以把数据集切分为随机的训练数据集和测试数据集。
下面是源代码中的举例:
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.33, random_state=42)
参数信息如下:
参数 | 含义 |
---|---|
x | 数据集中特征的集合 |
y | 数据集中标签的集合 |
test_size | 如果数值在0-1之间,代表测试数据集合所占比例。如果数值大于1,代表测试数据集的条数。默认为0.25 |
random_state | 随机数种子。不指定每次运行代码切分的数据集都不一样,反之,切分的数据集是一致的 |
返回值
返回值 | 含义 |
---|---|
X_train | 切分后的训练用特征集合 |
X_test | 切分后的测试用特征集合 |
y_train | 切分后的训练用标签集合 |
y_test | 切分后的测试用标签集合 |