在随机划分训练集和测试集时,需要随机划分,使用这种方法:
一、打乱索引
import random
random.seed(seed)
index = [i for i in range(len(x_train))]
random.shuffle(index)
x_train = x_train[index]
y_train = y_train[index]
注意,第四行不能写成:
np.random.shuffle(index)
否则seed的设置将失效,每一次运行都是随机的一个数。。。
Python入门篇之random库
参照这个帖子
二、划分数据集
# 并截取70%
len_test = int(0.7 * data.shape[0])
# 训练集
x_train = x_train[:len_test]
y_train = y_train[:len_test]
# 测试集
x_test = x_train[len_test:]
y_test = y_train[len_test:]