3 文件夹结构
注意:train集和val集的目录结构要保持一致,(不要像百度车道线数据集那样花里胡哨);
3 数据集切分
使用sklearn中的train_test_split()函数,
参数说明:
test_size: 指测试集占全部样本的比例。
3.1 随机选择(打乱)
经过测试train_test_split()函数在默认参数,(也就是不显式地设置random_state参数的情况下),
随机种子的初始化是一种真随机的初始化,
测试过程如下:
第一次测试,打开 Jupyter Lab,使用以下代码的结果如下:
之后,关闭浏览器,在终端中关闭 Jupyter Lab的进程;
第二次测试,打开 Jupyter Lab,测试结果如下:
两次测试,都是在不同的 Jupyter Lab的进程中进行的,而随机分割的生成的结果是不同的,
由此可见,train_test_split()函数在random_state使用默认值的情况下,是一种真随机的初始化;
3 备注
3.1 暂时不需要划分val
我们暂时不需要划分val,因为test的变化可以通过观察得到;