理论上 随机分割成 训练集、验证集、测试集,
但是由于每次随机都不同,所以 训练集、验证集用交叉验证的分配方式,进行训练和选出较优超参数。
(什么是超参数?之后会另起一篇说明)
一般 训练集:测试集 = 8:2
随机分配,若想复现,可采取:
1. 设定随机种子,洗牌指数
2. 对每个样本设置特定ID,计算每个ID的哈希值,提取20%。
(补:SKlearn)
重要:生成测试集时,使用 分层抽样。
尽量保持:
总数据集、训练集、测试集 的 0-1 比例要一致。
总数据集、训练集、测试集 的 预测范围 比例要一致。
(这篇想法很多,先mark 占个位)