一、训练集、验证集、测试集
训练集:首先,模型在训练集上进行拟合
验证集:接下来,拟合后的模型会在验证集上进行预测。用验证集来看模型有没有学到知识,以及会不会过拟合
测试集:用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。用测试集测试模型在真实场景的表现。
二、数据集划分比例
对于小规模样本集(几万量级),常用的分配比例是60% 训练集、20% 验证集、20% 测试集。
对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有100w 条数据,那么留1w 验证集,1w 测试集即可。