- 训练集 —— 高考前的各种练习考试
- 验证集 —— 高考前的模拟考(跟自己比)
- 测试集 —— 高考卷子(跟别人比)
参考:https://www.jianshu.com/p/45aa52002fc8
训练集
在训练过程中,可以设置不同的超参数
- 学习率(lr):一般设为0.01, 0.001
- batch size:每一个batch的大小
- epoch:训练轮数
不同的超参数组合可以得到不同的训练模型。
调参的目的就是找到好的超参数组合,使得模型的性能最好。
验证集
训练得到的模型在验证集上进行验证,即从模型集合中筛选出一个性能最好的模型(最终模型)。
比如说在多个epochs下看模型在验证集上的结果,哪个结果好,就用哪个。
测试集
用来评估不同的模型(最终模型)。
论文结果里,不同模型的实验结果就是在测试集上跑的。
公开数据集一般都划分好了训练集和测试集。
数据划分
- 小规模数据集
- 7:3
- 6:2:2
- 大规模数据集
- 验证集可低于30%
- 测试集可低于20%
- 百万级别数据集
- 98:1:1
训练集、验证集、测试集三个数据集最好没有重叠。
有时候训练集和验证集放在一块叫训练集
(训练集,验证集)(测试集)