1. 数据集的划分
小数据时代: 70%(训练集)/30%(测试集)或者60%(训练集)/20%(验证集)/20%(测试集)
大数据时代: 验证集和测试集的比例要逐渐减小,比如:
980000/10000/10000
2. 验证集和测试集的作用
深度学习需要大量的数据,我们可能会采用网上爬取的方式获得训练集,容易出现训练集和验证集、测试集分布不一致的情况,由于验证集的目的就是为了验证不同的算法,选取效果好的。所以确保验证集和测试集的数据来自同一分布可以加快训练速度,模型在测试集上也会获得较好的效果。
测试集的目的是对最终选定的神经网络系统做出无偏评估。(测试集可以不要)
没有测试集时,验证集也会被称为测试集,但是人们是把这里的测试集当成简单交叉验证集使用。
搭建训练验证集和测试集能够加速神经网络的集成,也可以更有效地衡量算法的偏差和方差。从而帮助我们更高效地选择合适的方法来优化算法。
训练集误差 | 1% | 15% | 15% | 0.5% |
---|