训练集:训练模型;
验证集:选择模型;
测试集:评估泛化误差;
在这里关于训练集,验证集和测试的概念不会去过多介绍。这里主要说一下关于这三个集合在深度学习的使用过程中碰见的一些小问题。经常,不管是在文献还是在看一些人写的代码时,总会碰到这些作者仅仅划分了训练集和测试集,并未使用验证集。他们使用测试集选择模型,然后使用相同的测试集来计算误差,这并不是一个好的方式! 通过测试集来选择模型,然后仍然在测试集上计算误差,把它当成理想的泛化误差,如果有一个很大很大的数据集这样做,也许结果不会很糟糕,但是大多数情况下还是不建议这样做,将数据集分成训练集,验证集,测试集是一个更好的选择。一般情况下,训练集:验证集:测试集 = 6 : 2 : 2