早早学习深度学习,就了解到了训练集、验证集、测试集的概念,训练集好理解,但是验证集和测试集这两个越看越像。鉴于我模型调优已经吃了大亏,现在要彻底弄懂验证集和测试集区别。
网上常传的:训练集相当于做练习题、验证集相当于模拟考、测试集相当于最后的高考。但是我感觉这样还是有点模糊的。
验证集和测试集区别确实是蛮大的!因为验证集涉及到调整模型参数,而测试集没有涉及到调整模型参数,这就是两者的本质区别。
为什么说验证集涉及到调整模型参数呢,一开始我也不理解,其实它调整的很隐晦。
首先模型的参数分为两种:一种是人工调整的超参数,一种是在反向传播中自动更新的普通参数,比如某个节点嵌入向量。
我们都知道训练集的数据扔进模型,模型前向传播,过损失函数,然后反向传播来更新模型的参数,但是想想,要是没有验证集,我怎么知道什么时候停下来呢?总不能让我自己一直闷头做习题吧?这样迟早过拟合,丧失泛化能力。
这时候就需要验证集了,我们可以这样:当我们train一个epoch,也就是完整过完一遍训练集,就把验证集扔进模型,然后产生指标,如果产生的指标在连续若干个epoch都没有精进,那么说明模型泛化能力在走下坡路,赶紧停止train了,这就是早停策略。
这样,我们就选择当验证指标最好的那一个epoch的模型参数,那这样其实就是验证集来选择了模型的参数。对于超参数来说,我们在人工选择了超参数后,并使用验证集来决定最终使用哪组超参数的过程,也可以看作验证集参与了超参数的训练过程。
所以得出结论:验证集会调整模型参数,而测试集不会。
一开始我评估没有选择测试集,就训练完一个epoch就验证(eval评估)一下,其实这样是不合理的。因为每一轮模型都会不经意地窥视验证集数据,即使验证集没有直接反向传播更新模型参数。那每轮都能见,就不是模型全新未知的测试数据了,那就不能反映模型的泛化能力了。
所以我的实验改成:
我在每轮验证的时候,把某个用户的训练正样本和测试正样本排除了,
测试的时候 ,把某个用户的训练正样本和验证正样本排除了。