在训练与测试一个模型时,我们通常使用三个数据集,即训练集、开发集、测试集。模型对应这三个数据集有三个误差,训练集误差、开发集误差、与测试集误差,另外还有一个人类梳理这类问题的误差值—人类水平误差。基于此的著名的偏差-方差权衡理论是指导我们调参的准则:
人类误差与训练集误差之间的差距称为可避免的偏差,这部分误差可以通过进一步学习及模型调优来避免。而训练集和开发集之间的差距称为方差,它是训练集与开发集的分布差异造成的。
当训练误差较大时,是指模型并未达到最优解(陷入局部最优)或者模型不够表达你的数据集。这时需要更换更深的模型,或者训练更长的时间。当训练误差较小,而开发集误差较大,则是模型过拟合,即训练样本并未完全包含目标任务的数据类型,这时候需要增加训练样本或者使用正则化来防止过拟合。
如果训练集误差与开发集误差都很小,测试集误差较大,那么是开发集与测试集的分配不合适,需要增大开发集所占的比例。