另⼀种控制⽹络的复杂度的正则化⽅法是早停⽌( early stopping )。对于许多⽤于⽹络训练的最优化算法(例如共轭梯度法),误差函数是⼀个关于迭代次数的不增函数。然⽽,在独⽴数据(通常被称为验证集)上测量的误差,通常⾸先减⼩,接下来由于模型开始过拟合⽽逐渐增⼤(详见Ng机器学习视频)。于是,训练过程可以在误差最⼩的点停⽌,这样可以得到⼀个有着较好泛化性能的⽹络。
如下图:
通过限制迭代次数,达到防止过拟合的效果,这里,τη(τ是迭代次数,η是学习率)扮演了正则化参数λ的倒数的角色。
若训练集误差降低但验证集误差升高,比如连续10次epoch没达到最佳validation accuracy,即可认为验证集精确度不再提高,则早停。
参考资料:
《PRML》
《机器学习》周志华