什么是Early Stopping
Early Stopping 是在防止模型过度拟合数据时用于参考机器学习的术语,确定在数据集上训练多长时间,来平衡模型的准确性和泛化程度?
如果我们让一个复杂的模型在给定的数据集上训练足够长的时间,它最终可以准确地学习训练集中的数据。但在eval集合中,模型表现不佳,存在(过度拟合)。相反,如果模型只训练了几个 epoch,即使模型可以很好地泛化(训练集和eval集合表现接近),但不会有理想的准确度(欠拟合)。
Early Stopping条件
通常数据集分为三个部分:训练集、验证集、测试集。
- 训练集专门用于训练模型并确定训练集的准确性。
- 验证集用于确定模型对未见数据的泛化程度。 当训练集上的误差开始偏离验证集上的误差时,可以设置一个阈值来确定提前停止条件和训练的理想时期数
随着模型开始训练,在欠拟合区域中,偏置(bias)、训练误差和泛化(generalization)误差都在下降;
如果继续训练足够的epoch,过了最佳步数区域,则到了过拟合区域,可以看到bias很小,但是模型的方差(Variance)会变大,泛化(generalization)误差也会变大。