keras中EarlyStopping

最新推荐文章于 2023-11-29 17:28:36 发布

bebr

最新推荐文章于 2023-11-29 17:28:36 发布

阅读量2.4k

点赞数 2

分类专栏：深度学习文章标签： EarlyStopping

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

EarlyStopping是什么

EarlyStopping是Callbacks的一种，callbacks用于指定在每个epoch开始和结束的时候进行哪种特定操作。Callbacks中有一些设置好的接口，可以直接使用，如’acc’,’val_acc’,’loss’和’val_loss’等等。
EarlyStopping则是用于提前停止训练的callbacks。具体地，可以达到当训练集上的loss不在减小（即减小的程度小于某个阈值）的时候停止继续训练。

为什么要用EarlyStopping

根本原因就是因为继续训练会导致测试集上的准确率下降。
那继续训练导致测试准确率下降的原因猜测可能是1. 过拟合 2. 学习率过大导致不收敛 3. 使用正则项的时候，Loss的减少可能不是因为准确率增加导致的，而是因为权重大小的降低。

当然使用EarlyStopping也可以加快学习的速度，提高调参效率。

EarlyStopping的使用与技巧

一般是在model.fit函数中调用callbacks，fit函数中有一个参数为callbacks。注意这里需要输入的是list类型的数据，所以通常情况只用EarlyStopping的话也要是[EarlyStopping()]

EarlyStopping的参数有

monitor: 监控的数据接口，有’acc’,’val_acc’,’loss’,’val_loss’等等。正常情况下如果有验证集，就用’val_acc’或者’val_loss’。但是因为笔者用的是5折交叉验证，没有单设验证集，所以只能用’acc’了。
min_delta：增大或减小的阈值，只有大于这个部分才算作improvement。这个值的大小取决于monitor，也反映了你的容忍程度。例如笔者的monitor是’acc’，同时其变化范围在70%-90%之间，所以对于小于0.01%的变化不关心。加上观察到训练过程中存在抖动的情况（即先下降后上升），所以适当增大容忍程度，最终设为0.003%。
patience：能够容忍多少个epoch内都没有improvement。这个设置其实是在抖动和真正的准确率下降之间做tradeoff。如果patience设的大，那么最终得到的准确率要略低于模型可以达到的最高准确率。如果patience设的小，那么模型很可能在前期抖动，还在全图搜索的阶段就停止了，准确率一般很差。patience的大小和learning rate直接相关。在learning rate设定的情况下，前期先训练几次观察抖动的epoch number，比其稍大些设置patience。在learning rate变化的情况下，建议要略小于最大的抖动epoch number。笔者在引入EarlyStopping之前就已经得到可以接受的结果了，EarlyStopping算是锦上添花，所以patience设的比较高，设为抖动epoch number的最大值。
mode: 就’auto’, ‘min’, ‘,max’三个可能。如果知道是要上升还是下降，建议设置一下。笔者的monitor是’acc’，所以mode=’max’。

min_delta和patience都和“避免模型停止在抖动过程中”有关系，所以调节的时候需要互相协调。通常情况下，min_delta降低，那么patience可以适当减少；min_delta增加，那么patience需要适当延长；反之亦然。

一、早停法简介（Early Stopping）

当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能（generalization performance，即可以很好地拟合数据）。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

图1、理想中的训练集误差和验证集的误差

模型的泛化能力通常使用模型在验证数据集（validation set）上的表现来评估。随着网络的优化，我们期望的理想中的泛化错误如图1所示。即当模型在训练集上的误差降低的时候，其在验证集上的误差表现不会变差。反之，当模型在训练集上表现很好，在验证集上表现很差的时候，我们认为模型出现了过拟合（overfitting）的情况。

解决过拟合问题有两个方向：降低参数空间的维度或者降低每个维度上的有效规模（effective size）。降低参数数量的方法包括greedy constructive learning、剪枝和权重共享等。降低每个参数维度的有效规模的方法主要是正则化，如权重衰变（weight decay）和早停法（early stopping）等。

早停法是一种被广泛使用的方法，在很多案例上都比正则化的方法要好。图1是我们经常看到论文中出现的图，也是使用早停法出现的一个结果。其基本含义是在训练中计算模型在验证集上的表现，当模型在验证集上的表现开始下降的时候，停止训练，这样就能避免继续训练导致过拟合的问题。其主要步骤如下：

1. 将原始的训练数据集划分成训练集和验证集
2. 只在训练集上进行训练，并每个一个周期计算模型在验证集上的误差，例如，每15次epoch（mini batch训练中的一个周期）
3. 当模型在验证集上的误差比上一次训练结果差的时候停止训练
4. 使用上一次迭代结果中的参数作为模型的最终参数

然而，在现实中，模型在验证集上的误差不会像上图那样平滑，而是像下图一样：

图2、真实的验证集误差变化曲线

也就是说，模型在验证集上的表现可能咱短暂的变差之后有可能继续变好。上图在训练集迭代到400次的时候出现了16个局部最低。其中有4个最低值是它们所在位置出现的时候的最低点。其中全局最优大约出现在第205次迭代中。首次出现最低点是第45次迭代。相比较第45次迭代停止，到第400次迭代停止的时候找出的最低误差比第45次提高了1.1%，但是训练时间大约是前者的7倍。

但是，并不是所有的误差曲线都像上图一样，有可能在出现第一次最低点之后，后面再也没有比当前最低点更低的情况了。所以我们看到，早停法主要是训练时间和泛化错误之间的权衡。尽管如此，也有某些停止标准也可以帮助我们寻找更好的权衡。

二、如何使用早停法

我们需要一个停止的标准来实施早停法，因此，我们希望它可以产生最低的繁华错误，同时也可以有最好的性价比，即给定泛化错误下的最小训练时间

2.1、停止标准简介

停止标准有很多，也很灵活，大约有三种。在给出早停法的具体标准之前，我们先确定一下符号。假设我们使用EE作为训练算法的误差函数，那么E_{tr}(t)Etr(t)是训练数据上的误差，E_{te}(t)Ete(t)是测试集上的误差。实际情况下我们并不能知道泛化误差，因此我们使用验证集误差来估计它。

第一类停止标准

假设E_{opt}(t)Eopt(t)是在迭代次数tt时取得最好的验证集误差：

E_{opt}(t) := \text{min}_{t'\leq t}E_{va}(t')Eopt(t):=mint′≤tEva(t′)

我们定义一个新变量叫泛化损失（generalization loss），它描述的是在当前迭代周期t中，泛化误差相比较目前的最低的误差的一个增长率：

GL(t) = 100 \cdot \big( \frac{E_{va}(t)}{E_{opt}(t)} - 1 \big)GL(t)=100⋅(Eopt(t)Eva(t)−1)

较高的泛化损失显然是停止训练的一个候选标准，因为它直接表明了过拟合。这就是第一类的停止标准，即当泛化损失超过一定阈值的时候，停止训练。我们用GL_{\alpha}GLα来定义，即当GL_{\alpha}GLα大于一定值\alphaα的时候，停止训练。

第二类停止标准

然而，当训练的速度很快的时候，我们可能希望模型继续训练。因为如果训练错误依然下降很快，那么泛化损失有很大概率被修复。我们通常会假设过拟合只会在训练错误降低很慢的时候出现。在这里，我们定义一个kk周期，以及基于周期的一个新变量度量进展（measure progress）：

P_k(t) = 1000 \cdot \big( \frac{ \sum_{t' = t-k+1}^t E_{tr}(t') }{ k \cdot min_{t' = t-k+1}^t E_{tr}(t') } -1 \big)Pk(t)=1000⋅(k⋅mint′=t−k+1tEtr(t′)∑t′=t−k+1tEtr(t′)−1)

它表达的含义是，当前的指定迭代周期内的平均训练错误比该期间最小的训练错误大多少。注意，当训练过程不稳定的时候，这个measure progress结果可能很大，其中训练错误会变大而不是变小。实际中，很多算法都由于选择了不适当的较大的步长而导致这样的抖动。除非全局都不稳定，否则在较长的训练之后，measure progress结果趋向于0（其实这个就是度量训练集错误在某段时间内的平均下降情况）。由此，我们引入了第二个停止标准，即泛化损失和进展的商PQ_{\alpha}PQα大于指定值的时候停止，即\frac{GL(t)}{P_k(t)} \gt \alphaPk(t)GL(t)>α

第三类停止标准
第三类停止标准则完全依赖于泛化错误的变化，即当泛化错误在连续ss个周期内增长的时候停止（UPUP）。

当验证集错误在连续ss个周期内出现增长的时候，我们假设这样的现象表明了过拟合，它与错误增长了多大独立。这个停止标准可以度量局部的变化，因此可以用在剪枝算法中，即在训练阶段，允许误差可以比前面最小值高很多时候保留。

2.2、停止标准选择规则

一般情况下，“较慢”的标准会相对而言在平均水平上表现略好，可以提高泛化能力。然而，这些标准需要较长的训练时间。其实，总体而言，这些标准在系统性的区别很小。主要选择规则包括：

除非较小的提升也有很大价值，负责选择较快的停止标准
为了最大可能找到一个好的方案，使用GL标准
为了最大化平均解决方案的质量，如果网络只是过拟合了一点点，可以使用PQ标准，否则使用UP标准

注意，目前并没有理论上可以证明那种停止标准较好，所以都是实验的数据。后续我们再介绍一下实验结果。

http://page.mi.fu-berlin.de/prechelt/Biblio/stop_tricks1997.pdf

转自：https://www.datalearner.com/blog/1051537860479157

bebr

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
keras中EarlyStopping

EarlyStopping是什么EarlyStopping是Callbacks的一种，callbacks用于指定在每个epoch开始和结束的时候进行哪种特定操作。Callbacks中有一些设置好的接口，可以直接使用，如’acc’,’val_acc’,’loss’和’val_loss’等等。EarlyStopping则是用于提前停止训练的callbacks。具体地，可以达到当训练集上的los...
复制链接

扫一扫