unbuntu下安装chatglm2-6b记训练篇（二）

镜子里的妖气

已于 2024-09-04 09:13:18 修改

阅读量310

点赞数 3

分类专栏： chatglm2、3-6b 安装训练记文章标签：深度学习人工智能机器学习

于 2024-09-04 09:12:21 首次发布

本文链接：https://blog.csdn.net/wangnannan230521/article/details/141883470

版权

今天给大家介绍下大模型训练涉及的"早停"

大模型训练早停（Early Stopping） 是一种防止模型在训练过程中过拟合的技术。过拟合通常发生在训练过程中，模型在训练数据上表现非常好，但在验证集或测试集上表现较差，原因是模型过度“记忆”了训练数据中的细节和噪声，而没有学到更广泛的模式。早停技术的核心思想是通过在模型的性能开始下降之前停止训练，从而提高模型的泛化能力。

简单的理解就是我们预定训练轮数是100轮，在学习到第50轮的时候模型在学习已经没有明显的提高，这时候为了防止出现噪声所以要提前停止学习的一种方法。

早停的具体过程通常如下：

定义监控指标：
- 通常选择验证集上的某个性能指标（如损失函数值、准确率、F1 分数等）作为早停的监控指标。在训练过程中，模型的每个训练周期（epoch）都会计算一次这个指标。
设定耐心值（patience）：
- 耐心值是指允许指标在多少个训练周期内没有改善。如果在设定的耐心值内，验证集性能没有显著提高，模型训练就会停止。
保存最优模型：
- 在训练过程中，如果验证集的性能有所提升，则会保存当前的模型参数。当验证集性能不再提升时，恢复到上次表现最好的模型。

大模型训练早停的优势

防止过拟合：
- 早停通过监控验证集上的性能，避免模型过度拟合训练数据，有效地提升模型的泛化能力。
节省计算资源：
- 训练大模型通常需要大量的计算资源和时间。早停可以在模型达到最佳性能时立即停止训练，节省了不必要的计算开销。
优化训练时间：
- 尤其是在大模型训练中，训练时间可能非常长。早停可以避免进行不必要的训练，缩短整个训练周期。

如何设置早停

监控指标：
- 常用的监控指标包括验证集上的损失函数值、准确率、F1 分数等。不同任务中选择合适的监控指标很重要。例如，在分类问题中，可以使用验证集准确率；在回归问题中，可以使用验证集的均方误差。
耐心值（Patience）：
- 耐心值决定了验证集上的性能没有改善时，允许训练继续的最大训练周期数。耐心值设置过大，可能导致训练时间过长；耐心值设置过小，可能导致模型提前停止，错过潜在的更好结果。一般的做法是根据模型的复杂度和数据集规模来设定一个合理的耐心值。
最优模型的保存：
- 在使用早停时，通常会保存验证集上性能最好的模型参数，以避免最后一次训练的模型可能并非最优模型。

大模型训练早停的挑战

波动和噪声：
- 在训练过程中，验证集上的性能可能存在波动，有时在某些训练周期的性能下降是由于噪声引起的，而不是模型过拟合。这时，耐心值的选择尤为重要，可以帮助避免因短期波动而提前终止训练。
大模型的收敛时间较长：
- 对于非常复杂的大模型，它们往往需要更多的训练周期才能达到最优状态。如果耐心值设置过小，可能会过早停止训练，导致模型未达到最佳性能。因此，在大模型的早停中，通常需要较大的耐心值。
验证集选择：
- 验证集的选择非常重要。如果验证集不能代表真实数据分布，早停的效果可能不佳，模型也可能在实际应用中表现不理想。

训练轮数（epochs）是指在训练过程中，整个训练数据集被完整地遍历的次数。在您提供的配置中，num_train_epochs=100 表示模型将会对整个训练数据集进行100次完整的遍历。

具体解释如下：

最低0.47元/天解锁文章

镜子里的妖气

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
unbuntu下安装chatglm2-6b记训练篇（二）

今天给大家介绍下大模型训练涉及的"早停"大模型训练早停（Early Stopping）是一种防止模型在训练过程中过拟合的技术。过拟合通常发生在训练过程中，模型在训练数据上表现非常好，但在验证集或测试集上表现较差，原因是模型过度“记忆”了训练数据中的细节和噪声，而没有学到更广泛的模式。早停技术的核心思想是通过在模型的性能开始下降之前停止训练，从而提高模型的泛化能力。简单的理解就是我们预定训练轮数是100轮，在学习到第50轮的时候模型在学习已经没有明显的提高，这时候为了防止出现噪声所以要提前停止学习的一种方法
复制链接

扫一扫