ReduceLROnPlateau学习率衰减设置

fdt丶

已于 2024-10-15 17:14:11 修改

阅读量765

点赞数 2

文章标签：学习

于 2024-09-23 15:20:08 首次发布

本文链接：https://blog.csdn.net/Int321/article/details/142459188

版权

学习率衰减有多种方式，本次采用optim.lr_scheduler.ReduceLROnPlateau，这种方式代表在发现loss不再降低或者acc不再提高之后，降低学习率。

model = GRU().to(device)
criterion = nn.CrossEntropyLoss().to(device)  

optimizer = optim.AdamW(model.parameters(), lr=5e-4,weight_decay=1e-4)  # weight_decay=1e-4 weight_decay 就是 L2 正则化系数  , betas=(0.9, 0.888)

scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=20, verbose=True)

在这里插入图片描述
在训练过程中加入如下代码

    current_lr = scheduler.optimizer.param_groups[0]['lr']
    print(f'Current Learning Rate: {current_lr}')
    scheduler.step(avg_val_loss)

参考：
https://blog.csdn.net/lihuanyu520/article/details/132161165
https://blog.csdn.net/emperinter/article/details/108917935

weight_decay（权重衰减）主要用于控制L2正则化的强度，它对模型的参数更新有重要的影响，特别是在防止过拟合方面。具体来说，weight_decay的大小会对模型的学习产生以下作用：

防止过拟合：
较大weight_decay：会对权重施加更强的约束，迫使权重的数值变小。较大的权重衰减有助于模型泛化，防止在训练数据上过拟合，尤其是当训练数据量较少或模型复杂度较高时。因为较大的正则化会限制模型过分拟合训练集的噪声。
较小weight_decay：正则化效果较弱，模型的权重可以自由增长，容易在训练集上拟合得很好，但在验证集或测试集上可能表现较差，增加过拟合的风险。
影响模型参数的更新幅度：
较大weight_decay：会对参数的更新产生更明显的约束，使得每次更新时，模型的参数减少得更多。因此，权重的值趋向于更小，训练速度可能会减慢，但模型会变得更加稳定。
较小weight_decay：对参数的约束较弱，模型参数的值可能较大，权重更新的幅度更大，可能在训练集上表现很好，但容易对噪声敏感。
正则化的数学机制：
weight_decay实际上是对每个参数施加了L2正则化项。假设损失函数为L(θ)，在有weight_decay的情况下，优化器实际上在最小化以下目标：
不同值对训练的影响：
weight_decay过大（如1e-2或更大）：可能导致模型的所有权重被压得过小，模型表达能力受到限制，无法在训练集上获得较好的拟合，导致训练和验证性能都较差。
weight_decay过小（如1e-5或更小）：可能效果不足，无法有效防止过拟合，尤其是当模型复杂度高时，容易在训练集上过拟合而在验证集上表现不佳。
如何选择weight_decay：
经验法则：通常，weight_decay的值选择在1e-4到1e-3之间作为一个起点，这个范围通常能提供一个平衡，使模型既不过拟合也不过于限制权重更新。
需要调参：具体的值取决于数据集和模型。如果发现模型仍然过拟合，可以增大weight_decay，如果模型在训练集上表现不佳，可能需要减小它。
总结：
较大的weight_decay：对参数施加较强的约束，能有效防止过拟合，但可能会减小模型的表达能力。
较小的weight_decay：对参数的约束较弱，模型可能过拟合。
选择合适的weight_decay需要根据具体的模型和数据集进行调参，通常可以从1e-4或1e-3开始调整。