ReduceLROnPlateau学习率衰减设置

学习率衰减有多种方式,本次采用optim.lr_scheduler.ReduceLROnPlateau,这种方式代表在发现loss不再降低或者acc不再提高之后,降低学习率。

model = GRU().to(device)
criterion = nn.CrossEntropyLoss().to(device)  

optimizer = optim.AdamW(model.parameters(), lr=5e-4,weight_decay=1e-4)  # weight_decay=1e-4 weight_decay 就是 L2 正则化系数  , betas=(0.9, 0.888)

scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=20, verbose=True)

在这里插入图片描述
在训练过程中加入如下代码

    current_lr = scheduler.optimizer.param_groups[0]['lr']
    print(f'Current Learning Rate: {current_lr}')
    scheduler.step(avg_val_loss)

参考:
https://blog.csdn.net/lihuanyu520/article/details/132161165
https://blog.csdn.net/emperinter/article/details/108917935

weight_decay(权重衰减)主要用于控制L2正则化的强度,它对模型的参数更新有重要的影响,特别是在防止过拟合方面。具体来说,weight_decay的大小会对模型的学习产生以下作用:

  1. 防止过拟合:
    较大weight_decay:会对权重施加更强的约束,迫使权重的数值变小。较大的权重衰减有助于模型泛化,防止在训练数据上过拟合,尤其是当训练数据量较少或模型复杂度较高时。因为较大的正则化会限制模型过分拟合训练集的噪声。
    较小weight_decay:正则化效果较弱,模型的权重可以自由增长,容易在训练集上拟合得很好,但在验证集或测试集上可能表现较差,增加过拟合的风险。

  2. 影响模型参数的更新幅度:
    较大weight_decay:会对参数的更新产生更明显的约束,使得每次更新时,模型的参数减少得更多。因此,权重的值趋向于更小,训练速度可能会减慢,但模型会变得更加稳定。
    较小weight_decay:对参数的约束较弱,模型参数的值可能较大,权重更新的幅度更大,可能在训练集上表现很好,但容易对噪声敏感。

  3. 正则化的数学机制:
    weight_decay实际上是对每个参数施加了L2正则化项。假设损失函数为L(θ),在有weight_decay的情况下,优化器实际上在最小化以下目标:

  4. 不同值对训练的影响:
    weight_decay过大(如1e-2或更大):可能导致模型的所有权重被压得过小,模型表达能力受到限制,无法在训练集上获得较好的拟合,导致训练和验证性能都较差。
    weight_decay过小(如1e-5或更小):可能效果不足,无法有效防止过拟合,尤其是当模型复杂度高时,容易在训练集上过拟合而在验证集上表现不佳。

  5. 如何选择weight_decay:
    经验法则:通常,weight_decay的值选择在1e-4到1e-3之间作为一个起点,这个范围通常能提供一个平衡,使模型既不过拟合也不过于限制权重更新。
    需要调参:具体的值取决于数据集和模型。如果发现模型仍然过拟合,可以增大weight_decay,如果模型在训练集上表现不佳,可能需要减小它。
    总结:
    较大的weight_decay:对参数施加较强的约束,能有效防止过拟合,但可能会减小模型的表达能力。
    较小的weight_decay:对参数的约束较弱,模型可能过拟合。
    选择合适的weight_decay需要根据具体的模型和数据集进行调参,通常可以从1e-4或1e-3开始调整。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值