Pytorch学习率衰减基本方法

最新推荐文章于 2024-04-30 17:43:43 发布

oliveray

最新推荐文章于 2024-04-30 17:43:43 发布

阅读量2.4k

点赞数 2

文章标签： pytorch 学习深度学习 python

本文链接：https://blog.csdn.net/cshsjdh/article/details/131365020

版权

1、什么是学习率衰减

学习率衰减（Learning Rate Decay）是深度学习中的一种策略，用于在训练过程中逐渐降低学习率的值。学习率是深度学习优化算法（如梯度下降）中的一个重要超参数，控制着每次参数更新的幅度。学习率衰减的目的是在训练过程中使学习率逐渐减小，以便更好地接近全局最优点或较好的局部最优点，从而提高模型的收敛性和性能。学习率衰减可以帮助模型在初始阶段更快地收敛，并在接近最优解时具备更小的步长，以避免过度拟合。常见的学习率衰减策略包括：1. 定期衰减（Step Decay）：在训练的特定时间点或特定的训练迭代次数，将学习率乘以一个衰减因子。2. 指数衰减（Exponential Decay）：学习率按照指数函数逐渐减小，可以根据训练迭代次数或训练轮数进行衰减。3. 余弦衰减（Cosine Decay）：学习率根据余弦函数逐渐减小，可以在训练的特定时间点或特定的训练迭代次数应用。4. 自适应学习率方法（如Adam、Adagrad等）：这些方法可以自动调整学习率，根据梯度变化和历史信息进行调整，从而实现自适应的学习率衰减。学习率衰减方法的选择取决于具体的问题和模型，需要根据实际情况进行调试和优化。适当的学习率衰减策略可以帮助提高模型的训练效果和泛化能力。

2、代码实现

在 PyTorch 中，可以使用学习率调度器（Learning Rate Scheduler）来实现学习率衰减。学习率调度器是 PyTorch 提供的一种工具，用于自动调整优化器中的学习率。

一般步骤：

1、定义优化器和损失函数：

optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
criterion = nn.CrossEntropyLoss()

2、定义学习率调度器：

scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

上述代码中，'StepLR' 是学习率调度器的一种，它在每个 step_size（在这里是10个epoch）之后将学习率乘以 gamma（在这里是0.1）。

3. 训练循环中使用学习率调度器：

for epoch in range(num_epochs):
    # 训练代码
    # ...

    # 更新学习率
    scheduler.step()

在每个 epoch 结束后，调用 `scheduler.step()` 来更新优化器中的学习率。除了 `torch.optim.lr_scheduler.StepLR`，还有其他类型的学习率调度器可供选择，如 `torch.optim.lr_scheduler.ExponentialLR`、`torch.optim.lr_scheduler.CosineAnnealingLR` 等。根据具体的需求，可以选择适合的学习率调度器。

余弦退火法

原理：余弦退火的原理如下：1. 首先，设定一个总的训练周期数 'T_max'，该参数代表了一个完整的周期，也就是学习率从最大值到最小值并回到最大值的一个循环。

2. 对于每个训练周期，余弦退火函数根据当前周期数计算出一个介于 0 和 1 之间的变化率 'eta'。这个变化率代表了当前周期在一个完整周期中所处的位置。

3. 使用余弦函数来调整学习率，公式为：'learning_rate = base_lr * 0.5 * (1 + cos(pi * eta))'。其中，'base_lr' 是初始学习率，'pi' 是圆周率。

4. 随着训练的进行，'eta' 的值逐渐减小，从而导致学习率也逐渐减小。当 'eta' 达到最小值时，学习率也达到最小值。

基于余弦函数的形状，余弦退火的学习率调度策略在训练的初期有较大的学习率，这有助于快速收敛和避免陷入局部最优解。随着训练的进行，学习率逐渐减小，使得模型在后期更加稳定，并继续探索更细致的参数空间。

余弦退火函数实现

import torch
import torch.nn as nn
import torch.optim as optim
import torch.optim.lr_scheduler as lr_scheduler

# 定义模型、优化器和损失函数
model = YourModel()
optimizer = optim.SGD(model.parameters(), lr=0.1)
criterion = nn.CrossEntropyLoss()

# 设置总的训练周期数和余弦退火函数的参数
num_epochs = 100
scheduler = lr_scheduler.CosineAnnealingLR(optimizer, T_max=num_epochs)

# 训练循环
for epoch in range(num_epochs):
    # 进行训练
    train()
    
    # 更新学习率
    scheduler.step()
    
    # 输出当前学习率
    current_lr = optimizer.param_groups[0]['lr']
    print(f"Epoch [{epoch+1}/{num_epochs}], Learning Rate: {current_lr:.6f}")

自适应学习率方法

自适应学习率方法是一类动态调整学习率的方法，它根据模型在训练过程中的表现来自动调整学习率。以下是几种常见的自适应学习率方法的简要说明及实现方法：

1. AdaGrad (Adaptive Gradient): AdaGrad根据每个参数的梯度历史信息来调整学习率。具体来说，它会根据每个参数的梯度平方和的累积值来缩放学习率。这样，对于梯度较大的参数，学习率会减小，对于梯度较小的参数，学习率会增大。

代码实现：

import torch
   import torch.optim as optim
   
   model = YourModel()
   optimizer = optim.Adagrad(model.parameters(), lr=0.01)

2. RMSprop (Root Mean Square Propagation): RMSprop基于梯度平方的指数加权移动平均来调整学习率。它使用一个衰减率来控制历史梯度信息的权重，同时使用一个小的常数项来避免除以零的情况。

代码实现：

import torch
   import torch.optim as optim
   
   model = YourModel()
   optimizer = optim.RMSprop(model.parameters(), lr=0.001)

3. Adam (Adaptive Moment Estimation): Adam结合了Momentum和RMSprop的思想，它使用梯度的一阶矩估计和二阶矩估计来调整学习率。Adam通过计算梯度的移动平均和平方梯度的移动平均来进行调整。

代码实现：

import torch
   import torch.optim as optim
   
   model = YourModel()
   optimizer = optim.Adam(model.parameters(), lr=0.001)

oliveray

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Pytorch学习率衰减基本方法

在 PyTorch 中，可以使用学习率调度器（Learning Rate Scheduler）来实现学习率衰减。学习率调度器是 PyTorch 提供的一种工具，用于自动调整优化器中的学习率。一般步骤：上述代码中，'StepLR' 是学习率调度器的一种，它在每个 step_size（在这里是10个epoch）之后将学习率乘以 gamma（在这里是0.1）。# 训练代码# ...# 更新学习率在每个 epoch 结束后，调用 `scheduler.step()` 来更新优化器中的学习率。
复制链接

扫一扫