【深度学习】学习率介绍(torch.optim.lr_scheduler学习率调度策略介绍)

鸟哥大大

已于 2024-12-11 18:12:47 修改

阅读量3.2k

点赞数 60

文章标签：深度学习 pytorch 神经网络

于 2024-11-11 18:21:28 首次发布

本文链接：https://blog.csdn.net/u014517744/article/details/143691869

版权

文章目录

0.前言
1.学习率的概念
2.学习率的作用
3.学习率调度策略
4.使用方法
5.总结

0.前言

在深度神经网络训练中，学习率（Learning Rate）是一个重要的超参数，它决定了优化算法在每次更新模型参数时的步长大小。学习率对模型的训练过程和最终性能具有深远的影响。

本文主要介绍学习率的基本概念，以及在使用PyTorch训练神经网络模型时常用的学习率调度策略。

1.学习率的概念

学习率是控制每次迭代更新中梯度下降步幅大小的参数。在反向传播过程中，模型通过计算损失函数的梯度来更新参数，而学习率决定了沿梯度方向迈出多大的一步。
数学上，学习率通常用符号 $\eta$ 表示，更新公式为： $\theta = \theta - \eta \cdot \nabla J(\theta)$ 其中：

$\theta$ 是模型参数。
$\nabla J(\theta)$ 是损失函数 $J$ 相对于参数 $\theta$ 的梯度。

2.学习率的作用

收敛速度：
- 大学习率：能够加快收敛速度，但可能导致错过最优点（overshooting）或震荡。
- 小学习率：增加了到达最优点的机会，但可能导致收敛过慢并增加训练时间。
优化效果：
- 适当的学习率有助于更快地达到模型的全局最优解或其附近，从而提升模型的性能。
稳定性：
- 学习率过大可能导致训练不稳定，模型发散。
- 学习率过小可能使训练停滞，容易陷入局部最优。

3.学习率调度策略

在PyTorch中，torch.optim.lr_scheduler._LRScheduler是所有学习率调度器的基类。学习率调度器用于在训练过程中动态调整优化器的学习率，以改善模型的训练效果。

3.1. StepLR

逐步衰减学习率

StepLR（Step Learning Rate）是一种用于调节神经网络训练过程中学习率的策略。通过在训练过程中逐步降低学习率，StepLR有助于提高模型的稳定性和最终的收敛效果。

原理

StepLR策略的核心思想是在训练的过程中，每隔一段固定的时期(epoch)，将学习率减少一个恒定的比例。这个过程形成了一个阶梯状的变化曲线，故称为“Step”（阶梯）学习率。

参数

初始学习率（initial learning rate）：开始训练时的学习率。
步长（step size）：每隔多少个epoch降低一次学习率。
下降因子（gamma）：每次降低学习率的比例，通常小于1。例如，gamma=0.1意味着每次学习率变为原来的10%。

scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)
# step_size: 每经过多少个epoch调整一次学习率。
# gamma: 学习率调整的比例。新学习率 = 旧学习率 * gamma。