一、概念
在深度学习中,学习率(Learning Rate,LR)是一个至关重要的超参数,它控制着模型参数在梯度下降过程中的更新步长。在每次训练迭代中,模型参数按照损失函数关于参数的梯度方向进行更新,而学习率决定了更新的幅度。我们可以通过公式更为直观地理解学习率的作用,例如在梯度下降算法中,我们用 α 来表示学习率,则基本公式如下:
其中,θ 表示模型的参数向量,表示损失函数 J(θ) 关于参数 θ 的梯度。这个公式表示在每次迭代中,我们通过计算损失函数关于参数的梯度,然后乘以学习率 α,并从当前参数值中减去这个乘积,来更新参数 θ。很明显,学习率越大,待减的乘积则越大,参数更新的幅度也就越大。
二、影响
学习率对模型训练过程的影响主要是以下两个方向:</