步长（学习率learning rate）

最新推荐文章于 2025-03-03 16:14:41 发布

如风过境YD

最新推荐文章于 2025-03-03 16:14:41 发布

阅读量9.3k

点赞数 9

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qq_35649945/article/details/97259688

版权

Machine Learning 专栏收录该内容

27 篇文章

订阅专栏

本文探讨了在梯度下降法中如何调整学习率η以优化参数更新过程，避免过快或过慢收敛，介绍了Adagrad和RMSProp两种自动调试学习率的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

步长（学习率）

在进行梯度下降法的过程中，我们需要通过调整 $\eta$ 学习率的值来调整参数每次要走的距离。适当的调整 $\eta$ 可以更准确的找到 $L$ 的最小值以及参数值。
下面需要注意调整步长 $\eta$ (往下一步要走的距离)的大小：
不同大小的 $\eta$ 可能会造成下面图中的情况
在这里插入图片描述
一种方法是将参数的变化与函数 $L$ 的改变的情况可视化

当 $\eta$ 太小，则L变化缓慢，对应下图中绿色线条
当 $\eta$ 比较大，则可能上面图中跳出极小值点，找不到该点（相当于步子迈大了从坑上跨过去）
当 $\eta$ 过大时，L将会越变越大，需要重新调整（此时相当于不仅跨过了坑还跨到山上去了）

在这里插入图片描述

自动调试 $\eta$ 的方法

通常情况下，随着参数的更新会越来越小。（越来越接近目标，要调小步长）

Adagrad

一般情况：
$w^{k+1} \leftarrow w^{k}-\eta^{k} g^{k},\\其中g^k表示第k个值的梯度。$
现做调整： $w^{k+1} \leftarrow w^{k}-\frac{\eta^{k}}{\sigma^{k}} g^{k}$
这里， $\frac{\eta^{k}}{\sigma^{k}}$ 就是这次的步长（学习率）， $\sigma^k$ 表示过去求过的梯度值的平方和求均值然后开根号，
即第 $k + 1$ 次的 $\eta^{t}=\frac{\eta}{\sqrt{k+1}}；\\\sigma^k=\sqrt{\frac{1}{k+1}[(g^0)^2+(g^1)^2+...+(g^k)^2]}=\sqrt{\frac{1}{k+1} \sum_{i=0}^{k}\left(g^{i}\right)^{2}}，\\因为0到k一共k+1个值，所以乘\frac{1}{k+1}；$
举例：
$w^{1} \leftarrow w^{0}-\frac{\eta^{0}}{\sigma^{0}} g^{0} \quad ,\sigma^{0}=\sqrt{\left(g^{0}\right)^{2}}$
$w^{2} \leftarrow w^{1}-\frac{\eta^{1}}{\sigma^{1}} g^{1} ,\quad \sigma^{1}=\sqrt{\frac{1}{2}\left[\left(g^{0}\right)^{2}+\left(g^{1}\right)^{2}\right]}$
$w^{3} \leftarrow w^{2}-\frac{\eta^{2}}{\sigma^{2}} g^{2} ,\quad \sigma^{2}=\sqrt{\frac{1}{3}\left[\left(g^{0}\right)^{2}+\left(g^{1}\right)^{2}+\left(g^{2}\right)^{2}\right]}$
$w^{k+1} \leftarrow w^{k}-\frac{\eta^{k}}{\sigma^{k}} g^{k} ,\quad \sigma^{k}=\sqrt{\frac{1}{k+1} \sum_{i=0}^{k}\left(g^{i}\right)^{2}}$
观察上面 $\eta^k,\sigma^k$ 两式，发现有可约分项 $\sqrt{\frac{1}{k+1}}$ ，于是可得到：
$w^{k+1} \leftarrow w^{k}-\frac{\eta}{\sqrt{\sum_{i=0}^{k}\left(g^{i}\right)^{2}}} g^{k}$

RMSProp

Adagrad适用与二次微分值固定（用一次微分估测二次微分），那么二次微分不固定时，可以使用RMSProp。
在这里插入图片描述
$\begin{array}{ll}{w^{1} \leftarrow w^{0}-\frac{\eta}{\sigma^{0}} g^{0}} & {\sigma^{0}=g^{0}} \\ {w^{2} \leftarrow w^{1}-\frac{\eta}{\sigma^{1}} g^{1}} & {\sigma^{1}=\sqrt{\alpha\left(\sigma^{0}\right)^{2}+(1-\alpha)\left(g^{1}\right)^{2}}} \\ {w^{3} \leftarrow w^{2}-\frac{\eta}{\sigma^{2}} g^{2}} & {\sigma^{2}=\sqrt{\alpha\left(\sigma^{1}\right)^{2}+(1-\alpha)\left(g^{2}\right)^{2}}}\end{array}$
$w^{t+1} \leftarrow w^{t}-\frac{\eta}{\sigma^{t}} g^{t} \quad \sigma^{t}=\sqrt{\alpha\left(\sigma^{t-1}\right)^{2}+(1-\alpha)\left(g^{t}\right)^{2}}$ 其中这里的 $\sigma与Adgrad中\sigma$ 的计算方式不太一样。
此外，还有很多调整 $\eta$ 的方法。