损失函数 Loss、梯度 grad、参数 ω 和学习率 lr 之间的关系

最新推荐文章于 2024-09-02 09:15:00 发布

Linky1990

最新推荐文章于 2024-09-02 09:15:00 发布

阅读量1.1w

点赞数 25

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangjiu2009/article/details/106803947

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

举一个简单的函数 $y = x^2$ ，梯度为 $\frac{\partial{y}}{\partial{x}} = 2x$ 。设学习率为 $l r$ ，那么

更新一次梯度后为： $x_1 = x_0 - lr * g(x_0) = x_0 - lr * 2x_0 = (1 - 2 * lr)x_0$

更新 n 次后的梯度为 $x_n = (1 - 2 * lr)x_{n-1} = (1 - 2 * lr)^2 x_{n-2} = ... = (1 - 2 * lr)^{n}x_0$

由上述式子可以看出，因为 $1 - 2 * l r < 0$ ，所以当 $1 - 2 * l r < - 1$ 即 $l r > 1$ 时，几个迭代后梯度将会出现爆炸的情况。

设损失函数 $L$ 在 $\omega_0$ 处的梯度为
$g(\omega_0) = \frac{\partial{L}}{\partial{\omega_0}}$

更新后
$\omega_1=\omega_0 - l*g(\omega_0)$

继续上述过程，可以得到
$\begin{aligned} \omega_2 &= \omega_1 - l * g(\omega_1) \\ &=\omega_0 - l*g(\omega_0)-l*g(\omega_1) \\&= \omega_0 - l*g(\omega_0)-l*g(\omega_1) \\&=\omega_0 -l\sum_{i=0}^{1} g(\omega_i) \end{aligned}$

所以
$\omega_n = \omega_0 -l\sum_{i=0}^{n-1} g(\omega_i)$

第 $n$ 次的权重值 $\omega_n$ ，由权重初始值 $\omega_0$ 和前 $n - 1$ 次的梯度之和确定。当梯度稳定变小时，表明损失函数接近最优值，越接近最优值时，梯度 $g(\omega_i)$ 趋近于 $0$ ，此时 $\omega_n$ 将几乎不再变化，函数收敛。

如上图所示，梯度 grad 由损失函数 Loss 确定，损失函数越大时，梯度也越大。待优化参数 $\omega$ 由梯度 grad 和学习率 lr 共同确定，参数更新后，损失函数也将缩小，从而进一步缩小梯度，直到损失函数最小，梯度为 0，此时得到最优解。如果参数 $\omega$ 更新后，损失函数不但没有缩小，反而增大，此时将进一步增大梯度，最终造成梯度爆炸。

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。