神经网络优化算法及代码实现——从SGD、Momentum、AdaGrad、RMSProp到Adam

最新推荐文章于 2024-05-05 23:58:08 发布

JayShaun

最新推荐文章于 2024-05-05 23:58:08 发布

阅读量2.3k

点赞数

分类专栏： algorithm 文章标签：深度学习梯度下降优化算法 Adam

本文链接：https://blog.csdn.net/m0_37864814/article/details/90723133

版权

algorithm 专栏收录该内容

12 篇文章 8 订阅

订阅专栏

Z

梯度下降（Gradient Descent ）
带动量的梯度下降（Gradient Descent + Momentum）
Nesterov Momentum
AdaGrad
RMSProp
Adam

梯度下降（Gradient Descent ）

$x-\alpha \cdot {\rm{d}}x$
其中 $\alpha$ 为学习率。代码如下：

while True:
    dx = compute_gradient(x)
    x += - learning_rate * dx #perform parameter update

带动量的梯度下降（Gradient Descent + Momentum）

$\rho \cdot v+ {\rm{d}}w \\ x:=x-\alpha \cdot v$
$\rho$ 为动量因子，一般取0.9、0.99。动量的引入使下降的方向不仅受到当前梯度方向影响，还受到历史方向的影响，即有一个初速度。这使得本来由某一点开始的梯度下降过程是及其曲折的，并不是直接走向中心点，而是需要浪费很多时间折来折去，加入动量后会避免这个问题，加快学习速度。代码如下：

vx = 0
while True:
    dx = computed_gradient(x)
    vx = rho * vx + dx
    x += - learning_rate * vx

Nesterov Momentum

$v:=\rho \cdot v-\alpha \cdot {\rm{d}}(x+\rho \cdot v)\\x:=x+v$
Nesterov Momentum是对Momentum的改进，可以理解为nesterov动量在标准动量方法中添加了一个校正因子。变形代码：

while True:
	dx = compute_gradient(x)
	old_v = v
	v = rho * v - learning_rate * dx
	x += - rho * old_v + (1+rho) * v

AdaGrad

${\rm{d}}x^{\top} \cdot {\rm{d}}x\\x:=x-\alpha \cdot \frac{{\rm{d}}x}{\sqrt{g}+\epsilon}$
优点：抑制梯度大的维度的下降速度，增大梯度小的维度的下降速度。
缺点：随着迭代，步长越来越小，在非凸问题上容易卡在鞍点和局部极小值。
代码：

grad_squared = 0
while True:
    dx = compute_gradient(x)
    grad_squared += dx * dx
    x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)

RMSProp

$\beta \cdot g + (1-\beta) \cdot {\rm{d}}x^{\top} \cdot {\rm{d}}x \\ x:=x-\alpha \cdot \frac{{\rm{d}}x}{\sqrt{g}+\epsilon}$
解决AdaGrad的缺点，类似给dx*dx加了动量, decay_rate $\beta$ 一般为 0.9、0.99。代码如下：

grad_squared = 0
while True:
    dx = compute_gradient(x)
    grad_squared = decay_rate * grad_squared + (1-decay_rate) * dx * dx
    x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)

Adam

$\beta_1 \cdot g + (1-\beta_1) \cdot {\rm{d}}x \\ gg := \beta_2 \cdot gg + (1-\beta_2) \cdot {\rm{d}}x^{\top} \cdot {\rm{d}}x \\ x:=x-\alpha \cdot \frac{g}{\sqrt{gg}+\epsilon}$
结合momentum和Ada的思想，真是秀操作啊。代码：
beta1 = 0.9
beta2 = 0.999
learning_rate = 1e-3 or 5e-4

first_moment = 0
second_moment = 0
while True:
    dx = computed_gradient(x)
    first_moment = beta1 * first_moment + (1-beta1) * dx  # Momentum
    second_moment = beta2 * second_moment + (1-beta2) * dx *dx #AdaGrad/RMSProp
    x -= learning_rate * first_moment / (np.sqrt(second_moment) + 1e-7)

上面的Adam前几次迭代的步长会非常大，这里增加了偏置矫正项t：
注意t的值会随着迭代次数增加

first_moment = 0
second_moment = 0
for t in range(num_iterations):
    dx = compute_gradient(x)
    first_moment = beta1 * first_moment + (1-beta1) * dx
    second_moment = beta2 * second_moment = （1-beta2) * dx * dx
    first_unbias = first_moment / (1 - beta1 ** t) #偏置纠正
    second_unbias = second_moment / (1 - beta2 ** t)
    x -= learning_rate * first_unbias / (np.sqrt(second_unbias) + 1e-7)

至此，欢迎交流，谢谢指正！
[1]https://blog.csdn.net/u012328159/article/details/80311892
[2]https://www.bilibili.com/video/av53754154/?p=3

JayShaun

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
神经网络优化算法及代码实现——从SGD、Momentum、AdaGrad、RMSProp到Adam

文章目录梯度下降（Gradient Descent ）带动量的梯度下降（Gradient Descent + Momentum）Nesterov MomentumAdaGradRMSPropAdam梯度下降（Gradient Descent ）x:=x−α⋅dxx := x-\alpha \cdot {\rm{d}}xx:=x−α⋅dx其中α\alphaα为学习率。代码如下：while ...
复制链接

扫一扫