常用梯度下降算法SGD, Momentum, RMSprop, Adam详解

最新推荐文章于 2023-12-03 11:30:00 发布

VIP文章 BrightLampCsdn

最新推荐文章于 2023-12-03 11:30:00 发布

阅读量3.6k

点赞数 3

分类专栏：深度学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oBrightLamp/article/details/85218783

版权

摘要

本文给出常用梯度下降算法的定义公式, 并介绍其使用方法.

相关

配套代码, 请参考文章 :

纯Python和PyTorch对比实现SGD, Momentum, RMSprop, Adam梯度下降算法

系列文章索引 :

https://blog.csdn.net/oBrightLamp/article/details/85067981

正文

1. SGD

随机梯度下降 (Stochastic Gradient Descent) 是最基础的神经网络优化方法.

Stochastic 一词是随机的意思, 表示每次都随机选择样本计算损失值和梯度, 进行参数更新.

随机选择样本非常重要, 主要是为了避免模型参数在某种潜在错误方向上走的过远, 导致收敛速度过慢.

1.1 算法定义

SGD 参数更新的算法 :
$p = p - l r * g$

1.2 使用方法

假设一个神经网络模型经过 $n$ 次反向传播, 使用向量 $g$ 表示所有求得的梯度, 初始参数为 $p_0$ , 求学习完成后的参数值 $p_n$ .
$(g_1,g_2,g_3,\cdots,g_n)$
求解过程 :
$p_1 = p_0 - lr * g_1\\ p_2 = p_1 - lr * g_2\\ p_3 = p_2 - lr * g_3\\ \vdots\\ p_n = p_{n-1} - lr * g_{n}\\$

2. Momentum SGD

Momentum SGD 是基于动量的算法.

2.1 算法定义

Momentum SGD 参数更新的算法 :
$\\ p = p - lr * v$

其中 p, g, v 和 m 分别表示参数, 梯度, 速度和动量.
另外一种定义是 :
$\\ p = p - v$

本文使用前一种算法, 也是 PyTorch 推荐使用的算法.

Momentum SGD 的必要参数是动量 m, 一般取 $m = 0.9$

注意, 若 $m = 0$ , Momentum SGD 将退化成 SGD 算法.

2.2 使用方法

假设一个神经网络模型经过 $n$ 次反向传播, 使用向量 $g$ 表示所有求得的梯度, 初始参数为 $p_0$ , 初始速度为 0, 动量参数为 $m$ , 学习率为 $l r$ , 求学习完成后的参数值 $p_n$ .

求解过程 :
$v_1 = g_1, \;\;p_1 = p_0 - lr * v_1\\ v_2 =m * v_1 + g_2, \;\;p_2 = p_1 - lr * v_2\\ v_3 =m * v_2 + g_3, \;\;p_3 = p_2 - lr * v_3\\ \vdots\\ v_n =m * v_{(n-1)} + g_n, \;\;p_n = p_{(n-1)} - lr * v_{(n)}\\$

最低0.47元/天解锁文章

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
常用梯度下降算法SGD, Momentum, RMSprop, Adam详解

摘要本文给出常用梯度下降算法的定义公式, 并介绍其使用方法.相关配套代码, 请参考文章 :纯Python和PyTorch对比实现SGD, Momentum, RMSprop, Adam梯度下降算法系列文章索引 :https://blog.csdn.net/oBrightLamp/article/details/85067981正文1. SGD随机梯度下降 (Stochastic ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。