各种梯度下降法及其特点

小夏refresh

已于 2024-06-17 10:41:41 修改

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签：深度学习机器学习人工智能随机梯度下降

于 2020-09-02 15:13:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c2861024198/article/details/108362758

版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

文章目录

全量梯度下降/批梯度下降(BGD, Batch Gradient Descent)
- 特点
随机梯度下降(SGD, Stochastic Gradient Descent)
- 特点
小批量梯度下降(Mini-Batch Gradient Descent)
- 特点
Momentum梯度下降法(动量梯度下降)
- 特点
Adagrad梯度下降法
Adam
- 特点

全量梯度下降/批梯度下降(BGD, Batch Gradient Descent)

就是正常的梯度下降
$\omega = \omega-\lambda\frac{\partial J}{\partial\omega}$

特点

每次更新都会朝着正确的方向进行, 最后收敛于极值点, 凸函数收敛于全局极值点, 非凸函数可能会收敛于局部极值点
缺点: 学习时间长, 消耗内存大

随机梯度下降(SGD, Stochastic Gradient Descent)

SGD每一轮只用一条随机选取的数据

特点

优点

每一次的学习时间很快
如果目标函数有盆地区域, SGD会使优化的方向从当前局部极小值点跳到另一个更好的局部最小值点
最终收敛于一个较好的极值店甚至是全局极值点

缺点

每次更新可能并不会按照正确的方向进行, 参数具有高方差, 从而导致损害函数剧烈波动

小批量梯度下降(Mini-Batch Gradient Descent)

小批量梯度下降指的是从所有数据中选择一部分进行迭代

特点

优点

收敛速度比SGD更快, 更稳定
在最优解附近跳动不会太大, 容易得到更好的解

Momentum梯度下降法(动量梯度下降)

$\lambda\frac{\partial J}{\partial\omega} +v * momemtum\\ \omega = \omega-v\\ momemtum介于0和1之间$

特点

减少震荡, 大方向不变, 从而保证了效率和正确的收敛

Adagrad梯度下降法

$\frac{\partial J}{\partial\omega}\\ grad\_squared += dw^2\\ \omega = \omega - \lambda * \frac{dw}{\sqrt{grad\_squared}}$

特点

把每一维度的梯度的平方和记录下来,每次学习率都除以这个和
每一维度的学习率不一样,而且都在不断减小
在梯度大的维度,减小下降速度.在梯度小的维度, 加快下降速度
让学习率适应参数
无需手动调整学习率
缺点: 在训练过程中, 累加的和会持续增长, 这回导致学习率变小以至于最终变得无限小, 那么Adagrad将无法取得额外的信息

Adadelta

$\frac{\partial J}{\partial\omega}\\ grad\_squared = \alpha * grad\_squared + (1 - \alpha) * dw^2\\ \omega = \omega - \lambda * \frac{dw}{\sqrt{grad\_squared}}$

特点

在Adagrad的基础上进行扩展, 以处理Adagrad学习率单调递减的问题

Adam

特点

$\frac{\partial J}{\partial \omega}\\ moment_1 = \beta_1 * moment_1 + (1-\beta_1) * dw\\ moment_2 = \beta_2 * moment_2 + (1-\beta_2) * dw^2\\ bias_1 = moment_1 \div (1-\beta_1^t)\\ bias_2=moment_2 \div (1-\beta_2^t)\\ w -= \lambda * bias_1\div\sqrt{bisa_2}\\ bias为偏差$

结合了Momentum和RMSprop的特点
自适应学习率

$beta_1=0.9, beta_2=0.999, \lambda=1e-3或5e-4$ 是许多模型的一个很好的起点

博客等级

码龄7年

39
原创

271
点赞

584
收藏

178
粉丝

关注

私信

热门文章

分类专栏

论文 13篇
语义分割 3篇
计算机视觉 10篇
深度学习 11篇
工具 2篇
wsl2 1篇
数据挖掘 4篇
机器学习 14篇
linux 1篇
推荐算法 1篇
数据分析 1篇
Python 3篇
最大似然估计 1篇
极大似然估计 1篇
编程语言 1篇
markdown 1篇
爬虫 1篇
C语言 5篇
数据结构 5篇

展开全部收起

上一篇：: 各种激活函数, 图像, 导数及其特点

下一篇：: 随机梯度下降和小批量梯度下降详解

最新评论

2024AAAI SCTNet论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记: Segment Anything
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记: Boosting Object Detection with Zero-Shot Day-Night Domain Adaptation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记:RepViT: Revisiting Mobile CNN From Vit Perspective
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小夏refresh 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。