随机梯度下降中的优化算法

最新推荐文章于 2024-05-27 20:03:59 发布

夏天的米米阳光

最新推荐文章于 2024-05-27 20:03:59 发布

阅读量1.6k

点赞数 3

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013453936/article/details/79004264

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

1、动量法

加入历史梯度累积，作为下降方向。

2、Nesterov 加速梯度法

在之前的累积梯度上前进一步，根据当前情况进行修正。相较于动量法，增加了当前情况的修正。动量法容易在梯度的来回震荡中抵消一部分动量作用，Nesterov加速梯度法有效改进了不足之处。

3、Adagrad算法

以上两种动量法都是对不同的参数进行同样的调整，对于稀疏矩阵，往往一些参数更新频繁，另一些参数更新较少。对这些参数的更新需要做到高频更新参数步长较小，低频更新参数步长较大。Adagrad通过各个参数的历史梯度累积，来控制步长大小，在分母中添加了历史平方梯度和的开方。

4、Adadelta算法

Adadelta的提出由于两方面原因：1、adagrad学习率单调下降2、更新值的量纲与参数量纲不一致。针对原因1，adadelta将梯度平方累积值变为衰减平均值

针对原因2，在分子上增加参数更新平方的衰减平均值

最终更新如下：

Adadelta由于加入历史参数更新的衰减均值，代替整学习率，所以不需要设置学习率。

5、adam算法的提出

Adam主要将动量法与自适应学习率算法相结合，既存储历史梯度累积，也计算历史梯度平方累积作为自适应学习率。

由于初始化为0时，衰减率较小，因此加入修正项。

最终更新公式为

夏天的米米阳光

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
随机梯度下降中的优化算法

1、动量法加入历史梯度累积，作为下降方向。2、Nesterov 加速梯度法在之前的累积梯度上前进一步，根据当前情况进行修正。相较于动量法，增加了当前情况的修正。动量法容易在梯度的来回震荡中抵消一部分动量作用，Nesterov加速梯度法有效改进了不足之处。3、Adagrad算法以上两种动量法都是对不同的参数进行同样的调整，对于稀疏矩阵，往往一些参数更新频繁，另一些
复制链接

扫一扫

专栏目录

夏天的米米阳光 CSDN认证博客专家 CSDN认证企业博客

码龄11年

29: 原创

13万+: 周排名

68万+: 总排名

13万+: 访问

: 等级

1329: 积分

52: 粉丝

57: 获赞

45: 评论

268: 收藏

私信

关注

热门文章

分类专栏

最新评论

多任务学习权重的动态调整
shao_tiane: sigma初始怎么取的
关于SeqGan的记录
「已注销」: 请问随机噪声是怎么回事
多任务学习权重的动态调整
hello_1fx: 博主有个问题，采用这个不确定性方法是不是哪个任务的损失大，权重就会变小？
决策树的实现原理与matlab代码
yangani42: 你好，可以分享一下改正后的代码吗？谢谢！1473037798@qq.com
决策树的实现原理与matlab代码
xk-core: 您好，可以分享一下更改后的代码吗？谢谢！3189662561@qq.com

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。