深度学习优化方法总结

最新推荐文章于 2024-04-26 16:51:33 发布

liumy601

最新推荐文章于 2024-04-26 16:51:33 发布

阅读量286

点赞数

文章标签：深度学习优化方法 Adam SGD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liumy601/article/details/88355670

版权

1、SGD

SGD算法是最基本的优化算法，首先批量采样，然后计算该批次样本的梯度，最后以学习率和梯度更新模型参数theta。

2、SGD with momentum

相对SGD算法，多了参数v，用来统计历史梯度累计和，另外通过参数alpha来控制历史梯度累加和对当前参数更新的影响。

3、SGD with Nesterov

和SGD with momentum算法的不同点在于，计算梯度之前先用历史梯度v更新了参数theta。

4、AdaGrad

AdaGrad算法主要是对历史梯度变化值累加，用来更新学习率，参数偏导越大，学习率减少得越快，参数偏导越小，学习率减少得越慢。因为学习率的下降用了历史上所有的梯度平方值，可能会导致学习率下降得过快，因此只对某些模型比较有效。

5、RMSProp

RMSProp算法相比AdaGrad多了一个参数，用来控制梯度平方历史累加值和新的梯度平方的比例，变成历史梯度平方的加权移动平均，可以减少时间太久的历史梯度值的影响，在非凸分布情况下效果更好。

6、RMSProp with Nesterov momentum

相对RMSProp算法，不同点在于计算梯度前先更新了参数theta，后面更新参数theta时同时利用了梯度累加和v以及梯度平方累加和R。

7、Adam

Adam算法引入了s、r作为一阶导数变量、二阶导数变量，、分别控制历史累加值对当前的影响，来保证历史值对当前的影响比较平滑。另外，Adam算法对超参数的初始值不敏感。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化方法总结

1、SGDSGD算法是最基本的优化算法，首先批量采样，然后计算该批次样本的梯度，最后以学习率和梯度更新模型参数theta。2、SGD with momentum相对SGD算法，多了参数v，用来统计历史梯度累计和，另外通过参数alpha来控制历史梯度累加和对当前参数更新的影响。3、SGD with Nesterov和SGD with momentum算法的不同点在于，计算...
复制链接

扫一扫

liumy601 CSDN认证博客专家 CSDN认证企业博客

码龄17年

8: 原创

41万+: 周排名

46万+: 总排名

3万+: 访问

: 等级

383: 积分

22: 粉丝

12: 获赞

31: 评论

129: 收藏

私信

关注

热门文章

最新评论

基于ML-DecisionTree的多标签分类算法
x534w756f: 请问博主，多标签分类评价指标都需要用到y_scores y_scores =np.array([[0.94,0.83,0.52,0.77,0.76], [0.88,0.78,0.89,0.93,0.95], [0.87,0.86,0.86,0.86,0.65], [0.78,0.98,0.86,0.98,0.79]]) 如coverage，ranKingloss 比如Python代码为label_ranking_loss(y_true, y_scores) 这里ml-dt算法该怎么求 y_scores啊？
基于ML-DecisionTree的多标签分类算法
weixin_43728982: 博主您好，请问下ML-DT是引自哪篇文献，可以发下链接吗
基于ML-DecisionTree的多标签分类算法
CV大法渡世人: 博主，能不能分享下数据集
基于ML-KNN的多标签分类算法
糯米~团子: 请问这些公式都出自哪篇论文？想去学习一下
基于随机梯度下降的SVD原理分享及Python代码实现
与猫子: 为什么我的numpy里面没有这个函数，是版本原因吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。