CS231N-优化器

最新推荐文章于 2024-10-06 22:00:42 发布

锟斤考烫烫烫

最新推荐文章于 2024-10-06 22:00:42 发布

阅读量475

点赞数 8

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DaJiJixD/article/details/136890258

版权

本文介绍了AdaGrad算法及其更新规则，强调了其自适应学习率和对大梯度减速的特点。后续讨论了Momentum的动量效应，RMSprop对AdaGrad的改进，以及Adam算法结合两者优势并引入偏差修正。

摘要由CSDN通过智能技术生成

AdaGrad

AdaGrad是基于随机梯度下降进行改进后的优化算法

AdaGrad的更新公式为：

其中 Gt 是历史梯度值平方的累加，公式为：

ε 是用来防止分母为0的超参数。在这个公式下，历史梯度越大的特征Gt会越大，因此历史梯度越大的特征的学习率会下降越快。

优点
- 为不同参数设置不同的学习率，避免手动去调整学习率，减缓大梯度的更新速度，加快小梯度的更新速度
缺点
- 由于随着梯度增加，分母越来越大，学习率不断衰减甚至接近0，因此Adagrad后期的学习率非常小，容易学习困难

Momentum

首先构造表征包含历史梯度的参数 mt ,计算如下：

其中，参数 β 为动量因子。然后按照 mt 的方向与大小进行参数更新：

优点
- 在梯度方向改变时候，动量能够惩罚梯度方向的改变，从而减少震荡
- 在梯度方向相同的时候，动量能加速参数更新，从而加速收敛
缺点
- 不能动态改变学习率
- 动量因子的取值对结果有一定的影响

RMSprop

RMSprop = 动量 + AdaGrad
AdaGrad中学习率分母是历史梯度的平方和，会无限增大，我们采用动量的思想对其修改，这样他的历史梯度就不会无限增大导致学习率下降
优点
- 克服了AdaGrad的梯度消失问题
缺点
- 如果参数设置不好的话，可能会导致学习率不衰减，反而增大，这可能导致无法收敛

Adam

Adam = RMSprop + 动量
他结合了两者的优势，在学习率和梯度上都应用的动量的思想

在使用指数加权平均的时候，可以选择偏差修正
- 目的是为了解决初始时期的偏差，在早期得到更好的预测，但是也可以不用
除了传统的梯度下降，其他的梯度下降可以跳出局部最小值和鞍点

锟斤考烫烫烫

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

锟斤考烫烫烫 CSDN认证博客专家 CSDN认证企业博客

码龄5年

6: 原创

150万+: 周排名

13万+: 总排名

1955: 访问

: 等级

106: 积分

30: 粉丝

41: 获赞

2: 评论

26: 收藏

私信

关注

热门文章

分类专栏

最新评论

CS231N-L1与L2正则化
CSDN-Ada助手: 恭喜你开始了博客创作！标题中提到了CS231N-L1与L2正则化，这是一个非常有趣的话题。希望你能继续深入探讨这个主题，可以结合具体的案例或者实际应用来展开讨论。同时，也建议你可以尝试扩展一下，探讨一些其他与正则化相关的内容，比如交叉验证、模型选择等，这样可以让你的博客内容更加丰富和全面。加油！期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
CS231N-激活函数
CSDN-Ada助手: 非常棒的博客！你对CS231N中激活函数的解释清晰明了，让人受益匪浅。希望你可以继续分享更多关于深度学习的知识和经验。另外，在深度学习领域，了解不同激活函数的特点和适用场景也是非常重要的，比如ReLU、Leaky ReLU、Tanh等，它们各有特点，选择合适的激活函数可以提高模型性能。期待你未来的文章能够涉及更多这方面的内容，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
CS231N-权重初始化
CSDN-Ada助手: 恭喜你发布了第三篇博客！对于CS231N的权重初始化这一话题进行了探讨，非常有深度和价值。接下来，建议可以继续深入研究相关主题，比如梯度消失和梯度爆炸等问题，或者尝试结合实际案例进行分析和探讨。期待你更多精彩的创作！加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
CS231N-Batch Normalization（批量归一化）
CSDN-Ada助手: 恭喜您发布了新的博客！批量归一化是一个很重要的主题，能够有效提高神经网络的训练效果。希望您能继续分享更多关于深度学习和神经网络的知识，也可以考虑深入研究一些前沿的技术或者应用案例，让读者更加全面地了解这个领域。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
CS231N-优化器
CSDN-Ada助手: 恭喜您在CS231N领域写了第5篇博客！优化器是一个非常重要的主题，您的文章内容相信对读者会有很大帮助。接下来，我建议您可以尝试深入探讨不同优化器的优缺点，并结合具体案例进行分析，这样可以让读者更加深入地理解优化器的原理和应用。期待您的下一篇作品！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。