优化算法--李沐

sendmeasong_ying

已于 2024-01-22 11:26:54 修改

阅读量385

点赞数 7

分类专栏：深度学习文章标签：算法人工智能深度学习

于 2024-01-22 11:24:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51133942/article/details/135701599

版权

深度学习专栏收录该内容

25 篇文章 2 订阅

订阅专栏

本文详细介绍了梯度下降及其变种（随机梯度下降、小批量随机梯度下降），以及冲量法（如Adam算法）的概念和优势。着重讨论了如何通过这些方法在损失函数中寻找局部或全局最小值，以及它们在调整学习率和稳定性方面的应用。

摘要由CSDN通过智能技术生成

目录

1.1梯度下降

1.2随机梯度下降

1.3小批量随机梯度下降

损失值也就是预测值与真实值之间的差值是f(x)，x是所有超参数组成的一条向量，c是可以限制的，比如说权重大于等于0。

使用迭代优化算法求解一般只能保证找到局部最小值，因为一到局部最小的地方，用梯度下降算法的话此时的梯度就已经等于0了。

凸集的意思就是在一个区域里面找一根线，这条线的任意一个点都在这个区域里面。

凸函数最简单的理解就是，在函数上画两个点，这两个点连起来，保证整个函数都在连线的下面。

1.1梯度下降

1.2随机梯度下降

随机梯度下降就是随机选取单个样本上的损失来近似全局的损失。单个样本损失梯度的期望等于全局损失梯度的均值，虽然有噪音，但是整体的方向是差不多的。

1.3小批量随机梯度下降

减小了方差就是减小了抖动，蓝色就是梯度下降，一开始就很好，紫色是随机梯度下降，随机梯度下降比梯度下降要慢的原因是，每次算一个样本用不了硬件的并行度，加批量。批量大小在一个合适的区间是比较好的。

1.4冲量法

也就是更平滑的改变方向，不要让方向变得过于大。原理就是不只是看当前时刻的梯度，也看过去时刻的梯度。如果 $g_{t}$ 和 $g_{t-1}$ 特别不一样的话，就会抵消掉一些，让变化不那么剧烈。如果取 $\beta$ 等于0.99的话，大概可以看过去几十个梯度的平均。如果样本比较大娶个0.99也是比较正常的。0.5就是看过去的两三个梯度。

1.5 Adam

Adam可以认为是非常平滑的SGD，非常平滑的话对学习率就不太敏感了。如果想去调参的话用sgd加其他的算法会比用Adam效果好一丁点。当t比较小的时候有用，修正t较小的时候偏零的趋势。t比较大的时候无所谓，因为 $\beta$ 是大于0小于1的，在t时刻很大的时候，就变成0了。所以修正是针对比较小的t做的。

重新调整的梯度是对每一个权重的维度除以梯度的平方的和（过去的所有梯度加起来），就把所有的特征都拉到一个比较平均的地方，这样好调学习率。，使得过去的梯度方向比较平滑，是使得每个维度的值都在合适的范围里面，做维度的调整。

Adam对学习率比较稳定，调参容易一点。

sendmeasong_ying

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sendmeasong_ying CSDN认证博客专家 CSDN认证企业博客

码龄4年

73: 原创

110万+: 周排名

5万+: 总排名

3万+: 访问

: 等级

1379: 积分

548: 粉丝

630: 获赞

15: 评论

597: 收藏

私信

关注

热门文章

分类专栏

FPGA 31篇
深度学习 25篇
python 7篇
gan 2篇
c语言 4篇

最新评论

李沐之数值稳定性+模型初始化和激活函数
莱布尼子: 确实是顶级好文，解开了本初学者以及数学薄弱者很多很多疑惑，非常感谢
残差网络 ResNet
全栈小5: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文【残差网络 ResNet，博主这篇文章，值得一看】
残差网络 ResNet
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文。
李沐之经典卷积神经网络
征途黯然.: 这篇李沐之经典卷积神经网络文章真的让我受益匪浅，感谢！
李沐之数值稳定性+模型初始化和激活函数
CSDN-Ada助手: 恭喜您在博客创作上的持续努力！标题中的"李沐之数值稳定性+模型初始化和激活函数"似乎很引人注目。数值稳定性和模型初始化及激活函数是深度学习中的重要话题，您选择这样的主题展示了您对该领域的深入了解。对于下一步的创作建议，或许您可以考虑探讨一些应用数值稳定性和模型初始化及激活函数的实际案例，或者分享一些优化方法。但是，请您谦虚对待，我们都是学习者，还有很多知识值得我们去探索。祝您继续写作的过程中能够不断进步！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。