本文是Deep Learning 之 最优化方法系列文章的SGD方法。主要参考Deep Learning 一书。
整个优化系列文章列表:
Deep Learning 最优化方法之Momentum(动量)
在这里SGD和min-batch是同一个意思,抽取m个小批量(独立同分布)样本,通过
本文深入探讨了深度学习中最优化方法中的随机梯度下降(SGD),介绍了SGD的基本概念及其在优化过程中的作用。文章提到了SGD与小批量样本的关系,并指出在实际应用中通常结合学习率衰减策略,如线性衰减。同时,文章还列举了其他几种优化算法,如动量法、Nesterov动量、AdaGrad、RMSProp和Adam。
本文是Deep Learning 之 最优化方法系列文章的SGD方法。主要参考Deep Learning 一书。
整个优化系列文章列表:
Deep Learning 最优化方法之Momentum(动量)
在这里SGD和min-batch是同一个意思,抽取m个小批量(独立同分布)样本,通过
1158
4097

被折叠的 条评论
为什么被折叠?