文章目录
前言
提示:
以下内容不分先后,是我自己学到哪里就记到哪里,有的我不懒的话就自己写,懒得话就直接贴我看的博文链接,不定时更新。
感谢理解
提示:以下是本篇文章正文内容,下面案例可供参考
一、Adam是什么?
1、下山方法
BGD批量梯度下降
SGD随机梯度下降
MBGD小批量梯度下降
AdaGrad - 动态学习率
RMSProp - 优化动态学习率
AdaDelta - 无需设置学习率
Adam - 融合AdaGrad和RMSProp
Momentum - 模拟动量
2、详解
Adam 算法来源:Adam: A Method for Stochastic Optimization
optimizer = torch