- 博客(2)
- 收藏
- 关注
原创 Datawhale X 李宏毅苹果书 AI夏令营
所以我们从最原始的梯度下降,进化到这一个版本,如下式所示:其中 mit是动量。这个版本里面有动量,它不是顺着某个时刻算出的梯度方向来更新参数,而是把过去所有算出的梯度的方向做一个加权总和当作更新的方向。接下来的步伐大小为 mit/ σit。最后通过 ηt来实现学习率调度。这个是目前优化的完整的版本,这种优化器除了 Adam 以外,还有各种变形。但其实各种变形是使用不同的方式来计算 mit或 σit,或者是使用不同的学习率调度的方式。
2024-09-01 22:56:23 1044
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人