- 博客(2)
- 收藏
- 关注
原创 2021-11-09
** 关于Momentum、AdaGrad、Adam优化算法的一些见解 ** 1.Momentum Momentum[2]的提出是为了解决随机梯度下降法(SGD)[1]中山谷和鞍点的问题,引入了“动量”。SGD每次根据一小批数据集来估计其梯度值,以此作为全局的梯度估计值,由于数据量小,接收的信息受限,对梯度的估计十分不稳定,收敛曲线如图1(a)所示: (a)SGD (b)Momentum 图1 基于SGD的Momentum(SGDM)算法,先计算梯度的指数加权平均值,再进行参数更新: 其中,为学习率,
2021-11-09 14:06:49 2006
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人