Adam算法:
原理:
m
m
m与
v
v
v分别为梯度
g
g
g的一阶矩和二阶矩估计,
E
(
m
)
=
E
(
g
)
,
E
(
v
)
=
E
(
g
2
)
,
E(m)=E(g),E(v)=E(g^2),
E(m)=E(g),E(v)=E(g2),
算法优点:
- 结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
- 对内存需求较小 ,计算量较小
- 为不同的参数计算不同的自适应学习率
- 也适用于大多非凸优化 - 适用于大数据集和高维空间
参考网站: