SGD方法 动量法 Adagrad RMSProp Adam 动量 常用 ![在这里插入图片描述](https://img-blog.csdnimg.cn/b28350fb673049978fac3fec61210b33.png) Adagrad 减少步长,但是可能会因初始时梯度很大后面更新不动 RMSProp 解决Adagrad更新不动的问题 Adam 常用,但不如SGDM稳定(最强)AdamW算法也不错 按元素除