文章目录 一、RMSprop(均方根)二、Adam 算法 一、RMSprop(均方根) 在图中这样的情况时,梯度下降在横轴方向前进,在纵轴方向却会有大幅度的抖动。我们把横轴代表参数 w1,把纵轴代表参数 w2。 注意,作为例子我们此处只引入了2个参数,实际情况会复杂很多。这里我们依然会用到指数加权平均数 二、Adam 算法 当把 Momentum 与 RMSprop 算法结合在一起时,就是 Adam 算法 这是Adam 优化算法和其他优化算法在多层感知机模型中的对比,可见其收敛的速度较快,效果明显,并且Adam 算法很容易实现,有很高的计算效率和较低的内存需求。