文章目录 1. 了解不同的优化方法 1.1 动量法(Momentum) 1.2 Adagrad 1.3 Adadelta(Adagrad的改进算法) 1.4 Adam 1.5 如何选择算法 2. 代码实践 2.1 导入数据 2.2 构建神经网络和优化器 2.3 训练并绘制结果 1. 了解不同的优化方法 1.1 动量法(Momentum) 该适用于隧道型曲面,梯度下降法在狭长的隧道型函数上表现不佳,如下图所示 函数主体缓缓向右方下降 在主体方向两侧各有一面高墙,导致垂直于主体方向有更大的梯 度 梯度下降法会在隧道两侧频繁震荡 而动量法每次更新都吸收一部分上次更新的余势。这样主体方向的更新就得到了更大的保留,从而效果被不断放大。物理上这就像是推一个很重的铁球下山,因为铁球保持了下山主体方向的动量,所以在隧道上沿两侧震荡测次数就会越来越少。 v t = γ v