文章目录 学习率优化器随机梯度下降(SGD)带动量的SGDAdagrad RMSprop Adam鞍点情况下 学习率 优化器 随机梯度下降(SGD) 带动量的SGD Adagrad RMSprop Adam 鞍点情况下 SGD处于局部最优无法下降