梯度下降 可以使用被用来作为最小化任何函数的算法。 α 学习率 learning_rate:梯度下降的幅度 导数项:梯度下降的方向 正确和不正确的更新参数: 学习率 学习率过小,梯度下降可能非常慢。 学习率过大,步长太长可能不会到达最小值/错过最小值。 当我们越来越接近局部最小值的时候,斜率会变缓,所以对于参数来说会更新的越来越小。