一 随机梯度下降为什么可以代替梯度下降最终实现收敛? 二 学习率为什么一般设置的比较小? 可以看到只有保证(学习率*f(x))的倒数足够小的时候,才能带人泰勒展开式进行近似计算,保证损失函数在迭代过程中逐渐收敛,而当学习率太大时,使前面提到的一阶泰勒展开公式不再成立:这时我们无法保证迭代 x x x会降低 f ( x ) f(x) f(x)的值。