【公式】 α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离。α的选择在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点! 【详请参考】https://www.jianshu.com/p/c7e642877b0e