梯度下降-学习率的影响 调试梯度下降。 绘制一个在x轴上具有迭代次数的图。 现在在梯度下降的迭代次数上绘制成本函数J(θ)。 如果J(θ)增大,则可能需要减小α。 自动收敛测试。 如果在一次迭代中J(θ)的减小量小于E,则声明收敛,其中E是一些小值,例如10的负三次方。但是,实际上很难选择此阈值。 已经证明,如果学习率α足够小,则J(θ)将在每次迭代中减小。 总结一下: 如果α太小:收敛缓慢。 如果α太大:不会在每次迭代中都减小,因此可能不会收敛。 图来源于吴恩达机器学习,共同学习共同提高。