关于梯度下降的一下技巧 1. 调整学习率 若学习率太大,可能会错过最小值;若学习率太小,有可能收敛速度太慢。 可变学习率 为了让梯度下降可以收敛到最小值,一般来说学习率要跟随迭代次数变小。一种常见的做法是让 η t = η / t + 1 \eta^{t}={\eta} / {\sqrt{t+1}}