课程链接 梯度下降法中的几个问题 学习率如果过大会导致损失函数卡住无法下降,甚至上升,学习率如果过小则会导致收敛过慢。 Adagrad Adagrad是选择学习率的一种常用方法。具体公式如下 对于这个公式的直观解释,是为了强调梯度的变化,突出反差 从数学上进行解释,如果我们拿一段二次函数作为例子,可以发现最好的学习率(从X0一步走到最低点)是一阶导数/二阶导数。由此我们推测其他情况下也是如此。 不过在模型较为复杂的情况下,计算二阶导数是很困难的。我们发现当二阶导数较大时,一阶导数