我们在前面的时候提到了梯度下降法。我们简单说了一下步长。今天我们填上这个坑。我们根据函数的smooth 性质,聊一下这个步长该怎么取。
首先我们回忆一下函数是smooth, 则函数满足:
这个意思就是呢函数的值是会有一个上界的。
梯度下降法中呢,我们自变量更新的规则有
所以我们令 有
我们观察上面这个式子,如果我们希望梯度下降法每一步都有改进,则我们自然希望
通常步长是大于0的,因此上式要满足则
通常我们取步长为, 因此此时
最大,函数的improvement最大。因此,如果我们知道了函数的平滑参数之后,那么我们就可以很方便的确定梯度下降法的步长啦。