本节课将深入学习机器学习简介中机器学习建模步骤3中优化方法Gradient Descent(梯度下降)。
目录
梯度下降算法介绍
自动调整学习速率
学习速率对算法的影响
如果学习速率适合,那么优化Loss function的路径应该如红色线段;如果学习速率过大,那么优化Loss function的路径将如绿色、黄色线段;如果学习速率过小,那么优化Loss function的路径将如蓝色线段。由此,衍生出自动选择学习速率的方法(Adaptive Learning Rates),核心思想:每个参数设置不同学习速率,学习速率随着参数调整次数的增大而减少,因为通常初始点距离最优点远,步伐可以设置大一点,随着参数的调整逐渐逼近最优点,此时步伐应该调小,避免跨过最优点。
Adagrad
Adagrad是一种常见的自动调整学习速率算法,具体如下。
最终可以得到Adagrad算法的参数更新: wt+1←wt−η∑ti=0(gi)2gt w t + 1 ← w t − η ∑ i = 0 t ( g i ) 2 g t ,Adagrad算法考虑 gt g t 的反差效应, gt g t 表示一阶导数, ∑ti=0(gi)2