梯度下降的tips
Outline
- Adagard
- Stochastic Gradient Descent
- Feature Scaling
- Math theory of gradient descent
1 Adagrad
常用的思想就是使得learning rate随着参数的update慢慢变小。距离极值较远的时候使用较大的的learning rate,距离极值较近的时候使用较小的learning rate。
1.1 Adagrad原理
Adagrad 给每个参数赋予不同的随时间变化的学习率。具体更新式子如下:
w t + 1 = w t − η t σ t ∂ L ∂ w w_{t+1}=w_t-\frac{\eta_t}{\sigma_t}\frac{\partial L}{\partial w} wt+1=wt−σtηt∂w∂L
其中:
η t = η t + 1 \eta_t=\frac{\eta}{\sqrt{t+1}} ηt=t+1η
设偏微分使用 g = ∂ L ∂ w g=\frac{\partial L}{\partial w} g=∂w∂L来表示
σ t = g 0 2 + g 1 2 + . . . + g t 2 t + 1 \sigma_t=\sqrt{\frac{g_0^2+g_1^2+...+g_t^2}{t+1}} σt=t+1g02+g12+...+