李宏毅 Gradient Descent总结

最新推荐文章于 2022-06-18 00:54:09 发布

我对算法一无所知

最新推荐文章于 2022-06-18 00:54:09 发布

阅读量292

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/qq_31267769/article/details/104224551

版权

机器学习算法专栏收录该内容

20 篇文章 4 订阅

订阅专栏

Review

在解决问题时一般分为三个步骤：
步骤一：选择一个function set
步骤二：找到loss function
步骤三：最小化loss function找到function set中最优的function。

步骤三中常用的方法就是梯度下降（Gradient Descent）。

$\theta^*=arg\,\min_{\theta}L(\theta)$
L: loss function
$\theta$ : parameters
目标是最小化loss function，并找到使loss function 最小的 $\theta$ ，其中 $\theta$ 是function set的参数组成的vector。
假设θ有两个参数{θ1,θ2}，梯度下降的做法如下：

随机从loss function上任意一点开始，随机的使 $\theta=\theta_0$ ，其中 $\theta_0=\begin{bmatrix} \theta_1^0 \\ \theta_2^0 \\ \end{bmatrix}$
更新 $\theta$

$\theta_1=\begin{bmatrix} \theta_1^1 \\ \theta_2^1 \\ \end{bmatrix}=\begin{bmatrix} \theta_1^0 \\ \theta_2^0 \\ \end{bmatrix}-\eta \begin{bmatrix} \frac {\partial L(\theta_1^0 )}{\partial \theta_1} \\ \frac {\partial L(\theta_2^0 )}{\partial \theta_2} \\ \end{bmatrix}$
$\theta_2=\begin{bmatrix} \theta_1^2 \\ \theta_2^2 \\ \end{bmatrix}=\begin{bmatrix} \theta_1^1 \\ \theta_2^1 \\ \end{bmatrix}-\eta \begin{bmatrix} \frac {\partial L(\theta_1^1 )}{\partial \theta_1} \\ \frac {\partial L(\theta_2^1 )}{\partial \theta_2} \\ \end{bmatrix}$
将这个动作一直重复下去…
可以简写为： $\theta^{k+1}=\theta^k-\eta\nabla L(\theta^k)$
$\nabla L(\theta)=\begin{bmatrix} \frac {\partial L(\theta_1 )}{\partial \theta_1} \\ \frac {\partial L(\theta_2 )}{\partial \theta_2} \\ \end{bmatrix}$

直观理解就是对每个参数在当前位置上求偏微分，这个偏微分就是当前点在这个参数方向上的梯度，向这个梯度的反方向走就可以走到一个更低的点，这个更低的点代表着loss function的值更小。如下图，横轴是 $\theta_1$ 纵轴是 $\theta_2$ ，初始点 $\theta_0$ 是随机选择的。
在这里插入图片描述

Learning Rate： $\eta$

learning rate可以理解为步长，就是在梯度反方向上走多长，learning rate是监督学习中重要的超参，它决定了能否走到一个足够优的点，也决定了多久能走到一个足够优的点，就是他决定了目标函数能否收敛到局部最小值也决定了收敛速度，所以learning rate的选择十分重要。
在这里插入图片描述
蓝色的线表示一个比较小的learning rate，这就导致目标函数收敛速度非常慢；绿线和黄线表示了一个比较大的learning rate，这就导致目标函数无法收敛甚至会发散。红色的线是比较合适的learning rate。

Adaptive Learning Rates

假设在一个不规则的曲面上进行梯度下降，在每个方向上的梯度都是不断变化的，这种情况下，使用统一的learning rate会导致在梯度较小的时候收敛太慢，在梯度较大的时候learning rate又相对过大，会出现无法收敛甚至发散的情况。
比较常用且简单的方法：每隔几步就将学习率降低一些。

一开始离目的地很远，所以我们使用较大的学习率
经过几次下降后，我们离目的地很近，所以我们降低了学习率
例如： $\frac 1t$ decay： $\eta^t=\frac \eta{\sqrt{t+1}}$
Learning rate cannot be one-size-fits-all，所以对于不同的参数要有不同的learning rates

Adagrad

adagrad也是一种梯度下降方法，在普通的梯度下降的基础上对于learning rates: $\eta$ 除以之前所有一阶微分的RME。
在这里插入图片描述

Stochastic Gradient Descent

随机梯度下降法不同于批量梯度下降，随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。
Gradient Descent：对于全部的样本进行求和
$L=\sum_n(\hat y^n-(b+\sum w_ix_i^n))^2$
$\theta^i=\theta^{i-1}-\eta\nabla L(\theta^{i-1})$
Stochastic Gradient Descent：随机选择一个样本 $x^n$
$L^n=(\hat y^n-(b+\sum w_ix_i^n))^2$
$\theta^i=\theta^{i-1}-\eta\nabla L(\theta^{i-1})$
所以SGD的速度更快。
在这里插入图片描述

Feature Scaling

对于不同的特征，很可能比例不同，例如一个模型 $y=b+w_1x_1+w_2x_2$ ,有两个特征 $x_1$ 和 $x_2$ ， $x_1$ 的范围是[-1,1]， $x_2$ 的范围[-100,100]，这导致 $x_1$ 和 $x_2$ 对目标函数的不同，同时可能梯度下降的速度会减慢。
在这里插入图片描述