梯度下降 gradient descent

最新推荐文章于 2024-01-23 15:31:23 发布

羊肉串串魅力无穷

最新推荐文章于 2024-01-23 15:31:23 发布

阅读量536

点赞数 1

分类专栏：机器学习 - 深度学习

本文链接：https://blog.csdn.net/lk3030/article/details/84955490

版权

机器学习 - 深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

文章目录

导数

导数反映的是函数 $f (x)$ 在 $x$ 轴上某一点处沿着 $x$ 轴正方向的变化率/变化趋势。

$f'(x_0)=\lim_{\Delta x \to 0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x \to 0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}$

$f^{'} (x) > 0$ ，说明 $f (x)$ 的函数值在 $x$ 点沿 $x$ 轴正方向趋于增加。
$f^{'} (x) < 0$ ，说明 $f (x)$ 的函数值在 $x$ 点沿 $x$ 轴正方向趋于减少。

偏导数

因为曲面上的每一点都有无穷多条切线，描述曲面函数的导数相当困难。偏导数就是选择其中一条切线，并求出它的斜率。

假设 $ƒ$ 是一个多元函数。例如：

$z = f(x, y) = x^2 + xy + y^2$

一种求出这些切线的好办法是把其他变量视为常数。例如，欲求出以上的曲面函数在点 $（ 1, 1, 3 ）$ 与 $y = 1$ 平面的切线。（右图为 $y = 1$ 切面）
我们把变量 $y$ 视为常数，过对 $x$ 求导：

${\frac {\partial z}{\partial x}}=2x+y$
得到点（1, 1, 3）的与 $x O z$ 平面平行的切线的斜率为 3。

一般地，函数 $f(x_1,...,x_n)$ 在点 $a_1,...,a_n)$ 关于 $x_i$ 的偏导数定义为：

${\frac {\partial f}{\partial x_{i}}}(a_{1},\ldots ,a_{n})=\lim _{h\to 0}{\frac {f(a_{1},\ldots ,a_{i}+h,\ldots ,a_{n})-f(a_{1},\ldots ,a_{n})}{h}}$

方向导数

导数和偏导数的定义中，均是沿坐标轴正方向讨论函数的变化率。而方向导数则是求某一点在某一趋近方向上的导数值，反映函数在特定方向上的变化率：

梯度

梯度即函数在某一点最大的方向导数，函数沿梯度方向函数有最大的变化率，梯度的值是最大方向导数的值。

利用有限差值计算梯度

对 $x$ 所有维度进行迭代，在每个维度上产生一个很小的变化 $h$ ，通过观察函数值变化，计算函数在该维度上的偏导数。最后，所有的梯度存储在变量 grad 中：

def eval_numerical_gradient(f, x):
  """  
  一个f在x处的数值梯度法的简单实现
  - f是只有一个参数的函数
  - x是计算梯度的点
  """ 

  fx = f(x) # 在原点计算函数值
  grad = np.zeros(x.shape)
  h = 0.00001

  # 对x中所有的索引进行迭代
  it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
  while not it.finished:

    # 计算x+h处的函数值
    ix = it.multi_index
    old_value = x[ix]
    x[ix] = old_value + h # 增加h
    fxh = f(x) # 计算f(x + h)
    x[ix] = old_value # 存到前一个值中 (非常重要)

    # 计算偏导数
    grad[ix] = (fxh - fx) / h # 坡度
    it.iternext() # 到下个维度

  return grad

实际中用中心差值公式（centered difference formula） $[f (x + h) - f (x - h)] / 2 h$ 效果较好。

代价函数的梯度

对于 1 维特征的假设函数：

$h_{θ}(x) = θ_0 + θ_1 * x$

不同参数的 $θ_i$ 可以拟合出不同的直线：

代价函数 $J (θ)$ 随参数 $θ_i$ 的变化而变化：

有 2 维特征时，代价函数表现为曲面图。
优化目标函数，可以沿着 负梯度方向 不断下降，逐步降低函数损失值，以此达到最优点：

$θ_0, θ_1$ 初始值不同的时候，可能会找到不同局部最小值，这个正是 梯度下降算法 的特点。
一般线性回归的代价函数都是凸函数，只有一个全局最优值，如下图：

梯度下降的详细算法

先决条件

确认优化模型的 假设函数 和 代价函数。比如对于线性回归，假设函数表示为:

$h_\theta(x_1, x_2, ...x_n) = \theta_0x_0 + \theta_{1}x_1 + ... + \theta_{n}x_{n}$

即：
$h_\mathbf{\theta}(\mathbf{X}) = \mathbf{X\theta}$

其中 $θ_i$ 为模型参数， $x_i$ 为每个样本 $x$ 的第 $i$ 个特征值。 $X$ 为 $m * (n + 1)$ 维的矩阵， $m$ 代表样本的个数， $n + 1$ 代表样本的特征数，多加的1维作为偏置项。
对应于上面的假设函数，代价函数为：

$J(\theta_0, \theta_1..., \theta_n) = \frac{1}{2m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y^{(j)})^2$

即：
$J(\mathbf\theta) = \frac{1}{2}(\mathbf{X\theta} - \mathbf{Y})^T(\mathbf{X\theta} - \mathbf{Y})$
其中 $Y$ 是样本的标签值，维度为 $m * 1$

算法过程

确定当前位置的代价函数的梯度，对于 $θ$ 向量，其梯度表达式如下：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) =\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)= \frac{1}{m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y^{(j)})x_i^{(j)}$

即：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) = \mathbf{X}^T(\mathbf{X\theta} - \mathbf{Y})$
用学习速率 $α$ 乘以代价函数的梯度，得到当前位置将要下降的距离：
$\alpha\frac{\partial}{\partial\theta}J(\theta) =\alpha\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)$
同步更新所有的 $θ$ ，对于 $θ_i$ ，其更新表达式如下。更新完毕后继续转入步骤1。

$\theta_i = \theta_i - \alpha\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)$

即：

$\mathbf\theta= \mathbf\theta - \alpha\mathbf{X}^T(\mathbf{X\theta} - \mathbf{Y})$

代价损失中 θ 偏导数公式推导

代价损失函数对于 $θ_i$ 的偏导数计算，推导如下：

假设函数：

$h_\theta(x_1, x_2) = \theta_0x_0 + \theta_{1}x_1$

代价损失函数：

$J(\theta_0, \theta_1)=\frac{1}{2m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}) - y^{(j)})^2$

$=\frac{1}{2m}\sum\limits_{j=0}^{m}((\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)}) - y^{(j)})^2$

$=\frac{1}{2m}\sum\limits_{j=0}^{m}((\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)})^2 + {y^{(j)}}^2 - 2(\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)})y^{(j)})$

$=\frac{1}{2m}\sum\limits_{j=0}^{m}(\theta_0^2{x_0^{(j)}}^2 + \theta_1^2{x_1^{(j)}}^2 + 2\theta_0x_0^{(j)}\theta_{1}x_1^{(j)}+ {y^{(j)}}^2 - 2\theta_0x_0^{(j)}y^{(j)} - 2\theta_{1}x_1^{(j)}y^{(j)})$

代价损失函数对于 $θ_0$ 的偏导数：
$\frac{\partial}{\partial\theta_0}J(\theta_0, \theta_1)= \frac{1}{2m}\sum\limits_{j=0}^{m}(2\theta_0{x_0^{(j)}}^2 + 2x_0^{(j)}\theta_{1}x_1^{(j)}- 2x_0^{(j)}y^{(j)} )$

$\frac{1}{m}\sum\limits_{j=0}^{m}(\theta_0{x_0^{(j)}}^2 + x_0^{(j)}\theta_{1}x_1^{(j)}- x_0^{(j)}y^{(j)} )$

$\frac{1}{m}\sum\limits_{j=0}^{m}(\theta_0x_0^{(j)} + \theta_{1}x_1^{(j)}-y^{(j)} )x_0^{(j)}$

$\frac{1}{m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}) - y^{(j)})x_0^{(j)}$

即：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) =\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)= \frac{1}{m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y^{(j)})x_i^{(j)}$

即：

$\frac{\partial}{\partial\mathbf\theta}J(\mathbf\theta) = \mathbf{X}^T(\mathbf{X\theta} - \mathbf{Y})$

批量梯度下降（Batch Gradient Descent，BGD）

批量梯度下降法，就是在梯度下降的每一步中，都 使用所有的样本 来进行更新。前面的梯度下降算法过程，就是批量梯度下降法。

$\theta_i = \theta_i - \alpha\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$

由于我们有 $m$ 个样本，这里求梯度的时候就用了所有 $m$ 个样本的梯度数据。
在大规模的应用中（比如ILSVRC挑战赛），训练数据可以达到百万级量级。如果像这样计算整个训练集，来获得仅仅一个参数的更新就太浪费了。

随机梯度下降法（Stochastic Gradient Descent，SGD）

随机梯度下降法，其实和批量梯度下降法原理类似，区别在与求梯度时没有用所有的 $m$ 个样本的数据，而是仅仅选取一个样本 $j$ 来求梯度。对应的更新公式是：

$\theta_i = \theta_i - \alpha (h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$

随机梯度下降法，和批量梯度下降法是两个极端，一个采用所有数据来梯度下降，一个用 1 个样本来梯度下降。自然各自的优缺点都非常突出。
对于训练速度来说，随机梯度下降法由于每次仅仅采用 1 个样本来迭代，训练速度很快，而批量梯度下降法在样本量很大的时候，训练速度不能让人满意。
对于准确度来说，随机梯度下降法用于仅仅用一个样本决定梯度方向，导致解很有可能不是最优。对于收敛速度来说，由于随机梯度下降法一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。

小批量梯度下降法（Mini-batch Gradient Descent，MBGD）

小批量梯度下降法是批量梯度下降法和随机梯度下降法的折衷，也就是对于 $m$ 个样本，我们采用 $x$ 个样本来迭代， $1 < x < m$ 。
小批量数据的大小是一个超参数，但是一般并不需要通过交叉验证来调参。它一般由存储器的限制来决定的，比如 32，64，128 等。之所以使用2的指数，是因为在实际中许多向量化操作实现的时候，如果输入数据量是 2 的倍数，那么运算更快。
对应的更新公式是：

$\theta_i = \theta_i - \alpha \sum\limits_{j=t}^{t+x-1}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$
使用向量化操作的代码，一次计算 100 个数据比100次计算 1 个数据要高效很多。