牛顿法,拟牛顿法,梯度下降,随机梯度下降

最新推荐文章于 2022-07-20 22:57:57 发布

phantom66

最新推荐文章于 2022-07-20 22:57:57 发布

阅读量3.6k

点赞数

分类专栏：杂文推荐系统算法数据挖掘文章标签：牛顿法拟牛顿法梯度下降法随机梯度下降法

本文链接：https://blog.csdn.net/ghostlv/article/details/51165316

版权

杂文同时被 3 个专栏收录

18 篇文章 0 订阅

订阅专栏

数据挖掘

10 篇文章 0 订阅

订阅专栏

算法

8 篇文章 0 订阅

订阅专栏

本文总结了牛顿法, 拟牛顿法,梯度下降和随机梯度下降的概念和计算公式.

牛顿法

首先考虑一维问题.
对于一个一维的函数,如果这个函数连续可微, 并且导数可以计算,
那么计算这个函数的最优解可以看成求解方程 $f'(x)=0$ 的根.
设 $F(x)=f'(x)$ , 这个求解过程就变成了求解方程 $F(x)=0$ 的过程.
使用上述迭代的方法就可以进行计算.

迭代的方程为:

$x^{k+1}=x^{k}-\frac{ f'(x^{k}) }{ f''(x^{k}) }$

对于多维情况, $f(x_1, x_2, x_3, \dots , x_n)$ , 需要求这个函数的最优解,
就是求 $\nabla f(\vec x) = \vec 0$ 的解.

其中 $\nabla f(\vec x) = ({ \partial f(\vec x) \over \partial x_{0} }, { \partial f(\vec x) \over \partial x_{1} }, \dots, { \partial f(\vec x) \over \partial x_{n} })$

按照求解一维函数的方法, 设 $F_{i}(\vec x) = { \partial f(\vec x) \over \partial x_{i} }$ .
则 $\nabla f(\vec x) = \vec F(\vec x)$ .

那么对于多维函数来说, 牛顿法的公式为:

$\begin{cases} \vec x = 初始值 \\ \vec x^{k} = \vec x^{k} - (D \vec F(\vec x^{k}))^{-1} \vec F( \vec x^{k}), & k = 0, 1, 2, \dots \end{cases}$

由于求解矩阵的逆的计算复杂度较高, 因此,需要使用替换的方法.
设 $\vec s = (D \vec F(\vec x^{k}))^{-1} \vec F( \vec x^{k})$ ,
即 $D \vec F(\vec x^{k}) \vec s = \vec F( \vec x^{k})$ .

牛顿法的公式变为:

$\begin{cases} \vec x = 初始值 \\ \vec x^{k} = \vec x^{k} + \vec s \\ D \vec F(\vec x^{k}) \vec s = \vec F( \vec x^{k}), & k = 0, 1, 2, \dots \end{cases}$

拟牛顿法

牛顿法虽然收敛速度很快, 但是计算海森矩阵时计算量特别大.
由此演化出了拟牛顿法.
拟牛顿法是模拟牛顿法的意思, 并不是一种算法, 而是几种算法的总称, 这些算法包括DFP算法, BFGS算法, L-BFGS算法.

牛顿法中, 设 $g_k = \nabla f(x_{k})$ 为梯度向量, $H_{k} = \nabla ^{2}f(x_{k})$ 为海森矩阵.
拟牛顿法是对 $H_{k}$ 或者 $H_{k}^{-1}$ 取近似值, 从而减少计算量.
记 $B \approx H$ , $D \approx H^{-1}$ , $y_{k} = g_{k+1} - g_{k}$ , $s_{k}=x_{k+1} - x_{k}$

根据拟牛顿法条件, 可得到近似公式:

B k + 1 = y k s k

$\begin{align} B_{k+1} = {y_{k} \over s_{k}} \end{align}$

或

D k + 1 = s k y k

$\begin{align} D_{k+1} = {s_{k} \over y_{k}} \end{align}$

下面是几种拟牛顿法:

DFP算法

DFP算法采用的是 $D$ ，但并不直接计算 $D$ ，而是计算每一步 $D$ 的增量 $\bigtriangleup D$ 来间接的求出 $D$ 。这也是很多优化算法的做法，因为一般上一步的中间结果对下一步的计算仍有价值，若直接抛弃重新计算耗时耗力耗内存，重新发明了轮子。

D k + 1 = D k + △ D k

$\begin{align} D_{k+1} = D_{k} + \triangle D_{k} \end{align}$

$D_{0}$ 通常取单位矩阵 $I$ ，关键导出每一步的 $\triangle D_{k}$ 。
通过一系列艰苦而又卓绝的推导计算假设取便，最终的导出结果为：

△ D k = s k s T k s T k y k - D k y k y T k D k y T k D k y k

$\begin{align} \triangle D_{k} = {s_{k} s_{k}^{T} \over s^{T}_{k} y_{k}} - {D_{k}y_{k}y_{k}^{T}D_{k} \over y_{k}^{T} D_{k}y_{k}} \end{align}$

BFGS算法

BFGS算法与DFP算法类似，只是采用的 $B$ 来近似 $H$ 。最终的公式为：

△ B k = y k y T k y T k x k - B k s k s T k B k s T k B k s k

$\begin{align} \triangle B_{k} = {y_{k}y_{k}^{T} \over y_{k}^{T}x_{k}} - {B_{k}s_{k}s_{k}^{T}B_{k} \over s_{k}^{T}B_{k}s_{k}} \end{align}$

L-BFGS算法

L-BFGS算法对BFGS算法进行改进，不再存储矩阵 $D_{k}$ ，因为 $D_{k}$ 有时候比较大，计算机的肚子盛不下。
但是我们用到 $D_{k}$ 的时候怎么办呢？答案是根据公式求出来。

从上面的算法推导可知， $D_{k}$ 只跟 $D_{0}$ 和序列 $\{ s_{k} \}$ 和 $\{ y_{k} \}$ 有关。
即我们知道了后者，即可以求得前者。
进一步近似，我们只需要序列 ${s_{k}}$ 和 ${y_{k}}$ 的最近m个值即可。
这样说来，我们的计算机内存中只需要存储这两个序列即可.

最终的递推关系为:

D k + 1 = V T k D k V k + ρ k s k s T k

$\begin{align} D_{k+1} = V_{k}^{T}D_{k}V_{k} + \rho_{k}s_{k}s_{k}^{T} \end{align}$

其中

ρ k = 1 y T k s k, V k = I - ρ k y k s T k

$\begin{align} \rho_{k} = {1 \over y_{k}^{T}s_{k}}, V_{k} = I - \rho_{k}y_{k}s_{k}^{T} \end{align}$

梯度下降法

首先是梯度的介绍, 对于单变量的的函数中, 梯度是导数, 对于线性函数而言, 梯度就是线的斜率.

假设 $h(x)$ 是要拟合的函数, $J(\theta)$ 是损失函数, $\theta$ 是参数:

$g(\theta)=\sum_{j=0}^{n} \theta_{j} x_{j}$

$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} ( y^{i}-h_{\theta} (x^{i}) ) ^{2}$

将 $J(\theta)$ 对 $\theta$ 求偏导, 得到每个 $\theta$ 对应的梯度:

$\nabla h(\theta_{j}) = {\partial J(\theta) \over \partial \theta _{j} } = - \frac{1}{m} \sum^{m}_{i=1} (y^{i} - h_{\theta} (x^{i}))x^{i}_{j}$

对于每个 $\theta_{j}$ 都按照它的梯度负方向更新它的值, 其中 $\alpha$ 为学习速度:

$\theta'_{j} = \theta _{j} - \alpha \nabla h(\theta_{j})$

这种算法有许多缺点:

靠近极小值时速度减慢
直线搜索可能会产生一些问题
可能会’之’字型地下降

当数据量比较大时, 这种方法收敛速度比较慢.

随机梯度下降法

同样假设 $h(x)$ 是要拟合的函数, $J(\theta)$ 是损失函数, $\theta$ 是参数:

$g(\theta)=\sum_{j=0}^{n} \theta_{j} x_{j}$

$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} ( y^{i}-h_{\theta} (x^{i}) ) ^{2}$

与批量梯度下降(上面提到的普通梯度下降)不同, 随机梯度下降选择其中一个 $\theta_{k}$ .
将 $J(\theta)$ 对 $\theta_{k}$ 求偏导, 得到的梯度为:

$\nabla h(\theta_{k}) = {\partial J(\theta) \over \partial \theta _{k} } = - \frac{1}{m} \sum^{m}_{i=1} (y^{i} - h_{\theta} (x^{i}))x^{i}_{k}$

对于每个 $\theta_{j}$ , 使用 $\theta_{k}$ 的梯度负方向更新每个 $\theta$ :

$\theta'_{j} = \theta _{j} - \alpha \nabla h(\theta_{k})$

相对于批量梯度下降, 随机梯度下降在每次更新操作时, 并没有选择全局最优解, 这也导致随机梯度下降可能陷入局部最优解.

phantom66

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
牛顿法,拟牛顿法,梯度下降,随机梯度下降

本文总结了牛顿法, 拟牛顿法,梯度下降和随机梯度下降的概念和计算公式.牛顿法首先考虑一维问题. 对于一个一维的函数,如果这个函数连续可微, 并且导数可以计算, 那么计算这个函数的最优解可以看成求解方程f′(x)=0f'(x)=0的根. 设F(x)=f′(x)F(x)=f'(x), 这个求解过程就变成了求解方程F(x)=0F(x)=0的过程. 使用上述迭代的方法就可以进行计算.迭代的方程为:
复制链接

扫一扫