基于二阶近似方法的优化算法

最新推荐文章于 2024-07-29 07:45:00 发布

可大侠

最新推荐文章于 2024-07-29 07:45:00 发布

阅读量2k

点赞数 2

分类专栏：机器学习文章标签：机器学习深度学习优化牛顿法

本文链接：https://blog.csdn.net/weixin_40444270/article/details/109477899

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

暂时只更新到牛顿法

参考文章

二阶梯度方法使用二阶导数改进了优化，最广泛使用的时牛顿法

牛顿法

思想

用目标函数的二阶泰勒展开近似该目标函数，通过求解这个二次函数的极小值来求解凸优化的搜索方向

牛顿法的主要应用在两个方面:1.求方程的根；2. 最优化

预备知识

一元泰勒展开式

此次使用一元泰勒展开式进行讨论

$f(x_0)+f^{\prime}(x_0)(x-x_0)+\frac{1}{2!}f^{\prime \prime}(x_0)+\cdots+\frac{1}{n!}f^{(n)}(x_0)(x-x_0)^n$

海森矩阵(Hessian)

Hessian矩阵定义的二次范数

H(x^{(k)}) =

实际应用

1. 求解方程根

并不是所有的方程都有求根公式或者求根公式很复杂，导致求解困难。
利用牛顿法，可以迭代求解

过程
利用泰勒展开式在 $x_0$ 处展开，展开到一阶，即
$f(x_0)+f^{\prime}(x_0)(x-x_0)$

求解方程
$f (x) = 0$
这就等价于
$f(x_0)+f^{\prime}(x_0)(x-x_0) = 0$
解得
$x_1 = x = x_0 - \frac{f(x_0)}{f^{\prime}(x_0)}$

注意，这里我们是使用泰勒一阶展开式来近似， $f(x_0)+f^{\prime}(x_0)(x-x_0)$ 是近似表达，不完全相等。这里求得的 $x_1$ ，并不能使 $f (x) = 0$ ,即 $f(x_1) \not = 0$ ，只能说 $f(x_1)$ 比 $f(x_0)$ 更接近于等于 $0$

于是得到迭代过程
$x_{n+1} = x_n - \frac{f(x_n)}{f^{\prime}(x_n)}$

通过不停迭代，此公式会在 $f(x^*) = 0,$ 计算过程如下
在这里插入图片描述

2. 最优化

假设无约束最优化问题

$min_{x \in R^{n} }f(x)$

$x^*$ 为目标函数的极小点。

设 $f (x)$ 具有二阶连续导数，若第 $k$ 次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近的二阶泰勒展开
$f(x^{(k)})+g^{T}_k(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^T\cdot H \cdot (x-x^{(k)})$
$g_k = g(x^{(k)}) = \nabla f(x^{(k)})$ ，表示 $f (x)$ 在点 $x^{(k)}$ 的梯度向量

$H(x^{(k)})$ 是 $f (x)$ 的海瑟矩阵( $H e s s i a n$ 矩阵)在点 $x^{(k)}$ 处的值
$\big[ \frac{\partial^2f}{\partial{x_i}\partial{x_j}} \big]$

函数 $f (x)$ 有极值的必要条件是在极值点处一阶导数为 $0$ ，即梯度向量为 $0$ 。
特别的当 $H(x^{(k)})$ 是正定矩阵时，函数 $f (x)$ 的极值为极小值。

为了得到一阶导数 $f^{\prime}(x)=0$ 的点，我们使用上节中的求解方程根的方法。
根据二阶泰勒展开，对 $\nabla f(x)$ 在 $x^{(k)}$ 进行展开得

$\nabla f(x) = g_k + H_k \cdot (x-x^{(k)})$
其中 $H_k = H(x^{(k)}),$ 则

$g_k + H_k \cdot (x^{(k+1)} - x^{(k)}) = 0$
$x^{(k+1)} = x^{(k)} - H_k^{-1} g_k$

我们令
$H_k p_k = -g_k$
则得到迭代公式
$x^{(k+1)} = x^{(k)} - p_k$

最终可在 $\nabla f(x^*) = 0$ 收敛

算法

目标为 $J(\Theta) = \frac{1}{m}\sum_{i=1}^{m}L(f(x^{i};\theta),y^{(i)})$ 牛顿法

$R e q u i r e$ ：初始参数 $\theta_0$
$R e q u i r e$ : 包含 $m$ 个样本的训练集
$w h i l e$ 没有达到停止准则 $d o$
计算梯度： $\leftarrow \frac{1}{m}\nabla_{\theta}\sum_i L(f(x^{(i)};\theta),y^{(i)})$
计算 $H e s s i a n$ 矩阵： $\leftarrow \frac{1}{m}\nabla_{\theta}^2\sum_iL(f(x^{(i)};\theta),y^{(i)})$
计算 $H e s s i a n$ 逆: $H^{-1}$
计算更新： $\Delta\theta = -H^{-1}g$
应用更新： $\theta = \theta + \Delta\theta$

$e n d w h i l e$

计算海森矩阵的逆

拟牛顿法

思想

计算海森矩阵的逆 $H^{-1}$ 是比较复杂的,这一计算比较复杂，这一计算比较复杂，考虑用一个 $n$ 阶矩阵 $G_k= G(x^{(k)})$ 来近似代替 $H_k^{-1} = H^{-1}(x^{(k)})$ 。这就是拟牛顿法的基本想法。

注意

牛顿法只适用于Hessian矩阵正定的情况
在深度学习中，目标函数的表面通常非凸(有很多特征)，如鞍点。因此使用牛顿法是有问题的，
- 如果Hessian矩阵的特征值并不都是正的，例如，靠近鞍点处，牛顿法实际上会导致更新错误的方向移动
- 这种情况可通过正则化Hessian矩阵来避免

牛顿法 VS 梯度下降

梯度下降法和牛顿法相比，两者都是迭代求解，

梯度下降法是梯度求解
- $x^{(k+1)} = x^{(k)} - \lambda \nabla f(x^{(k)})$
牛顿法是用二阶的海森矩阵的逆矩阵求解
- $x^{(k+1)} = x^{(k)} - \lambda (H^{(k)})^{-1} \nabla f(x^{(k)})$
相对而言，使用牛顿法收敛更快（迭代更少次数）。但是每次迭代的时间比梯度下降法长。