牛顿法、拟牛顿法

最新推荐文章于 2024-07-25 18:22:10 发布

清焙

最新推荐文章于 2024-07-25 18:22:10 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习文章标签：算法线性代数 matrix 矩阵

本文链接：https://blog.csdn.net/weixin_28800345/article/details/112734034

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

思维导图

牛顿法求解最优化问题原理
牛顿法与梯度下降法的差异
拟牛顿法

牛顿法求解最优化问题原理

原理阐述：
- $f (x)$ 的取得最小值(极小值)的必要条件是 $\nabla{f(x)}=0$ ，所以牛顿法就是来逼近 $x^*$ ，使 $\nabla{f(x^*)}=0$ 。
过程推导：
- $f(\vec{x})$ 在 $\vec{x_0}$ 处的二阶泰勒展开式为
  $f(x)=f(x_0)+\nabla{f(x_0)}^T(x-x_0)+\frac{1}{2}(x-x_0)^T\nabla^2f(x_0)(x-x_0)+o(||x-x_0||^2)$
- 将二次项以及二次项的高阶无穷小项舍去，可近似得
  $f(x)=f(x_0)+\nabla{f(x)}^T(x-x_0)$
- 对上式子两边同求求梯度
  $\nabla{f(x)}=\nabla{f(x_0)}+\nabla^2f(x_0)(x-x_0)$
- 令梯度等于0，即牛顿法原理的核心：梯度为0，求得驻点，驻点处可能取得极值
  $\nabla{f(x_0)}+\nabla^2f(x_0)(x-x_0)=0$
- 变式可得：
  $x=x_0-(\nabla^2f(x_0))^{-1}\nabla{f(x_0)}$
- 由于推导过程中忽略了二阶及二阶以上的无穷小，故而需要反复的迭代来求解。
案例展示：求取 $f(x,y)=x^2+y^2+x$ 的极值
- 将 $f(x,y)=x^2+y^2+x$ 在 $(x, y)$ 处展开成二阶泰勒
  $f(x+\Delta{x},y+\Delta{y})=f(x,y)+\left[ \begin{matrix} \Delta{x} & \Delta{y} \end{matrix} \right] \left[ \begin{matrix} f'_x\\\\f'_y \end{matrix} \right]+\frac{1}{2}\left[ \begin{matrix} \Delta{x} & \Delta{y} \end{matrix} \right] \left[ \begin{matrix} f''_{xx} & f''_{xy}\\\\f''_{yx} & f''_{yy} \end{matrix} \right]\left[ \begin{matrix} \Delta{x}\\\\\Delta{y} \end{matrix} \right]+o^n$
- 由梯度向量为 $\left[ \begin{matrix} 2x+1 \\ 2y \end{matrix} \right]$ ，Heissan矩阵为 $\left[ \begin{matrix} 2 &0 \\ 0 & 2 \end{matrix} \right]$ ，带入上式可得：
  $f(x+\Delta{x},y+\Delta{y})=f(x,y)+(2x+1)*\Delta{x}+2y*\Delta{y}+o^2$
- 舍去二阶及二阶以上的无穷小，可得式子
  $f(x+\Delta{x},y+\Delta{y})=f(x,y)+(2x+1)*\Delta{x}+2y*\Delta{y}$
- 对 $f(x+\Delta{x},y+\Delta{y})$ 求偏度(即分别对 $x$ 和 $y$ 求偏导数)，可得：
  $\frac{\partial f(x+\Delta{x},y+\Delta{y})}{\partial x}=\frac{\partial f(x,y)}{\partial x}+2*\Delta{x}=0$
  $\frac{\partial f(x+\Delta{x},y+\Delta{y})}{\partial y}=\frac{\partial f(x,y)}{\partial y}+2*\Delta{y}=0$
- 经整理可得：
  $\left \{ \begin{array}{c} 2x+1+2\Delta{x}=0 \\ 2y+2\Delta{y}=0 \end{array} \right.$
- 又由 $x=x_{k}$ ， $y=y_{k}$ 以及 $\Delta{x}=x_{k+1}-x_{k}$ ， $\Delta{y}=y_{k+1}-y_{k}$ ，带入可得：
  $\left \{ \begin{array}{c} 2x_{k}+1+2(x_{k+1}-x_{k})=0 \\ 2y_{k}+2(y_{k+1}-y_{k})=0 \end{array} \right.$
- 移项，解出 $x_{k+1},y_{k+1})$
  $\left[ \begin{matrix} x_{k+1} \\ y_{k+1} \end{matrix} \right]=\left[ \begin{matrix} x_{k} \\ y_{k} \end{matrix} \right]-\left[ \begin{matrix} \frac{2x_k+1}{2} \\\\ \frac{2y_k}{2} \end{matrix} \right]=\left[ \begin{matrix} -0.5\\\\0 \end{matrix} \right]$

牛顿法与梯度下降法的差异

推导起点都是 $f(\vec{x})$ 的泰勒展开式，且二阶及更高阶无穷小的影响都用步长 $\gamma$ 接近于0来保证( $x+\Delta{x}$ 在 $x$ 的邻域内)；
梯度下降法后续的处理为：
$f(x+\Delta{x})-f(x)=\nabla{f(x)}*\Delta{x}\leq0$ 恒成立，所以要求 $\Delta{x}=-\gamma\nabla{f(x)}$
牛顿法后续的处理为：
$f(x+\Delta{x})=f(x)+\nabla{f(x)}*\Delta{x} \\ \nabla{f(x+\Delta{x})}=\nabla{f(x)}+\nabla^2{f(x)}*\Delta{x}=0$
然后两边求梯度并让梯度等于0，再经整理可得 $\Delta{x}=-\frac{\nabla{f(x)}}{\nabla^2{f(x)}}$
牛顿法要求Hessian矩阵要可逆
牛顿法比梯度下降法更容易收敛

拟牛顿法

使用场景： 如果Hessian矩阵不可逆，牛顿法难以使用
解决方案： 构造一个近似Hessian矩阵或其逆矩阵的正定对称矩阵，用来代替Hessian矩阵
构造方法： BFGS算法

拟牛顿法——BFGS算法

清焙

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
8
评论
牛顿法、拟牛顿法

思维导图牛顿法求解最优化问题原理牛顿法与梯度下降法的差异拟牛顿法牛顿法求解最优化问题原理原理阐述：f(x)f(x)f(x)的取得最小值(极小值)的必要条件是∇f(x)=0\nabla{f(x)}=0∇f(x)=0，所以牛顿法就是来逼近x∗x^*x∗，使∇f(x∗)=0\nabla{f(x^*)}=0∇f(x∗)=0。 过程推导：f(x⃗)f(\vec{x})f(x)在x0⃗\vec{x_0}x0处的二阶泰勒展开式为f(x)=f(x0)+∇f(x0)T(x−x0
复制链接

扫一扫

专栏目录