优化算法之牛顿法

最新推荐文章于 2024-03-31 11:54:18 发布

信号傅老师

最新推荐文章于 2024-03-31 11:54:18 发布

阅读量183

点赞数 1

分类专栏：机器学习最优化基础文章标签：优化算法

本文链接：https://blog.csdn.net/qq_36867398/article/details/95212019

版权

机器学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

最优化基础

1 篇文章 0 订阅

订阅专栏

牛顿法

和梯度下降法一样，都是解无约束优化问题，也是迭代算法，有收敛速度快的优点。每一步迭代都要求解目标函数的海塞矩阵，计算比较复杂，拟牛顿法通过正定矩阵来近似海塞矩阵的逆矩阵或海塞矩阵，简化了计算。

二阶泰勒展开

假设 $f (x)$ 具有二阶连续偏导数，若第k次迭代值为 $x^{(k)}$ ,则可将 $f (x)$ 在 $x^{(k)}$ 点进行二阶泰勒展开。
$f(x)=f(x^{(k)})+g_{k}^{T}(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^{T}H(x^{(k)})(x-x^{(k)})\tag{1}$ 这里， $g_{k}=g(x^{(k)})=\nabla f(x^{(k)})$ ,即 $f (x)$ 在 $x^{(k)}$ 的梯度, $H(x^{(k)})$ 是 $f (x)$ 的海塞矩阵（Hesse matrix）
$H(x)=[\frac{\partial ^{2}f}{\partial x_{i}\partial x_{j}}]_{n\times n}$ 在点 $x^{(k)}$ 点的值。

牛顿法的迭代公式

函数 $f (x)$ 有极值的必要条件是在极值点处的一阶导数为0，即梯度向量为0。
特别当 $H (x)$ 是正定矩阵时， $f (x)$ 为严凸函数，函数 $f (x)$ 的极值为全局极小值。
假设第k+1次迭代值 $x^{(k+1)}$ 为目标函数的极小值点，则
$\nabla f(x^{(k+1)})=0\tag{2}$ 对公式（1）进行对x求一次梯度得到
$\nabla f(x)=g_{k}+H_{k}(x-x^{(k )})\tag{3}$ 其中 $H_{k}=H(x^{(k)})$ ,这样（2）式变为
$g_{k}+H_{k}(x^{(k+1)}-x^{(k )})=0$ 因此，
$x^{(k+1)}=x^{(k )}-H_{k}^{-1}g_{k}$ 或者
$x^{(k+1)}=x^{(k )}+p_{k}$ 其中， $H_{k}^{-1}g_{k}=p_{k}$ ，即 $H_{k}p_{k}=-g_{k}$
这就是牛顿法的迭代公式。

算法步骤

input：目标函数 $f (x)$ ,梯度函数 $g(x)=\nabla f(x)$ ,海塞矩阵 $H (x)$ ,精度要求 $\varepsilon$ ;
output： $f (x)$ 的极小点 $x^*$
(1)取初始点 $x^{(0)}$ ,置k=0
(2)计算 $g_{k}=g(x^{(k)})$
(3)若 $\|g_k\|<\varepsilon$ ,则停止计算，得近似解 $x^*=x^{(k)}$
(4)计算 $H_{k}=H(x^{(k)})$ ,并求 $p_{k}$
$H_{k}p_{k}=-g_{k}$ (5)置 $x^{(k+1)}=x^{(k )}+p_{k}$
(6)置 $k = k + 1$ ,转（2）