牛顿下降法--最优化方法-CSDN博客

本文链接：https://blog.csdn.net/m0_74981381/article/details/148068307

牛顿下降法--最优化方法

一、分类

根据步长step size t是否设置为1分为pure（t=1）和damped（t不一定等于1）两种。
本文还介绍inexact的方法。

1）最优化问题目标函数：

$\min f(x)$

2） $f(x_k+p_k)$ 估计值（Taylor 公式，quadratic approximation）：

$f(x_k+p_k) \approx f(x_k)+ \nabla f(x_k)^Tp_k+\frac{1}{2} p_k^T \nabla ^2f(x_k)p_k$

3）对该Taylor估计值的 $p_k$ （ $p_k$ 使得该Taylor估计值取最小）进行求导：

$\nabla f(x) + \nabla ^2 f(x_k)p_k=0, \nabla ^2f(x_k) \succ0 \Rightarrow p_k=-\nabla ^2f(x_k)^{-1}\nabla f(x_k)$

二、pure Newton method（纯牛顿算法）

1）设定 $x_{k+1}=x_k+t_kp_k$ ：

其中 $t_k=1,p_k=-\nabla ^2f(x_k)^{-1}\nabla f(x_k)$ ，所以 $x_{k+1}=x_k-\nabla ^2f(x_k)^{-1}\nabla f(x_k)$

2）算法：

$\begin{align*} &\text{setting initial value}x_0\\ &while\quad |f(x_{k})-f(x_{k+1})| < epsilon \\ &\quad \quad or \quad |x_{k}-x_{k+1}| < epsilon \\ &\quad \quad or \quad iteration\_times >= max\_iteration\_times \quad do \\ &\quad \quad \text{compute }\nabla ^2f(x_k)\\ &\quad \quad \text{compute } \nabla f(x_k)\\ &\quad \quad x_{k+1}=x_k-\nabla ^2f(x_k)^{-1}\nabla f(x_k) \\ & end\quad while\\ \end{align*}$

3）优劣分析：

纯牛顿法的优点是收敛速度快，但缺点是对初始点的选择比较敏感，且要求函数 f(x) 在根附近可导且导数不为零。

三、damped Newton method（阻尼牛顿算法）

1）设定 $x_{k+1}=x_k+t_kp_k$ ：

其中 $t_k\not =1,p_k=-\nabla ^2f(x_k)^{-1}\nabla f(x_k)$ ，所以 $x_{k+1}=x_k-t_k \nabla ^2f(x_k)^{-1}\nabla f(x_k)$

2）Newton decrement（停止迭代）：

Newton decrement是牛顿法中用于衡量当前迭代点与最优解之间差距的一个重要指标，常用于优化问题的收敛性分析和停止条件判断。
Newton decrement推倒：
$\begin{align*} \text{quadratic approximation: } f(x_{k}+p_k)&=f(x_k)+\nabla f(x)^Tp_k+\frac{1}{2} p_k^T\nabla ^2f(x)^{-1}p_k\\ \min f(x_{k}+p_k) \Rightarrow p_k&=- \nabla ^2f(x_k)^{-1} \nabla f(x_k)\\ \Rightarrow \min f(x_{k}+p_k)&= \min f(x_k)+\nabla f(x)^Tp_k+\frac{1}{2} p_k^T\nabla ^2f(x)p_k\\ &=f(x_k)- \nabla f(x_k)^T\nabla ^2f(x_k)^{-1} \nabla f(x_k)+\frac{1}{2} \nabla f(x_k)^T\nabla ^2f(x_k)^{-T}\nabla ^2f(x) \nabla ^2f(x_k)^{-1} \nabla f(x_k)\\ & = f(x_k)- \frac{1}{2} \nabla f(x_k)^T\nabla ^2f(x_k)^{-1} \nabla f(x_k)\\ \Rightarrow \min f(x_{k}+p_k) -f(x_k)&=- \frac{1}{2} \nabla f(x_k)^T\nabla ^2f(x_k)^{-1} \nabla f(x_k)=\frac{1}{2} \lambda(x_k)^2\\ \Rightarrow \lambda(x_k) &= (-\nabla f(x_k)^T\nabla ^2f(x_k)^{-1} \nabla f(x_k))^{1/2}=(-d(x_k)^T\nabla ^2f(x_k)d(x_k))^{1/2}=(-\nabla f(x_k)^Td(x_k))^{1/2}\\ d(x_k) &= \nabla ^2f(x_k)^{-1} \nabla f(x_k) \end{align*}$
所以Newton decrement $\lambda(x_k) =(-\nabla f(x_k)^T\nabla ^2f(x_k)^{-1} \nabla f(x_k))^{1/2}$ 可以作为停止搜寻的条件。

3）Armijio rule backing line search（寻找 $t_k$ ）:

$\alpha \in (0,1/2), f(x_k+t_kp_k) \leq f(x_k)+\alpha t_k \nabla f(x_k)^Tp_k \Rightarrow f(x_k)-f(x_k+t_kp_k) \ge -\alpha t_k \nabla f(x_k)^Tp_k$

4）算法：

$\begin{align*} &\text{setting initial value } x_0, \alpha \in (0,1/2),\beta \in (0,1) \\ &while\quad \frac{1}{2}\lambda(x_k) ^2=-\frac{1}{2}\nabla f(x_k)^T\nabla ^2f(x_k)^{-1} \nabla f(x_k) \leq \epsilon \quad do \\ &\quad \quad p_k=-f(x_k)^{-1} \nabla f(x_k) \\ &\quad \quad t_k=1\\ &\quad \quad while \quad f(x_k)-f(x_k+t_kp_k) < -\alpha t_k \nabla f(x_k)^Tp_k \quad do\\ &\quad \quad \quad \quad t_k=\beta t_k\\ &\quad \quad end \quad while\\ &\quad \quad x_{k+1}=x_k+t_kp_k \\ &end \quad while\\ \end{align*}$

5）使用分析：damped Newton method需要计算目标函数的梯度和海森矩阵，这在高维问题中可能计算成本较高。在适当的条件下，阻尼牛顿算法可以保证快速收敛。

6）收敛性分析：

(1）对 $\nabla f(x),\nabla ^2f(x),x \in \mathbb{R^n}$ 的设定（假设、限制）：
$\begin{align*} &f(x) \text{ 二次可微且连续 }\\ &\text{一次导Lipschitz连续性: }\nabla ^2f(x) \preceq MI \Leftrightarrow \|\nabla f(y)-\nabla f(x)\| \leq M\|y-x\|\\ &\text{二次导Lipschitz连续性: }\|\nabla ^2f(y)-\nabla ^2f(x)\| \leq L\|y-x\|\\ &\text{strongly convex: } \nabla ^2f(x) \succ mI \Leftrightarrow \|\nabla ^2f(x) \| \ge m\\ \end{align*}$
（2）基于假设上的达到收敛条件时迭代次数的上限：
达到 $f(x_k)-f(x^*) \leq \epsilon$ 停止迭代条件时的迭代次数上界为 $\frac{M^2L^2/m^5}{\alpha \beta \min (1,9(1-2\alpha)^2)}(f(x_0)-f(x^*))+log_2log_2\frac{2m^3/L^2}{\epsilon}$

（3）基于假设上的 $\|x_{k+1}-x^*\| \leq \frac{L}{2m}\|x_k-x^*\|^2$ ：
证明：
$\begin{align*} -\nabla f(x_k)&=0-\nabla f(x_k)=\nabla f(x^*)-\nabla f(x_k)\\ \nabla f(x^*)-\nabla f(x_k)&=\int ^1_0\nabla ^2f(x_k+t(x^*-x_k))(x^*-x_k)dt\\ x_{k+1}-x^*&=x_k-\nabla ^2f(x_k)^{-1}\nabla f(x_k)-x^*\\ &=x_k-x^*+\nabla ^2f(x_k)^{-1}(\nabla f(x^*)-\nabla f(x_k))\\ &=x_k-x^*+\nabla ^2f(x_k)^{-1}\int ^1_0\nabla ^2f(x_k+t(x^*-x_k))(x^*-x_k)dt\\ &=\nabla ^2f(x_k)^{-1}\int ^1_0[\nabla ^2f(x_k+t(x^*-x_k))-\nabla ^2f(x_k)](x^*-x_k)dt\\ \|x_{k+1}-x^*\| &=\|\nabla ^2f(x_k)^{-1}\int ^1_0[\nabla ^2f(x_k+t(x^*-x_k))-\nabla ^2f(x_k)](x^*-x_k)dt\|\\ & \leq \|\nabla ^2f(x_k)^{-1}\| \|\int ^1_0[\nabla ^2f(x_k+t(x^*-x_k))-\nabla ^2f(x_k)](x^*-x_k)dt\|\\ & \leq \frac{1}{m}\|\int ^1_0[\nabla ^2f(x_k+t(x^*-x_k))-\nabla ^2f(x_k)](x^*-x_k)dt\|\\ & \leq \frac{1}{m}\int ^1_0\|\nabla ^2f(x_k+t(x^*-x_k))-\nabla ^2f(x_k)\| \|(x^*-x_k)\|dt\\ & \leq \frac{1}{m}\int ^1_0 Lt \|x^*-x_k\|^2dt\\ &= \frac{L}{2m}\|x_k-x^*\|^2\\ \end{align*}$
（4）基于假设上的式子 $\frac{m}{2}\|x-x^*\|^2_2 \leq f(x)-f(x^*) \leq \frac{1}{2m}\|\nabla f(x)\|^2_2$ ：
证明：
$\begin{align*} \text{左边不等式：已知}& \|\nabla ^2f(x) \|_2\preceq m,\\ f(x) &=f(x^*)+\nabla f(x^*)(x-x^*)+(x-x^*)^T\nabla ^2f(x^*)(x-x^*)/2\\ &\ge f(x^*)+\frac{\|x^*-x\|_2^2}{2m}\\ \text{右边不等式：已知}&[\frac{\sqrt{m}}{\sqrt{2}}(x^*-x)+\frac{1}{\sqrt{2m}}\nabla f(x)]^2=\frac{m}{2}\|x^*-x\|_2^2+\frac{1}{2m}\|\nabla f(x)\|_2^2+\nabla f(x)^T(x^*-x) \ge 0\\ f(x^*) &=f(x)+\nabla f(x)(x^*-x)+(x^*-x)^T\nabla ^2f(x)(x^*-x)/2\\ & \ge f(x)+\nabla f(x)(x^*-x)+\frac{m}{2}\|x^*-x\|^2_2\\ &\ge f(x)-\frac{1}{2m}\|\nabla f(x)\|_2^2\\ \end{align*}$

四、Inexact Newton method（一个包含多种细分解法的方法）

前面的pure和damped是通过直接解 $\nabla ^2f(x_k)p_k+\nabla f(x_k)=0\Rightarrow p_k=-\nabla ^2f(x_k)^{-1}\nabla f(x_k)$ 得到的，inexact是通过迭代方式去解 $r_k=\nabla ^2f(x_k)p_k+\nabla f(x_k)=0$ 的。