【最优化】牛顿法、高斯-牛顿法

Patrick star`

已于 2024-05-01 17:13:35 修改

阅读量1.4k

点赞数 27

文章标签：线性代数算法

于 2024-04-26 17:50:04 首次发布

本文链接：https://blog.csdn.net/holle_world_ldx/article/details/138225785

版权

一、牛顿法

1、牛顿法在一维搜索中的应用

在这里插入图片描述
在一维搜索中我们所要解决的问题是如何找函数f(x)的最小值。
牛顿法的核心思想是用二次函数拟合函数f(x)的某一邻域区间，用二次函数的极小值点作为下一次的迭代点。通过多次迭代使得二次函数的极小值逼近函数f(x)的极小值
$\begin{aligned} &g(x) = f(x^{(k)})+f'(x^{(k)})(x-x^{(k)})+\frac{1}{2}f''(x^{(k)})(x-x^{(k)})^2 \\ &g(x)\approx f(x),求f(x)最小值 \approx 求g(x)最小值 \\ &g'(x)=f'(x^{(k)})+f''(x^{(k)})(x-x^{(k)})\\ &令g'(x)=0,x = x^{(k)}-\frac{f'(x^{(k)})}{f''(x^{(k)})}\\ &只有在f''(x)>0时成立，f'(x)=0只能保证该点为极值点，f''(x)>0保证该点为极小值点 \end{aligned}$

2、牛顿法在多维函数中的应用

多维的情况与一维类似，如果是二维函数，拟合的是一个二次曲面，用二次曲面的最低点作为下一次的迭代点。
$\begin{aligned} &g(X) = f(X^{(k)})+(X-X^{(k)})\nabla f'(X^{(k)})+\frac{1}{2}(X-X^{(k)})^T \nabla ^2f(X^{(k)})(X-X^{(k)}) \\ &g(X)\approx f(X),求f(X)最小值 \approx 求g(X)最小值 \\ &令\nabla g(X)=\nabla f(X^{(k)})+\nabla f(X^{(k)})(X-X^{(k)}) = 0\\ &如果\nabla^2f(X)>0(正定矩阵),X = X^{(k)}-[\nabla f(x^{(k)})]^{-1}\nabla f(x^{(k)})\\ \end{aligned}$

3、Levenberg-Marquardt修正

上述方法只有在 $Hess$ 矩阵正定是成立，如果 $Hess$ 矩阵不是正定的要怎么办？
$Hsee$ 矩阵是实对称矩阵( $\frac{\partial f^2(X)}{\partial x_j \partial x_i} = \frac{\partial f^2(X)}{\partial x_i \partial x_j}$ )，而实对称矩阵一定可以三角化
$\begin{aligned} \end{aligned}\begin{aligned} &\nabla^2f(X^{(k)})=U^T\Lambda U= \begin{bmatrix} \lambda_1 & 0 & \cdots & 0\\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0&\cdots&\lambda_n \end{bmatrix} ,U^TU=I \\ &如果\nabla^2f(X^{(k)})非正定，说明\lambda_1 \sim \lambda_n中有若干个特征值小于0 \end{aligned}$
用最小的特征值 $\lambda {min}(\lambda {min}<0)$ 对 $Hess$ 矩阵进行修正
$\begin{aligned} \end{aligned}\begin{aligned} &\nabla^2f(X^{(k)})=U^T\Lambda U + (\varepsilon - \lambda_{min})I\\ &=U^T \begin{bmatrix} \lambda_1 & 0 & \cdots & 0\\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0&\cdots&\lambda_n \end{bmatrix}U+ \begin{bmatrix} \varepsilon -\lambda_{min} & 0 & \cdots & 0\\ 0 & \varepsilon -\lambda_{min} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0&\cdots& \varepsilon - \lambda_{min} \end{bmatrix} U^TU \\ & = U^T \begin{bmatrix} \lambda_1 + \varepsilon -\lambda_{min}& 0 & \cdots & 0\\ 0 & \lambda_2 + \varepsilon -\lambda_{min} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0&\cdots&\lambda_n+\varepsilon -\lambda_{min} \end{bmatrix}U \\ &=U^T[\Lambda+(\varepsilon-\lambda_{min})I]U \end{aligned}$
为了不和原始的 $Hess$ 矩阵偏差太大， $\varepsilon$ 越小越好

Levenberg-Marquardt修正后，即保证了特征值都是正数，也保留原 $Hess$ 矩阵尽可能多的信息

在工程中，为了减少算法计算的复杂度，不会计算特征值特征向量，而是根据经验值手动设置一个 $\mu_k$ ,同时还会引入一个步长因子 $\alpha$
$X=X^{(k)}-\alpha^{(k)}[\nabla^2f(X^{(k)})+\mu_kI]^{-1}\nabla f(X^{(k)})$
通过手动调节 $\mu_k$ 的值，使得 $[\nabla^2f(X^{(k)})+\mu_kI] >0$

( $\mu_k \rightarrow 0$ :趋近原牛顿法； $\mu_k \rightarrow \infty$ :趋近步长很小的梯度下降法)

二、高斯-牛顿法

1、应用范围

高斯-牛顿法用于解决什么问题？

有一个函数 $y=\color{red}A\color{black} sin(\color{red}\alpha\color{black} t+\color{red}\beta\color{black})$ ,其中 $\color{red} A、\alpha、\beta$ 未知，已知一些输入输出数据 $[t_1,y_1],[t_2,y_2],\cdots,[t_n,y_n]$

高斯-牛顿法想要解决的问题是如何根据已知数据，估计未知参数

这是一个非线性最小二乘问题， $\min_{\hat{A},\hat{\alpha},\hat{\beta}} \sum_{i=1}^{n}(\hat{A}sin(\hat{\alpha} t_i+\hat {\beta})-y_i)^2$

2、高斯-牛顿法原理

考虑更加一般的情况：
$\begin{aligned} &\min \sum_{i=1}^{m}(r_i(X))^2 \\ &令r=[r_1,r_2,\cdots,r_m]^T,则目标函数为f(X)=r(X)^Tr(X),为了使用牛顿法求解，需要计算梯度和Hess矩阵\\ &梯度\nabla f(X)的第j个元素为:(\nabla f(X))_j = \frac{\partial f}{\partial x_j}(X) = 2\sum_{i=1}^{m}r_i(X)\frac{\partial r_i}{\partial x_i}(X)\\ &r的Jacobi矩阵为：J(X)= \begin{bmatrix} \frac{\partial r_1}{\partial x_1}(X) & \frac{\partial r_1}{\partial x_2}(X) & \cdots &\frac{\partial r_1}{\partial x_n}(X) \\ \frac{\partial r_2}{\partial x_1}(X) & \frac{\partial r_2}{\partial x_2}(X) & \cdots &\frac{\partial r_2}{\partial x_n}(X) \\ \vdots &\vdots &\ddots &\vdots\\ \frac{\partial r_m}{\partial x_1}(X) & \frac{\partial r_m}{\partial x_2}(X) & \cdots &\frac{\partial r_m}{\partial x_n}(X) \\ \end{bmatrix}\\ &因此，函数f的梯度可表示为：\nabla f(X) = 2J(X)^Tr(X) \\ \\ &函数f的Hess矩阵的第(k,j)个元素为：\\ & \frac{\partial^2f}{\partial x_k \partial x_j}(X) =\frac{\partial}{\partial x_k}\left ( \frac{\partial f}{\partial x_j}(X) \right ) = \frac{\partial}{\partial x_k}\left ( 2\sum_{i=1}^{m}r_i(X)\frac{\partial r_i}{\partial x_i}(X)\right ) = 2\sum_{i=1}^{m}\left( \frac{\partial r_i}{\partial x_k}(X)\frac{\partial r_i}{\partial x_j}(X) +\color{blue} r_i(X)\frac{\partial^2r_i}{\partial x_k \partial x_j}(X) \color{black} \right) \\ &令\color{blue}S(X)\color{black}表示一个矩阵其中(k,j)的元素为\color{blue}\sum_{i=1}^{m} r_i(X)\frac{\partial^2r_i}{\partial x_k \partial x_j}(X) \color{black} \\ &f(x)的Hess矩阵可以表示为：\nabla^2f=2\left(J(X)^TJ(X)+\color{blue} S(X)\color{black} \right)\\ &迭代公式为：X = X^{(k)}-[\nabla^2f]^{-1}\nabla f \Longrightarrow X = X^{(k)}-\left(J(X)^TJ(X)+\color{blue} S(X)\color{black} \right)^{-1}J(X)^Tr(X)\\ &由于S(X)包含函数r的二阶导，数值较小可以忽略，所以迭代公式可变为：\\ &X = X^{(k)}-\left(J(X)^TJ(X)\right)^{-1}J(X)^Tr(X)\\ \end{aligned}$