最优化方法Python计算：秩1拟牛顿法

戌崂石

已于 2024-05-11 19:33:14 修改

阅读量1.0k

点赞数 1

分类专栏：最优化方法文章标签： python 机器学习最优化方法

于 2023-08-20 18:18:11 首次发布

本文链接：https://blog.csdn.net/u012958850/article/details/132393103

版权

最优化方法专栏收录该内容

44 篇文章

订阅专栏

对二次型函数 $f(\boldsymbol{x})=\frac{1}{2}\boldsymbol{x}^\top\boldsymbol{Hx}-\boldsymbol{x}^\top\boldsymbol{b}$ ，其中 $\boldsymbol{H}$ 对称正定。 $f(\boldsymbol{x})$ 的梯度 $\boldsymbol{g}(\boldsymbol{x})=\nabla f(\boldsymbol{x})=\boldsymbol{Hx}-\boldsymbol{b}$ ，Hesse阵 $\nabla^2f(\boldsymbol{x})=\boldsymbol{H}$ 。取定初始点 $\boldsymbol{x}_1$ ，牛顿法的迭代式为 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\boldsymbol{H}^{-1}\boldsymbol{g}_k$ ，其中 $\boldsymbol{g}_k=\boldsymbol{g}(\boldsymbol{x}_k)$ 。由 $\boldsymbol{g}_k=\boldsymbol{Hx}_k-\boldsymbol{b}$ ，有
$\boldsymbol{g}_{k+1}-\boldsymbol{g}_k=\boldsymbol{Hx}_{k+1}-\boldsymbol{Hx}_k=\boldsymbol{H}(\boldsymbol{x}_{k+1}-\boldsymbol{x}_k)$
或
$\boldsymbol{H}^{-1}(\boldsymbol{g}_{k+1}-\boldsymbol{g}_k)=\boldsymbol{x}_{k+1}-\boldsymbol{x}_k.$
若记
$\begin{cases} \Delta\boldsymbol{x}_k=\boldsymbol{x}_{k+1}-\boldsymbol{x}_k\\ \Delta\boldsymbol{g}_k=\boldsymbol{g}_{k+1}-\boldsymbol{g}_k \end{cases}$
则称
$\Delta\boldsymbol{g}_k=\boldsymbol{H}\Delta\boldsymbol{x}$
或
$\boldsymbol{H}^{-1}\Delta\boldsymbol{g}_k=\Delta\boldsymbol{x}_k$
为牛顿方程。
牛顿法能正确工作的一个重要前提是初始点 $\boldsymbol{x}_1$ 需与最优解点 $\boldsymbol{x}_0$ 充分接近。因为这时迭代式 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\boldsymbol{H}_k^{-1}\boldsymbol{g}_k$ 可能使得 $f(\boldsymbol{x}_{k+1})$ 未必小于 $f(\boldsymbol{x}_k)$ ， $k=1,2,\cdots$ 。这可以通过选取合理的步长 $\alpha_k$ 加以改善，即把迭代式改为
$\boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\alpha_k\boldsymbol{H}_k^{-1}\boldsymbol{g}_k$
其中 $\boldsymbol{g}_k=\nabla f(\boldsymbol{x}_k)$ ， $\boldsymbol{H}_k=\nabla^2f(\boldsymbol{x}_k)$ 。选取合适的 $\alpha_k$ ，譬如， $\alpha_k$ 为 $\phi_k(\alpha)=f(\boldsymbol{x}_k-\alpha\boldsymbol{H}_k^{-1}\boldsymbol{g}_k)$ 的最小值点，使得 $f(\boldsymbol{x}_{k+1})<f(\boldsymbol{x}_k)$ ， $k=1,2,\cdots$ 。另一方面，有如下事实
定理1 设函数 $f(\boldsymbol{x}),\boldsymbol{x}\in\text{ℝ}^n$ 一阶连续可微， $\boldsymbol{Q}\in\text{ℝ}^{n\times n}$ ， $\boldsymbol{Q}^\top=\boldsymbol{Q}$ 且正定。对 $\boldsymbol{x}_k\in\text{ℝ}^n$ ，若 $\boldsymbol{g}_k=\nabla f(\boldsymbol{x}_k)\not=\boldsymbol{o}$ ，记 $\alpha_k=\arg\min\limits_{\alpha>0}f(\boldsymbol{x}_k-\alpha\boldsymbol{Q}\boldsymbol{g}_k)$ ， $\boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\alpha_k\boldsymbol{Q}\boldsymbol{g}_k$ 。则
$f(\boldsymbol{x}_{k+1})<f(\boldsymbol{x}_k).$
对于非二次型函数 $f(\boldsymbol{x})$ 而言，其Hesse矩阵 $\boldsymbol{H}=\nabla^2f(\boldsymbol{x})$ ，将依赖于 $\boldsymbol{x}$ 。当 $n$ 很大时，在牛顿算法的迭代计算中更新 $\boldsymbol{H}_k=\nabla^2f(\boldsymbol{x}_k)$ 会消耗大量资源。我们的目标是对迭代点 $\boldsymbol{x}_k$ 寻求 $\boldsymbol{H}_k$ 的一个近似对称正定矩阵 $\boldsymbol{Q}_k$ ，使得在迭代中更新 $\boldsymbol{Q}_{k}$ 比更新 $\boldsymbol{H}_{k}$ 更高效，且矩阵 $\boldsymbol{Q}_{k}$ 应满足牛顿方程 $\boldsymbol{Q}_{k}^{-1}\Delta\boldsymbol{g}_{k-1}\approx\Delta\boldsymbol{x}_{k-1}$ 或 $\boldsymbol{g}_{k-1}\approx\boldsymbol{Q}_{k}\Delta\boldsymbol{x}_{k-1}$ 。其中， $\Delta\boldsymbol{x}_{k-1}=\boldsymbol{x}_{k}-\boldsymbol{x}_{k-1}$ ， $\Delta\boldsymbol{g}_{k-1}=\boldsymbol{g}_{k}-\boldsymbol{g}_{k-1}$ 。这样改造牛顿法所得算法称为拟牛顿法。
实现拟牛顿法最简单的是秩1法。
定理2 设目标函数 $f(\boldsymbol{x})$ ， $\boldsymbol{x}\in\in\text{ℝ}^n$ 有最小值点 $\boldsymbol{x}_0$ 且一阶连续可微。 $k = 1$ 时，令对称正定阵 $\boldsymbol{Q}_1=\boldsymbol{I}$ 。对 $k > 1$ ，令 $\boldsymbol{Q}^{-1}_{k}=\boldsymbol{Q}^{-1}_{k-1}+\boldsymbol{E}_{k-1}$ ，其中，
$\boldsymbol{E}_{k-1}=\frac{(\Delta\boldsymbol{x}_{k-1}-\boldsymbol{Q}^{-1}_{k-1}\Delta\boldsymbol{g}_{k-1})(\Delta\boldsymbol{x}_{k-1}-\boldsymbol{Q}^{-1}_{k-1}\Delta\boldsymbol{g}_{k-1})^\top}{(\Delta\boldsymbol{x}_{k-1}-\boldsymbol{Q}^{-1}_{k-1}\Delta\boldsymbol{g}_{k-1})^\top\Delta\boldsymbol{g}_{k-1}}$
则迭代式
$\boldsymbol{Q}^{-1}_k=\boldsymbol{Q}^{-1}_{k-1}+\boldsymbol{E}_{k-1}$
满足牛顿方程 $\boldsymbol{Q}_{k}^{-1}\Delta\boldsymbol{g}_{k-1}\approx\Delta\boldsymbol{x}_{k-1}$ 。
利用定理1和定理2。得到秩1法搜索点序列的迭代式
$\boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\alpha_k\boldsymbol{Q}_k^{-1}\boldsymbol{g}_k$
其中， $\alpha_k=\arg\min\limits_{\alpha>0}f(\boldsymbol{x}_k-\alpha\boldsymbol{Q}\boldsymbol{g}_k)$ 。下列Python函数实现秩1算法。

import numpy as np
from scipy.optimize import minimize_scalar,OptimizeResult
def rank1(f, x1, gtol, **options):
    n=x1.size
    xk=x1
    gk=grad(f,xk)
    Qk=np.eye(n)
    dk=-np.matmul(Qk,gk)
    phi=lambda a: f(xk+a*dk)
    k=1
    while np.linalg.norm(gk)>gtol:
        ak=minimize_scalar(phi).x
        dx=ak*dk
        xk=xk+dx
        dg=grad(f,xk)-gk
        vk=dx-np.matmul(Qk,dg)
        Ek=np.matmul(vk.reshape(n,1),vk.reshape(1,n))/np.dot(vk,dg)
        Qk+=Ek
        gk+=dg
        dk=-np.matmul(Qk,gk)
        k+=1
    bestx=xk
    besty=f(bestx)
    return OptimizeResult(fun=besty, x=bestx, nit=k)

程序中第3~24行定义的rank1函数实现对称秩1算法。参数f表示目标函数 $f(\boldsymbol{x})$ ，x1表示初始点 $\boldsymbol{x}_1$ ，eps表示容错误差 $\varepsilon$ ，options实现minimize与本函数的信息交换机制。
第4~10行执行初始化操作：第4行读取自变量维数n。第5行将表示迭代点的xk初始化为x1。第6行调用计算梯度的函数grad（见博文《最优化方法Python计算：n元函数梯度与Hesse阵的数值计算》）计算目标函数的梯度
$\boldsymbol{g}_k=\nabla f(\boldsymbol{x}_k)$
赋予变量gk。第7行调用numpy的eye函数将正定阵 $\boldsymbol{Q}_k^{-1}$ 初始化为单位阵 $\boldsymbol{I}_n$ 赋予Qk。第8行调用numpy的matmul函数计算
$\boldsymbol{d}_k=-\boldsymbol{Q}_k^{-1}\boldsymbol{g}_k$
赋予表示搜索刚想的变量dk。第9行用{\bf{lambda}}运算符定义一元函数
$\phi(\alpha)=f(\boldsymbol{x}_k+\alpha\boldsymbol{d}_k)$
为phi。
第11~21行执行迭代的while循环中，第12行调用scipy.optimize的minimize_scalar函数（第2行导入），计算
$\alpha_k=\arg\min\limits_{\alpha>0}\phi(\alpha)$
赋予ak。第13行计算
$\Delta\boldsymbol{x}=\boldsymbol{x}_{k+1}-\boldsymbol{x}_k=\boldsymbol{x}_k+\alpha_k\boldsymbol{d}_k-\boldsymbol{x}_k=\alpha_k\boldsymbol{d}_k$
赋予dx。第14行计算
$\boldsymbol{x}_{k+1}=\boldsymbol{x}_k+\alpha\boldsymbol{d}_k=\boldsymbol{x}_k+\Delta\boldsymbol{x}_k$
更新迭代点xk。第15行计算
$\Delta\boldsymbol{g}_k=\boldsymbol{g}_{k+1}-\boldsymbol{g}_k$
dg。第16行调用numpy的matmul函数计算向量
$\boldsymbol{v}_k=\Delta\boldsymbol{x}_k-\boldsymbol{Q}_k\Delta\boldsymbol{g}_k$
赋予vk。第17行计算矩阵
$\boldsymbol{E}_k=\frac{\boldsymbol{v}_k^\top\boldsymbol{v}_k}{\boldsymbol{v}_k\Delta\boldsymbol{g}^\top}$
赋予Ek。第18行计算
$\boldsymbol{Q}_{k+1}^{-1}=\boldsymbol{Q}_{k}^{-1}+\boldsymbol{E}_k$
更新Qk。第19行计算
$\boldsymbol{g}_{k+1}=\Delta\boldsymbol{g}_k-\boldsymbol{g}_k$
更新gk。第20行计算
$\boldsymbol{Q}_{k+1}^{-1}\boldsymbol{g}_{k+1}$
更新dk。\par
第22~24用 $f(\boldsymbol{x}_k)$ ， $\boldsymbol{x}_k$ 以及 $k$ 构造OptimizeResult（第2行导入）对象并返回。以下例子说明函数rank1的应用。
例1 设初始点 $\boldsymbol{x}_1=\begin{pmatrix}100\\100\end{pmatrix}$ ，用rank1函数计算Rosenbrock函数的最优解，给定容错误差 $\varepsilon=10^{-8}$ 。
解：下列代码完成本例计算。

import numpy as np                                      #导入numpy
from scipy.optimize import rosen, minimize              #导入rosen, minimize
x=np.array([100,100])                                   #设置初始点
res=minimize(rosen,x,method=rank1,options={'gtol':1e-8})#计算最优解
print(res)

第3行设置初始点 $\boldsymbol{x}_1=\begin{pmatrix}100\\100\end{pmatrix}$ 。第4行调用scipy.optimize的minimize函数（第2行导入），传递rank1给参数method，计算rosen（第2行导入）表示的Rosenbrock函数的最优解。运行程序，输出

 fun: 4.889083789243004e-26
 nit: 49
   x: array([1., 1.])

即以 $\boldsymbol{x}_1=\begin{pmatrix}100\\100\end{pmatrix}$ 为初始点， $\varepsilon=10^{-8}$ 为容错误差，实现对称秩1算法的rank1函数迭代49次，算得Rosenbrock函数的最优解 $\boldsymbol{x}_0=\begin{pmatrix}1\\1\end{pmatrix}$ 。需提请注意的是，对牛顿法而言，以 $\boldsymbol{x}_1=\begin{pmatrix}100\\100\end{pmatrix}$ 为初始点是得不到最优解 $\boldsymbol{x}_0$ 的，读者可自行验证。
写博不易，敬请支持：
如果阅读本文于您有所获，敬请点赞、评论、收藏，谢谢大家的支持！