最优化 - 拟牛顿法DFP算法

最新推荐文章于 2024-03-14 11:22:26 发布

KeeJee

最新推荐文章于 2024-03-14 11:22:26 发布

阅读量3.2k

点赞数 2

分类专栏：最优化最优化算法文章标签：优化

最优化同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

最优化算法

4 篇文章 3 订阅

订阅专栏

一、牛顿法

在博文“优化算法——牛顿法(Newton Method)”中介绍了牛顿法的思路，牛顿法具有二阶收敛性，相比较最速下降法，收敛的速度更快。在牛顿法中使用到了函数的二阶导数的信息，对于函数 $f\left ( x \right )$ ，其中 $x$ 表示向量。在牛顿法的求解过程中，首先是将函数 $f\left ( x \right )$ 在 $x=x_{k+1}$ 处展开，展开式为：

$f\left ( x \right )=f\left ( x_{k+1} \right )+g_{k+1}^T\left ( x-x_{k+1} \right )+\frac{1}{2}\left ( x-x_{k+1} \right )^TG_{k+1}\left ( x-x_{k+1} \right )+o\left ( x-x_{k+1} \right )^2$

其中， $g_{k+1}^T=\bigtriangledown f\left ( x_{k+1} \right )$ ，表示的是目标函数在 $x=x_{k+1}$ 的梯度，是一个向量。 $G_{k+1}=\bigtriangledown ^2f\left ( x_{k+1} \right )$ ，表示的是目标函数在 $x=x_{k+1}$ 处的 Hesse 矩阵。省略掉最后面的高阶无穷小项，即为：

$f\left ( x \right )=f\left ( x_{k+1} \right )+g_{k+1}^T\left ( x-x_{k+1} \right )+\frac{1}{2}\left ( x-x_{k+1} \right )^TG_{k+1}\left ( x-x_{k+1} \right )$

上式两边对 $x$ 求导，即为：

$\bigtriangledown f\left ( x \right )=\bigtriangledown f\left ( x_{k+1} \right )+G_{k+1}\left ( x-x_{k+1} \right )$

在基本牛顿法中，取得最值的点处的导数值为 $0$ ，即上式左侧为 $0$ 。则：

$\bigtriangledown f\left ( x_{k+1} \right )+G_{k+1}\left ( x-x_{k+1} \right )=0$

求出其中的 $x$ ：

$x=x_{k+1}-G_{k+1}^{-1}\bigtriangledown f\left ( x_{k+1} \right )$

从上式中发现，在牛顿法中要求 Hesse 矩阵是可逆的。

当 $x=x_k$ 时，上式为：

$\bigtriangledown f\left ( x_k \right )=\bigtriangledown f\left ( x_{k+1} \right )+G_{k+1}\left ( x_k-x_{k+1} \right )$

此时，是否可以通过 $x_{k}$ ， $x_{k+1}$ ， $\bigtriangledown f\left ( x_k \right )$ 和 $\bigtriangledown f\left ( x_{k+1} \right )$ 模拟出 Hesse 矩阵的构造过程？此方法便称为拟牛顿法 (QuasiNewton)，上式称为拟牛顿方程。在拟牛顿法中，主要包括DFP拟牛顿法，BFGS拟牛顿法。

二、DFP拟牛顿法

1、DFP拟牛顿法简介

DFP拟牛顿法也称为DFP校正方法，DFP校正方法是第一个拟牛顿法，是有Davidon最早提出，后经Fletcher和Powell解释和改进，在命名时以三个人名字的首字母命名。

对于拟牛顿方程：

$\bigtriangledown f\left ( x_k \right )=\bigtriangledown f\left ( x_{k+1} \right )+G_{k+1}\left ( x_k-x_{k+1} \right )$

化简可得：

$G_{k+1}^{-1}\left [ \bigtriangledown f\left ( x_{k+1} \right )-\bigtriangledown f\left ( x_k \right ) \right ]=x_{k+1}-x_k$

令 $H_{k+1}\overset{\bigtriangleup }{=}G_{k+1}^{-1}$ ，可以得到：

$H_{k+1}\left [ \bigtriangledown f\left ( x_{k+1} \right )-\bigtriangledown f\left ( x_k \right ) \right ]=x_{k+1}-x_k$

在DFP校正方法中，假设：

$H_{k+1}=H_k+E_k$

2、DFP校正方法的推导

令： $E_k=\alpha u_ku_k^T+\beta v_kv_k^T$ ，其中 $u_k,v_k$ 均为 $n\times 1$ 的向量。 $y_k=\bigtriangledown f\left ( x_{k+1} \right )-\bigtriangledown f\left ( x_k \right )$ ， $s_k=x_{k+1}-x_k$ 。

则对于拟牛顿方程 $H_{k+1}\left [ \bigtriangledown f\left ( x_{k+1} \right )-\bigtriangledown f\left ( x_k \right ) \right ]=x_{k+1}-x_k$ 可以简化为：

$H_{k+1}y_k=s_k$

将 $H_{k+1}=H_k+E_k$ 代入上式：

$\left ( H_k+E_k \right )y_k=s_k$

将 $E_k=\alpha u_ku_k^T+\beta v_kv_k^T$ 代入上式：

$\left ( H_k+\alpha u_ku_k^T+\beta v_kv_k^T \right )y_k=s_k$

$\Rightarrow \alpha \left ( u_k^Ty_k \right )u_k+\beta \left ( v_k^Ty_k \right )v_k=s_k-H_ky_k$

已知： $u_k^Ty_k,v_k^Ty_k$ 为实数， $s_k-H_ky_k$ 为 $n\times 1$ 的向量。上式中，参数 $\alpha$ 和 $\beta$ 解的可能性有很多，我们取特殊的情况，假设 $u_k=rH_ky_k$ ， $v_k=\theta s_k$ 。则：

代入上式：

$\Rightarrow \alpha \left [ \left ( rH_ky_k\right )^Ty_k \right ]\left ( rH_ky_k \right )+\beta \left [ \left ( \theta s_k \right )^Ty_k \right ]\left ( \theta s_k \right )=s_k-H_ky_k$

$\Rightarrow \left [ \alpha r^2\left ( y_k^TH_ky_k\right ) +1\right ]\left ( H_ky_k \right )+\left [ \beta \theta ^2\left ( s_k^Ty_k \right ) -1\right ]\left (s_k \right )=0$

令 $\alpha r^2\left ( y_k^TH_ky_k\right ) +1=0$ ， $\beta \theta ^2\left ( s_k^Ty_k \right ) -1=0$ ，则：

$\alpha r^2=-\frac{1}{y_k^TH_ky_k}$

$\beta \theta ^2=\frac{1}{s_k^Ty_k}$

则最终的 DFP 校正公式为：

$H_{k+1}=H_k-\frac{H_ky_ky_k^TH_k}{y_k^TH_ky_k}+\frac{s_ks_k^T}{s_k^Ty_k}$

3、DFP拟牛顿法的算法流程

设 $H_k$ 对称正定， $H_{k+1}$ 由上述的 DFP 校正公式确定，那么 $H_{k+1}$ 对称正定的充要条件是 $s_k^Ty_k> 0$ 。

在博文“优化算法——牛顿法(Newton Method)”中介绍了非精确的线搜索准则：Armijo搜索准则，搜索准则的目的是为了帮助我们确定学习率，还有其他的一些准则，如Wolfe准则以及精确线搜索等。在利用Armijo搜索准则时并不是都满足上述的充要条件，此时可以对DFP校正公式做些许改变：

$H_{k+1}=\begin{cases} H_k & \text{ if } s_k^Ty_k\leq 0 \\ H_k-\frac{H_ky_ky_k^TH_k}{y_k^TH_ky_k}+\frac{s_ks_k^T}{s_k^Ty_k} & \text{ if } s_k^Ty_k>0 \end{cases}$

DFP 拟牛顿法的算法流程如下：

4、求解具体的优化问题

求解无约束优化问题

$min\; f\left ( x \right )=100\left ( x_1^2-x_2 \right )^2+\left ( x_1-1 \right )^2$

python 程序实现：

# -*- coding: utf-8 -*-
# 基于DFP的拟牛顿法
import numpy as np
from numpy import linalg
import matplotlib.pyplot as plt


def compute_original_fun(x):
    """ 1. 计算原函数的值 
    input:  x, 一个向量
    output: value, 一个值
    """
    value = x[0]**2 + 2*x[1]**2
    return value


def compute_gradient(x):
    """ 2. 计算梯度 
    input:  x, 一个向量
    output: value, 一个向量
    """
    value = np.mat([[0],[0]], np.double)
    value[0] = 2*x[0]
    value[1] = 4*x[1]
    return value


def draw_result(result):
    """ 3. 将收敛过程(即最小值的变化情况)画图 """
    plt.figure("min value")
    plt.plot(range(len(result)), result, "y", label="min value")
    plt.title("min value's change")
    plt.legend()
    return plt


def main(x0, H, epsilon = 1e-6, max_iter = 1000):   
    """
    x0: 初始迭代点
    H: 校正的对角正定矩阵
    eplison: 最小值上限
    max_iter: 最大迭代次数
    result: 最小值
    alpha**m: 步长
    d: 方向
    """
    result = [compute_original_fun(x0)[0,0]]
    for k in range(max_iter):
        # 计算梯度
        g = compute_gradient(x0)
        
        # 终止条件
        if linalg.norm(g) < epsilon:
            break
            
        # 计算搜索方向
        d = -H*g
        
        # 简单线搜索求步长
        alpha = 1/2
        for m in range(max_iter):
            if compute_original_fun(x0 + alpha**m*d) <= (compute_original_fun(x0) + (1/2)*alpha**m*g.T*d):
                break
        x = x0 + alpha**m*d
        
        # DFP校正迭代矩阵
        s = x - x0
        y = compute_gradient(x) - g
        if s.T * y > 0:
            H = H - (H*y*y.T*H)/(y.T*H*y) + (s*s.T)/(s.T*y)
        
        x0 = x
        result.append(compute_original_fun(x0)[0,0])
    return result
    

if __name__ == "__main__":
    x0 = np.asmatrix(np.ones((2,1)))
    H = np.asmatrix(np.eye(x0.size))
    result = main(x0, H)
    draw_result(result).show()

KeeJee

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
最优化 - 拟牛顿法DFP算法

一、牛顿法在博文“优化算法——牛顿法(Newton Method)”中介绍了牛顿法的思路，牛顿法具有二阶收敛性，相比较最速下降法，收敛的速度更快。在牛顿法中使用到了函数的二阶导数的信息，对于函数，其中表示向量。在牛顿法的求解过程中，首先是将函数在处展开，展开式为：其中，，表示的是目标函数在的梯度，是一个向量。，表示的是目标函数在处的Hesse矩阵
复制链接

扫一扫