数值计算之牛顿法与函数极值

RuiH.AI

于 2021-12-07 22:48:09 发布

阅读量2k

点赞数 1

分类专栏：概率论与机器学习文章标签：算法机器学习线性代数

本文链接：https://blog.csdn.net/qq_41035283/article/details/121777920

版权

概率论与机器学习专栏收录该内容

50 篇文章 85 订阅

订阅专栏

本文介绍了牛顿法在数值计算中的应用，用于寻找函数的极值。相对于最速下降法，牛顿法在每次迭代中考虑了二阶导数（海森矩阵），从而能更快地收敛到极值点。然而，牛顿法的计算成本较高，涉及到海森矩阵的逆运算。文中给出了牛顿法的迭代公式和具体代码示例，展示了在二元函数极小值求解上的应用。通过对比，发现尽管牛顿法迭代次数少，但实际运行时间较长。

摘要由CSDN通过智能技术生成

前言

本篇继续优化理论的算法学习，牛顿法。

最速下降法

首先回顾上次提到的梯度下降法（其实就是最速下降法）：通过求取多元函数在某个点处的梯度，沿着梯度的反方向前进，直到达到迭代停止条件。

对于多元函数（实值向量函数） $f(\bf x)$ ，其在 $\bf x_0$ 处的泰勒展开可表示为：
$f({\bf x}) = f({\bf x_0})+{\bf \nabla} f({\bf x_0})^T({\bf x-x_0}) + \frac {1}{2} ({\bf x-x_0})^T{\bf H(x_0)}({\bf x-x_0})$
其中， $\nabla, H$ 分别是函数梯度，海森矩阵。

梯度下降法直接取一阶梯度的反方向作为优化方向，因此称为最速下降法（每次迭代的方向都是下降最快的方向）。

牛顿法

回到多元泰勒展开：
$f({\bf x}) = f({\bf x_0})+{\bf \nabla} f({\bf x_0})({\bf x-x_0}) + \frac {1}{2} ({\bf x-x_0})^T{\bf H(x_0)}({\bf x-x_0})$
$f(\bf x)$ 的极小值处的导数应当等于 $\bf 0$ 。现在取初始点 $\bf x_0$ ，将 $f(\bf x)$ 在 $\bf x_0$ 处的展开式对 $\bf x$ 进行求导：
${\bf \nabla} f({\bf x_0})^T+{(\bf x-x_0)}^T{\bf H(x_0)}={\bf 0} \\ {\bf \nabla}f({\bf x_0})=-{\bf H(x_0)}({\bf x-x_0}) \\ \quad \\ {\bf x} = {\bf x_0} - {{\bf H(x_0)}}^{-1} {{\bf \nabla} f{\bf(x_0)}}$
这样就得到了新的 $\bf x$ ，这就是牛顿法。

可以给出更具体的牛顿法求极值过程：

确定实值向量函数 $f(\bf x)$ 的初始点 $\bf x_0$ ，梯度 ${\bf \nabla} f$ 的表达式，海森矩阵 $\bf H(x)$ 的表达式，终止条件 $\delta, \epsilon$
计算梯度 ${\bf \nabla}f({\bf x_0})$ ，如果 $||{\bf \nabla}f({\bf x_0})||<\delta$ ，终止迭代，得到解 $\bf x=x_0$ ；否则进入第3步
计算海森矩阵，并迭代 ${\bf x'} = {\bf x_0} - {{\bf H(x_0)}}^{-1} {{\bf \nabla} f{\bf(x_0)}}$
计算 $\Delta f= f({\bf x'}) - f(\bf x_0)$ ，如果 $\Delta f < \epsilon$ ，终止迭代，得到解 $\bf x=x'$ ；否则 $\bf x_0=x'$ ，回到第2步

牛顿法分析

现在考虑牛顿法的优化迭代表达式：
${\bf x'} = {\bf x_0} - {{\bf H(x_0)}}^{-1} {{\bf \nabla} f{\bf(x_0)}}$

将牛顿法的迭代方向与梯度方向做内积：
$-{{\bf H(x_0)}}^{-1} {{\bf \nabla} f{\bf(x_0)}} \cdot {{\bf \nabla} f{\bf(x_0)}} \\ = -{{\bf \nabla} f{\bf(x_0)}}^T {{\bf H(x_0)}}^{-T}{{\bf \nabla} f{\bf(x_0)}} \\ = -{{\bf \nabla} f{\bf(x_0)}}^T {{\bf H(x_0)}}^{-1}{{\bf \nabla} f{\bf(x_0)}} \\$
当海森矩阵是正定矩阵时，迭代方向与梯度方向的内积为负，即函数值在不断减小。这就涉及到了优化理论的重要问题：什么条件能够满足海森矩阵的正定性？

牛顿法的优点：优化收敛速度比梯度下降法更快。原因是牛顿法不仅考虑到函数的一阶梯度，也考虑到了海森矩阵（二阶梯度），在每个优化点处附近都能一次求得最佳迭代值。

牛顿法的缺点：每次迭代的速度较慢。这是因为迭代值的计算中涉及到了海森矩阵的逆，使得单步迭代效率比较低。

代码示例

和上次一样，我写了一个同牛顿法寻找二元函数极小值的代码，二元五次函数，如下所示：

import numpy as np


def partial_derivate_xy(x, y, F):
    dx = (F(x + 0.001, y) - F(x, y))/0.001
    dy = (F(x, y + 0.001) - F(x, y))/0.001
    return dx, dy


def partial_partial_derivate_xy(x, y, F):
    dx, dy = partial_derivate_xy(x, y, F)
    dxx = (partial_derivate_xy(x + 0.001, y, F)[0] - dx) / 0.001
    dyy = (partial_derivate_xy(x, y + 0.001, F)[1] - dy) / 0.001
    dxy = (partial_derivate_xy(x, y + 0.001, F)[0] - dx) / 0.001
    dyx = (partial_derivate_xy(x + 0.001, y, F)[1] - dy) / 0.001
    return dxx, dyy, dxy, dyx


def non_linear_func(x, y):
    fxy = 0.5 * (x ** 2 + y ** 2)
    return fxy


def non_linear_func_2(x, y):
    fxy = x*x + 2*y*y + 2*x*y + 3*x - y - 2
    return fxy


def non_linear_func_3(x, y):
    fxy = 0.5 * (x ** 2 - y ** 2)
    return fxy


def non_linear_func_4(x, y):
    fxy = x**4 + 2*y**4 + 3*x**2*y**2 + 4*x*y**2 + x*y + x + 2*y + 0.5
    return fxy


def newton_optim(x, y, F):
    dx, dy = partial_derivate_xy(x, y, F)
    dxx, dyy, dxy, dyx = partial_partial_derivate_xy(x, y, F)
    grad = np.array([[dx], [dy]])
    hessian = np.array([[dxx, dxy], [dyx, dyy]])
    hessian_inv = np.linalg.inv(hessian)
    vec_delta = np.matmul(hessian_inv, grad)
    vec_opt = np.array([[x], [y]]) - vec_delta
    x_opt = vec_opt[0][0]
    y_opt = vec_opt[1][0]
    return x_opt, y_opt, vec_delta


def optimizer(x0, y0, F, th=0.01):
    x = x0
    y = y0
    counter = 0
    while True:
        x_opt, y_opt, vec_delta = newton_optim(x, y, F)
        if np.linalg.norm(vec_delta) < th:
            break
        x = x_opt
        y = y_opt
        counter = counter + 1
        print('iter: {}'.format(counter), 'optimized (x, y) = ({}, {})'.format(x, y))
    return x, y


if __name__ == '__main__':
    x0 = 2.
    y0 = 2.
    result_x, result_y = optimizer(x0, y0, non_linear_func_4)
    print(result_x, result_y)

牛顿法迭代11次后得到优化解。

梯度下降法在lr=0.01时迭代149次得到优化解。

运行1000次时，牛顿法用时0.586s，梯度下降法用时0.285s，可见虽然牛顿法迭代次数少，但速度慢。

后记

下篇将进入高斯牛顿法，后续还会有LM算法、拟牛顿法等。

RuiH.AI

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
数值计算之牛顿法与函数极值

数值计算之牛顿法与函数极值前言最速下降法牛顿法牛顿法分析代码示例后记前言本篇继续优化理论的算法学习，牛顿法。最速下降法首先回顾上次提到的梯度下降法（其实就是最速下降法）：通过求取多元函数在某个点处的梯度，沿着梯度的反方向前进，直到达到迭代停止条件。对于多元函数（实值向量函数）f(x)f(\bf x)f(x)，其在x0\bf x_0x0处的泰勒展开可表示为：f(x)=f(x0)+∇f(x0)T(x−x0)+12(x−x0)TH(x0)(x−x0)f({\bf x}) = f({\bf x_0
复制链接

扫一扫