数值优化理论的数学基础

最新推荐文章于 2023-06-28 17:33:48 发布

姑苏隐士

最新推荐文章于 2023-06-28 17:33:48 发布

阅读量883

点赞数 1

分类专栏：数值优化方法图像处理随机模拟与统计计算文章标签：自动驾驶计算机视觉人工智能序列最小化优化算法最优化

本文链接：https://blog.csdn.net/luzhanbo207/article/details/121489518

版权

数值优化方法同时被 3 个专栏收录

15 篇文章 34 订阅

订阅专栏

图像处理

15 篇文章 9 订阅

订阅专栏

随机模拟与统计计算

6 篇文章 2 订阅

订阅专栏

优化设计数学模型的求解，实际上就是数学中的极值问题。对于无约束优化问题，是求多元函数的无条件极值，约束优化问题是求多元函数的条件极值。尽管高等数学中的极值理论仍然是求解这种问题的理论基础，但是优于机械，电气信息工程设计中建立的数学模型一般都比较复杂，变量个数和各种约束条件都较多，难以用解析的方法直接求得最优解。因此有必要对多变量的约束优化问题的求解所涉及的数学概念、数值迭代的有关理论进行补充和扩展。

偏导数
导数作为描述函数变化率的数学量在最优化理论中具有重要的意义。对于医院函数 $f (x)$ 在点 $x_k$ 的一阶导数 $f^{'}(x_k)$ 表示函数在该点的变化率。对于多元函数的偏导数是表示函数沿着某个坐标轴方向的变化率。函数 $f(x_1,x_2,\cdots,x_n)$ 在任一点 $X$ 沿 $x_i(i=1,2,\cdots,n)$ 坐标轴方向的变化率即是对 $x_i$ 的偏导数，其表达式为

$\frac{\partial f(X)}{\partial x_i} = \lim_{\Delta x_i \to 0}\frac{f(x_1,x_2,\cdots,x_i+\Delta x_i,\cdots,x_n)}{\Delta x_i},(i=1,2,\cdots,n)$

方向导数
方向导数是函数沿某个给定方向 $S$ 的变化率，对于函数 $f(x_1,x_2,\cdots, x_n)$ ，从任一点 $X$ 引出一方向 $S$ ，与 $x_i$ 轴的夹角为 $\alpha_i$ ，在方向S上取一点 $X^{(1)}$ ，其坐标为 $[x_1+\Delta x_1,x_2+\Delta x_2,\cdots,x_n+\Delta x_n]$ ，点 $X$ 和 $X^{(1)}$ 之间的举例为 $||S||=\sqrt{(\Delta x_1)^2+(\Delta x_2)^2+\cdots+(\Delta x_n)^2}$ ，由此可知，函数 $f(x_1,x_2,\cdots, x_n)$ 在 $X$ 处沿方向 $S$ 的平均变化率为
$\frac{\Delta f(X)}{||\Delta S||}=\frac{f(x_1+\Delta x_1,x_2+\Delta x_2,\cdots, x_n+\Delta x_n)-f(x_1,x_2,\cdots, x_n)}{||\Delta S||}$

当 $||\Delta S||\to 0$ 时，如果上式极限存在，则称此极限为函数 $f(x_1,x_2,\cdots, x_n)$ 在任一点 $X$ 沿方向 $S$ 的方向导数，记作
$\begin{aligned} \frac{\partial f(X)}{\partial S}&=\lim_{||\Delta S||\to 0}\frac{\Delta f(X)}{||\Delta S||}\\ &=\lim_{||\Delta S||\to 0}\frac{f(x_1+\Delta x_1,x_2+\Delta x_2,\cdots, x_n+\Delta x_n)-f(x_1,x_2,\cdots, x_n)}{||\Delta S||} \\ & =\sum_{i=1}^{n}\frac{\partial f(X)}{\partial x_i}cos\alpha_i \end{aligned}$

并且
$\sum_{i=1}^{n}cos^2\alpha_i = 1$

上式中， $cos\alpha_i$ 为方向 $S$ 与坐标轴 $x_i$ 方向之间的夹角的余弦，简称方向余弦，从方向导数的公式可知，方向导数不仅与位置相关，还与方向相关，位置决定梯度，方向决定方向余弦，二者一起构成方向导数，决定了在某个位置沿着某个方向的变化速度

函数的梯度
以二维函数为例讨论
$\begin{aligned} \frac{\partial f(X)}{\partial S} &= \frac{\partial f(X)}{\partial x_1}cos\alpha_1 + \frac{\partial f(X)}{\partial x_2}cos\alpha_2 \\ &= [ \frac{\partial f(X)}{\partial x_1}, \frac{\partial f(X)}{\partial x_2}][cos\alpha_1, cos\alpha_2]^T \end{aligned}$

式中 $[cos\alpha_1, cos\alpha_2]^T=S$ ，因为 $∣ ∣ S ∣ ∣ = 1$ ，故为单位向量，而 $\frac{\partial f(X)}{\partial x_1}, \frac{\partial f(X)}{\partial x_2}]^T$ 也是一个矢量，用符号 $\nabla f(X)$ 表示，它与 $S$ 方向无关，完全取决于函数自身的性质，可以将上面的公式进一步改写为
$\frac{\partial f(X)}{\partial S} = ||\nabla f(X)||\cdot ||S||cos\theta$

式中， $||\nabla f(X)||$ 与 $∣ ∣ S ∣ ∣$ 分别为矢量 $\nabla f(X)$ 与 $S$ 的模， $\theta$ 为这两个向量的夹角，由于矢量 $S$ 为单位矢量，并且 $-1\le cos\theta\le 1$ ，所以当 $\nabla f(X)$ 与 $S$ 方向相同时， $\frac{\partial f(X)}{\partial S}$ 的值最大；
定义：把取得方向导数最大值的矢量 $\nabla f(X)$ 称为函数 $f (X)$ 在 $X$ 点的梯度 $g r a d (f)$ ，由此可知，梯度方向是指函数值增长最快的方向。又因为方向 $S$ 的模为1，因此二维函数变化率的最大值为
$||\nabla f||=\sqrt{(\frac{\partial f(X)}{\partial x_1})^2+(\frac{\partial f(X)}{\partial x_2})^2}$

将其推广到 $n$ 维函数，梯度及其模分别为
$\nabla f(X)=[\frac{\partial f(X)}{\partial x_1},\frac{\partial f(X)}{\partial x_2},\cdots,\frac{\partial f(X)}{\partial x_n}]^T$

$||\nabla f(X)||=[\sum_{i=1}^{n}(\frac{\partial f(X)}{\partial x_i})^2]^{\frac{1}{2}}$

梯度具有如下重要性质：
1） $\nabla f(X)$ 是函数 $f (X)$ 在 $X$ 处的最速上升方向， $-\nabla f(X)$ 是最速下降方向；
2） $||\nabla f(X)||$ 的值随点而异，所以 $\nabla f(X)$ 只能反应函数在 $X$ 点附近的性态，只能反应局部性态；
3）梯度 $\nabla f(X)$ 与过点 $X$ 的等值线相交；
4）利用梯度可判断所给定的方向 $S$ 是上升方向还是下降方向，若 $\nabla f^T(X)\cdot S\lt 0$ ，则 $S$ 为下降方向；若 $\nabla f^T(X)\cdot S\gt 0$ ，则 $S$ 为上升方向；

多元函数的泰勒展开
在实际工程优化设计中，目标函数一般是很复杂的非线性多元函数，往往需要用简单函数对复杂函数作局部近似。由等值线的性质可知：在极值点附近，等值线（面）呈近似的同心椭圆（球）族（近似地看成二次函数）。因此，把原函数作泰勒展开，取得二次项来近似地代替原函数，从而使问题简化。所以，多元函数地泰勒展开式在优化设计方法理论地研究中十分重要。
由高等数学可知，一元函数 $f (x)$ 在点 $x^{(k)}$ 若存在1到n阶导数，则在点 $x^{(k)}$ 处的泰勒展开式为
$f(x)=f(x^{(k)})+f^{'}(x^{(k)})(x-x^{(k)})+\frac{1}{2!}f^{''}(x^{(k)})(x-x^{(k)})^2+\cdots + \frac{1}{2!}f^{(n)}(x^{(k)})(x-x^{(k)})^n+R^n$

式中 $R^n$ 为高阶余项；
若忽略二阶以上的高阶微小量，只取到二次项，则函数的近似表达式为
$f(x)\approx f(x^{(k)})+f^{'}(x^{(k)})(x-x^{(k)})+\frac{1}{2!}f^{''}(x^{(k)})(x-x^{(k)})^2$

类似于一元函数，当多元函数在满足一定的条件下，也可以用二次项来作它的近似，将多元函数 $f (X)$ 在点 $X^{(k)}$ 泰勒展开，只取到二次项，即
$f(X)\approx f(X^{(k)})+[\nabla f(X^{(k)})]^T(X-X^{(k)})+\frac{1}{2}[X-X^{(k)}]^T \nabla^2f(X^{(k)})[X-X^{(k)}]$

式中， $\nabla^2f(X^{(k)})$ 是函数在点 $X^{(k)}$ 的所有二阶导数组成的矩阵，称为函数 $f (X)$ 在点 $X^{(k)}$ 的二阶导数矩阵或者海塞（Hessian）矩阵，简记为 $H(X^{(k)})$ ，其表达式为
$H(X)=\nabla^2f(X)=\left( \begin{array}{l} &\frac{\partial^2f(X)}{\partial x_1^2} &\frac{\partial^2f(X)}{\partial x_1\partial x_2} &\cdots &\frac{\partial^2f(X)}{\partial x_1\partial x_n} \\ &\frac{\partial^2f(X)}{\partial x_2\partial x_1} &\frac{\partial^2f(X)}{\partial x_2^2} &\cdots &\frac{\partial^2f(X)}{\partial x_2\partial x_n} \\ &\vdots &\vdots &\ddots &\vdots \\ &\frac{\partial^2f(X)}{\partial x_n\partial x_1} &\frac{\partial^2f(X)}{\partial x_n\partial x_2} &\cdots &\frac{\partial^2f(X)}{\partial x_n^2} \end{array} \right)$

对于通常的工程中的函数，求导顺序可交换，因此海塞矩阵通常是nxn阶对称矩阵；

无约束优化问题的极值条件
求解无约束优化问题的实质是求解目标函数 $f (X)$ 在n为空间 $R^n$ 中的极值，由高等数学基础知识可知，任何一个单值连续可微的一元函数，取得极值的必要条件是一阶导数等于零，即
$f^{'}(x^{*}) = 0$

仅满足此条件只表明该点为一个驻点，是极大值、极小值还是拐点需要进一步利用二阶导数进行判断，故充分条件为：若 $f^{''}(x^*)>0$ ，则 $x^*$ 是极小值点，若 $f^{''}(x^*)<0$ ，则 $x^*$ 是极大值点，若 $f^{''}(x^*)=0$ ，则 $x^*$ 是拐点；

同理，对于多元函数 $f (X)$ 取得极值的必要条件是一阶导数等于零，即
$\nabla f(X^*) = 0$

仅满足此条件表明该点是一个驻点，还需要进一步借助二阶导数来判断该点是极大值点、极小值点还是驻点。故充分条件为：
若矩阵 $H(X^*)$ 正定，则 $X^*$ 是极小值点；若矩阵 $H(X^*)$ 负定，则 $X^*$ 是极大值点；若矩阵 $H(X^*)$ 不定，则 $X^*$ 为鞍点

优化涉及方法的基本思想和迭代终止准则
前面简述了求无约束优化问题极值点的方法，从理论上来看似乎并不困难，但是由于一般实际问题的目标函数和约束函数常常是高次非线性函数，用前述方法求解是比较困难的，审制很难解出的。因此随着计算机技术的发展，最优化方法常常采用适用于计算机求解的数值迭代方法。
a）优化设计计算方法的基本思想
从某一个初始点出发，按照一定的原则寻求一个可行方向和适当补偿，一步一步地重复数值计算，最终达到目标函数地最优点。简单来讲就是“搜索、迭代、逼近”，或者说“步步下降，步步逼近，最终逼近最优点”

b）基本迭代公式
迭代地基本公式为
$X^{(k+1)}=X^{(k)}+\alpha^{(k)}S^{(k)}$

从而使
$f(X^{(k+1)}) < f(X^{(k)})$

式中 $X^{(k)}$ 为第k步迭代的初始点； $X^{(k+1)}$ 为第k不迭代产生的新点，也是第k+1步迭代的初始点； $S^{(k)}$ 为第k步迭代的搜索方向，是一个矢量； $\alpha^{(k)}$ 为第k步迭代的最优步长因子，是标量；
由此不难看出，一个下降迭代算法需要解决两个基本问题
1）如何选取搜索方向 $S^{(k)}$ ，不同的 $S^{(k)}$ 构成不同的下降迭代算法，因此寻找一个使目标函数数值迅速下降的可行方向是优化设计研究的核心问题；
2）确定步长因子 $\alpha^{(k)}$ ，一般由一维搜索方法取得 $\alpha^{(k)}$

c）算法的收敛性
在反复迭代计算过程中，一系列搜索点极小值点逼近的速度称为该算法的收敛速度。作为一种优化算法必须具有较好的收敛性和较快的收敛速度。算法的收敛性和收敛速度可以根据下式进行定义：
$\lim_{k\to\infty}=\frac{||X^{(k+1)}-X^*||}{||X^{(k)}-X^*||^\beta}=\sigma, (0<\sigma<1)$

若存在 $\beta > 0$ 使上式成立，则：
1）当 $\beta = 1$ 时，算法具有线性收敛速度
2）当 $\beta = 2$ 时，算法具有二次收敛速度
3）当 $<\beta < 2$ 时，算法具有超线性收敛速度
一般来说，具有二次收敛速度的算法时收敛速度最快的算法，具有超线性收敛速度的算法可以认为时收敛速度较快的算法。

d）算法的收敛准则
因为数值迭代计算时逐步想最优点逼近的过程，实际上要达到最优点，需要迭代很多次，计算工作量相当大，所以一般采用迭代到相当靠近理论最优点并满足计算精度要求的点作为最优点。为此，需要由评定最优解的近似程度的准则，这个准则称为收敛准则，通常有一下三种：
（1）点距离准则，一般情况下，迭代点向极值点的逼近速度是逐渐变慢的，越接近极值点，相邻两迭代点的距离越短，当相邻两迭代点的距离充分小，即当
$||X^{(k+1)}-X^{(k)}||<\epsilon$
时，便可认为迭代点 $X^{(k+1)}$ 已充分接近极值点，可令 $X^*=X^{(k+1)}$ ，其中， $\epsilon$ 是一充分小的正数，称为收敛精度。
（2）值差准则，当迭代点接近极值点时，不仅迭代点间的距离变短，而且相邻两迭代点的函数值之差也越来越小，因此，可以将相邻两迭代点的函数值之差作为终止准则。即对一充分小的正数 $\epsilon$ ，如果
$|f(X^{(k+1)})-f(X^{(k)})|\le \epsilon$
成立，则可认为点 $X^{(k+1)}$ 就是满足精度要求的近似最优点 $X^*$ 。
（3）梯度准则，由无约束优化问题的极值必要条件可知，梯度近似于0的点必定时接近极值点的点，因此，当
$||\nabla f(X^{(k+1)})||\le \epsilon$
时，将点 $X^{(k+1)}$ 作为满足收敛精度要求的近似最优点 $X^*$ 。

通常，上述三个准则都可单独使用，只要其中一个得到满足，即可认为达到了近似最优解，终止迭代计算。但是在某些特殊情况，相邻两迭代点间的距离和相应的函数值之差不可能同时达到充分小，这是可间点距离准则和值差准则联合起来使用。

在这里插入图片描述

姑苏隐士

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数值优化理论的数学基础

优化设计数学模型的求解，实际上就是数学中的极值问题。对于无约束优化问题，是求多元函数的无条件极值，约束优化问题是求多元函数的条件极值。尽管高等数学中的极值理论仍然是求解这种问题的理论基础，但是优于机械，电气信息工程设计中建立的数学模型一般都比较复杂，变量个数和各种约束条件都较多，难以用解析的方法直接求得最优解。因此有必要对多变量的约束优化问题的求解所涉及的数学概念、数值迭代的有关理论进行补充和扩展。偏导数导数作为描述函数变化率的数学量在最优化理论中具有重要的意义。对于医院函数f(x)f(x)f(x)在
复制链接

扫一扫

专栏目录