最优化理论与算法（袁亚湘）学习笔记---最优性条件和最优化算法的基本结构

最新推荐文章于 2024-09-18 20:33:32 发布

滥温柔

最新推荐文章于 2024-09-18 20:33:32 发布

阅读量2.6k

点赞数 1

分类专栏：最优化理论与算法（袁亚湘）文章标签：算法

本文链接：https://blog.csdn.net/qq_45535886/article/details/119140646

版权

最优化理论与算法（袁亚湘）专栏收录该内容

1 篇文章 2 订阅

订阅专栏

1.4 无约束优化问题的最优性条件

考虑无约束优化问题

$min_{x\in R^{n}} f(x)$ (1) 优化问题一般分为局部最优和全局最优，局部最优，就是在函数值空间的一个有限区域内寻找最小值；而全局最优，是在函数值空间整个区域寻找最小值问题。下面给出局部极小值和全局极小值的定义。

极小值的类型

局部极小值（Local minimum）和全局最小值（Global minimum）

def 1 : ${\exists} \delta >0,s.t {\forall} x \in R^{n},and \vert| x-x^{*}| \vert<\delta, f(x) \ge f(x^{*})$ ,则称 $x^{*}$ 为f的局部极小值点（局部最优点）。

def 2: ${\forall} x \in R^{n}, f(x) \ge f(x^{*})$ ,则称 $x^{*}$ 为f的全局（总体）极小值点（全局最优点）。

1.4.1 必要条件

对于无约束优化问题，要根据极小值的定义去判断是否为最优点几乎是不可能的，因此有必要去寻找一个可行的判断方法。所以学者就提出一阶和二阶必要条件的判断判断方法。即在已知是最优点，能推导出什么样的结果。

【一阶必要条件】

Th 1: 若 $f:D\subset R^{n}\rightarrow R^{1}$ 在开集D上连续可微，且 $x^{*} \in D$ 是（1）的局部极小点，则

$\nabla f(x^{*}) = 0$

【二阶必要条件】

Th 2 : 若 $f:D\subset R^{n}\rightarrow R^{1}$ 在开集D上二阶连续可微，且 $x^{*} \in D$ 是（1）的局部极小点，则

$\nabla f(x^{*}) = 0,\nabla^{2} f(x^{*}) \ge 0$

证明方法与一阶必要条件类似。

【注】

满足 $\nabla f(x^{*}) = 0$ 的点称为函数f的平稳点或驻点（数分），但此时的 $x^{*}$ 可能是极小值点，也有可能是极大值点，甚至可能既不是极小值点也不是极大值点（example： $f(x)=x^{3}$ 在x=0处）。称既不是极小值也不是极大值的点称之为鞍点。

讨论在已知是最优点，能得到两个必要条件，那么一个自然的想法就是如何判断一个点是不是最优点。换而言之，在满足什么条件下，我们可以得到最优点（或者极小值）。

【二阶充分条件】

Th 3: 若 $f:D\subset R^{n}\rightarrow R^{1}$ 在开集D上二阶连续可微，且 $\nabla f(x^{*}) = 0,\nabla^{2} f(x^{*}) > 0$ ，则 $x^{*} \in D$ 是问题（1）的严格局部极小值点。

【充要条件】

Th 4 : 若上述的 $f(x)$ 是凸函数，这 $x^{*} \in D$ 是最优点的充分必要条件是 $\nabla f(x^{*}) = 0$ 。

1.5 最优化方法的结构

【基本结构】

（1）给定初始值 $x_{0}$ 和某种终止条件（下面会说到）。

（2）确定搜索方向 $d_{k}$ （即按照一定的规则，构造 f 在 $x_{k}$ 点的下降方向为搜索方法）。

（3）确定步长 $\alpha_{k}$ ,使得目标函数在某种意义下是下降的。

（4）定义格式： $x_{k+1}=x_{k}+\alpha_{k}d_{k}$ 。

（5）若 $x_{k+1}$ 满足某种终止条件，则停止迭代，得到最优点 $x_{k-1}$ ,否则重复（2）的操作。

1.5.1 算法的评价标准

（a）收敛速度：

（a1） $Q-\alpha$ 收敛： ${\exists} ~~\alpha >0$ ,以及与迭代次数 k 无关的常数 $q >0$ , s.t

$\lim\limits_{k \to \infty} \frac{\vert| x_{k+1}-x^{*}|\vert}{\vert |x_{k}-x^{*}|\vert^{\alpha}}=q$

则称算法产生的迭代点列{ $x_{k}$ } 具有 $Q-\alpha$ 阶收敛速度。

（a2）R-收敛（根收敛速度）：设 $R_{p}=\left\{\begin{array}{ll} \lim\limits_{k \to \infty}sup \vert | x_{k}-x^{*}| \vert^{1/k}&if ~~p=1\\ \lim\limits_{k \to \infty}sup \vert | x_{k}-x^{*}| \vert^{1/p^{k}}&if ~~p>1\\ \end{array}\right.\$

则称算法产生的迭代点列{ $x_{k}$ } 具有R-阶收敛速度。

关于收敛的具体定义以及相关概念https://zhuanlan.zhihu.com/p/278151142

（b）全局收敛与局部收敛

（c）二次终止性

二次终止性是指对于严格凸的二次函数，算法能在有限迭代步内达到最优值点。

除以上，一个算法的好坏还依赖于稳定性，计算存储的消耗等多方面因素，且数值实验不能用严瑾的数学证明保证算法具有良好的性态，理想情况下是根据收敛性和收敛速度的理论选择适当的算法来进行数值实验。

1.5.2 终止准则

方法1：下一步迭代点减去上一步迭代点的某种范数值小于等于我们想要精度参数 $\varepsilon_{1}$ .即

$\vert |x_{k+1}-x_{k}| \vert \leq \varepsilon_{1}$

缺点：可能 $x_{k+1}$ 和 $x_{k}$ 之间的差值很小，但函数值之间的差值很大。

方法2：下一步迭代点与上一步迭代点的函数值的绝对值之差小于我们想要的精度参数 $\varepsilon_{2}$ , 即

$\vert f(x_{k+1})-f(x_{k}) \vert \leq \varepsilon_{1}$

缺点：函数值差值很小，但是对应的迭代点列之间的差值很大。

方法3：(Himmeblau) 同时采用方法1和方法2 ，即当 $\vert|x_{k}|\vert>\varepsilon_{2}$ 和 $\vert f(x_{k}) \vert > \varepsilon_{2}$ 时，采用

$\frac{\vert | x_{k+1}-x_{k}| \vert}{\vert| x_{k}| \vert} \leq \varepsilon_{1}$ , $\frac{\vert f( x_{k+1})-f(x_{k}) \vert}{\vert f(x_{k}) \vert} \leq \varepsilon_{1}$