数值最优化—概述

Ta o

已于 2022-03-02 22:27:09 修改

阅读量1k

点赞数

分类专栏：数值最优化文章标签：算法机器学习数值最优化

于 2022-02-25 23:02:58 首次发布

本文链接：https://blog.csdn.net/weixin_41922484/article/details/123126966

版权

数值最优化专栏收录该内容

7 篇文章 1 订阅

订阅专栏

目录

一、参考
二、概述
1. 最优化问题模型
2. 数据拟合问题
3. 局部最优解和全局最优解
4. 线性规划和二次规划
5. 多元函数的Taylor展开式
6. 向量值函数的Jacobi矩阵和中值定理
7. 凸集
8. 凸函数

一、参考

《数值最优化算法与理论》

二、概述

1. 最优化问题模型

设函数f是定义在 $R^n$ 上的实值函数。

其中 $R^n$ 代表：n维实数集，即 $(x_1,x_2, ... ,x_n) \in R^n$ ，每个元素是n维向量，向量中的每个分量是实数。

最优化问题的数学模型如下：

$\in D \subseteq R^n)$
或者：

$\in D \subseteq R^n)$

2. 数据拟合问题

k	1	2	3	4	5
$x_k$	2	4	5	8	9
$y_k$	2.01	2.98	3.50	5.02	5.47

将这些点画在直角坐标系中，大概可以看出（ $x_k, y_k$ ）都在某一条直线的附近。

在这里插入图片描述

对这些点进行拟合，即确定a,b的值，使得点（ $x_k, y_k$ ）（k = 1, 2,···,5），通过或靠近上面的直线。因此我们求a, b，使得函数：
$\sum_{i=1}^{5}{|y_i - (ax_i + b)|}$
或
$\sum_{i=1}^{5}{[y_i - (ax_i + b)]^2}$
达到最小值，即上面的数据拟合问题可通过如下的极小值问题来描述：
$(a,b)^T \in R^2$
数据拟合问题是一类无约束最优化问题。还有一类是约束最优化问题。

3. 局部最优解和全局最优解

① 设点 $x^* \in D$ , 若存在 $x^*$ 的一个邻域 $U(x^*)$ ,使得如下不等式成立：
$f(x^*) \leq f(x), (\forall x \in D \cap U(x^*))$
则称 $x^*$ 是最优化问题的一个局部最优解。若不等式严格成立，则称 $x^*$ 是最优化问题的一个严格局部最优解。

② 若不等式：
$f(x^*) \leq f(x), (\forall x \in D )$
成立，则称 $x^*$ 是最优化问题的一个全局最优解。若不等式严格成立，则称 $x^*$ 是最优化问题的一个严格全局最优解。

4. 线性规划和二次规划

当目标函数f 和约束函数g 都是线性函数时，称为线性规划。

当目标函数f 是二次函数且约束函数g 是线性函数时，称为二次规划。

5. 多元函数的Taylor展开式

设 $R^n \to R$ 二次连续可微。我们用 $\nabla f(x) 和\nabla^2f(x)$ 分别表示 $f$ 在 $x$ 处的梯度向量和Hessian矩阵。即：
$\nabla f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1}\\ \vdots\\ \frac{\partial f(x)}{\partial x_n} \end{pmatrix}$
$\nabla^2f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1^2} & \cdots & \frac{\partial f(x)}{\partial x_1\partial x_n}\\ \vdots & \ddots & \vdots\\ \frac{\partial f(x)}{\partial x_n \partial x_1} & \cdots & \frac{\partial f(x)}{\partial x_n^2} \end{pmatrix}$
多元函数的一阶Taylor展开式（一阶中值定理）如下：
$\begin{aligned} f(x) &= f(y)+ \int_0^1 \nabla f[y+\tau(x-y)]^T(x-y)d\tau \\ &=f(y)+\nabla f[y+ \theta (x-y)]^T(x-y) \\ &=f(y)+\nabla f(y)^T(x-y)+o(||x-y||) \end{aligned}$
其中 $\theta \in (0,1)$ 。

多元函数的二阶Taylor展开式（二阶中值定理）如下：
$\begin{aligned} f(x) &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \int_0^1 \nabla^2 f[y+\tau(x-y)]^Td\tau (x-y) \\ &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \nabla^2 f[y+\theta (x-y)](x-y)\\ &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \nabla^2f(y)(x-y)+o(||x-y||^2) \end{aligned}$
其中 $\theta \in (0,1)$ 。

6. 向量值函数的Jacobi矩阵和中值定理

向量值函数有类似的中值定理，设 $F=(F_1(x),F_2(x),···,F_m(x))^T:R^n \to R^m$ 连续可微。 $F^{'} (x)$ 表示 $F$ 在 $x$ 处的Jacobi矩阵，即：
$\begin{aligned} F'(x)&=(\nabla F_1(X), \nabla F_2(X),···,\nabla F_m(x))^T \\\\ &=\begin{pmatrix} \frac{\partial F_1(x)}{\partial x_1} & \frac{\partial F_1(x)}{\partial x_2} & \cdots & \frac{\partial F_1(x)}{\partial x_n}\\ \frac{\partial F_2(x)}{\partial x_1} & \frac{\partial F_2(x)}{\partial x_2} & \cdots & \frac{\partial F_2(x)}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial F_m(x)}{\partial x_1} & \frac{\partial F_m(x)}{\partial x_2} & \cdots & \frac{\partial F_m(x)}{\partial x_n} \end{pmatrix} \end{aligned}$
则有
$F(x)=F(y)+\int_0^1F'[y+\tau (x-y)]d\tau (x-y)=F(y)+F'(y)(x-y)+o(||x-y||)$

7. 凸集

① 若集合 $\subseteq R^n$ 满足：
$\alpha x+(1-\alpha )y \in S， \forall x,y \in S, \forall \alpha [0,1]$
则称 $S$ 是 $R^n$ 中的凸集。

从几何角度，凸集 $S$ 可解释为：若 $S$ 包含点 $x, y$ , 则它包含了 $x 与 y$ 的连线。如图：

在这里插入图片描述
② 设 $\subseteq R^n$ 是闭凸集， $x\in S$ 。若不存在两个不同的点 $x^{(1)},x^{(2)} \in S$ 以及数 $\alpha \in (0,1)$ , 使得 $x=\alpha x^{(1)}+(1-\alpha )x^{(2)}$ ，则称 $x$ 是凸集 $S$ 的一个顶点或极点，即 $\in S$ 是顶点的充要条件是 $x$ 不能表示为 $S$ 中两个不同点的凸组合。

凸集可以有无限个顶点。如单位圆：
$S=\{ x\in R^2 \;| \; ||x|| \leq 1\}$
的边界上的任意点都是顶点。

③ 设 $\subseteq R^2$ 是闭凸集， $\in R^2$ 为非零向量。若对任意 $\in S$ ，均有：
$\{ x+ \alpha d \;| \; \alpha \geq0\} \subseteq S$
则称 $d$ 是 $S$ 的一个方向。如 $S$ 的方向 $d$ 不能表示为 $S$ 的其它两个不同方向的正线性组合，则称它为 $S$ 的一个极方向。由上面定义易知，有界集合没有方向。

例如，凸集：
$S=\{x \in R^2 \; | \; x_1-4x_2 \leq 0,3x_1-x_2 \geq 0\}$
有两个极方向
$d^{(1)}=(4,1)^T \; 和 \; d^{(2)}=(1,3)^T$
$d^{(1)}$ 和 $d^{(1)}$ 的任何非负线性组合都是 $S$ 的方向，如图：
在这里插入图片描述

8. 凸函数

设 $\subseteq R^n$ 是凸集。若函数 $R^n \to R$ 满足：
$f[\alpha x+(1-\alpha )y] \leq \alpha f(x) + (1 - \alpha)f(y), \quad \forall x,y \in S, \forall \alpha \in [0,1]$
则称 $f$ 是 $S$ 上的凸函数。若不等式严格不等式，则称 $f$ 是 $S$ 上的严格凸函数。

若存在常数 $m > 0$ , 使得不等式
$f[\alpha x+(1-\alpha )y] \leq \alpha f(x) + (1 - \alpha)f(y) - m \alpha (1- \alpha)||x-y||^2$
对所有 $\in S$ 以及所有 $\alpha \in [0,1]$ 成立，则称 $f$ 是 $S$ 上的一致凸函数（强凸函数）。