数值最优化—概述

一、参考

《数值最优化算法与理论》

二、概述

1. 最优化问题模型

设函数f是定义在 R n R^n Rn上的实值函数。

其中 R n R^n Rn代表:n维实数集,即 ( x 1 , x 2 , . . . , x n ) ∈ R n (x_1,x_2, ... ,x_n) \in R^n (x1,x2,...,xn)Rn,每个元素是n维向量,向量中的每个分量是实数。

最优化问题的数学模型如下:

m i n f ( x ) , ( x ∈ D ⊆ R n ) min f(x), (x \in D \subseteq R^n) minf(x),(xDRn)
或者:

m a x f ( x ) , ( x ∈ D ⊆ R n ) max f(x), (x \in D \subseteq R^n) maxf(x),(xDRn)

2. 数据拟合问题

k12345
x k x_k xk24589
y k y_k yk2.012.983.505.025.47

将这些点画在直角坐标系中,大概可以看出( x k , y k x_k, y_k xk,yk)都在某一条直线的附近。

在这里插入图片描述

对这些点进行拟合,即确定a,b的值,使得点( x k , y k x_k, y_k xk,yk)(k = 1, 2,···,5),通过或靠近上面的直线。因此我们求a, b,使得函数:
f ( a , b ) = ∑ i = 1 5 ∣ y i − ( a x i + b ) ∣ f(a,b) = \sum_{i=1}^{5}{|y_i - (ax_i + b)|} f(a,b)=i=15yi(axi+b)

f ( a , b ) = ∑ i = 1 5 [ y i − ( a x i + b ) ] 2 f(a,b) = \sum_{i=1}^{5}{[y_i - (ax_i + b)]^2} f(a,b)=i=15[yi(axi+b)]2
达到最小值,即上面的数据拟合问题可通过如下的极小值问题来描述:
m i n f ( a , b ) , ( a , b ) T ∈ R 2 min f(a,b), (a,b)^T \in R^2 minf(a,b),(a,b)TR2
数据拟合问题是一类无约束最优化问题。还有一类是约束最优化问题。

3. 局部最优解和全局最优解

① 设点 x ∗ ∈ D x^* \in D xD, 若存在 x ∗ x^* x的一个邻域 U ( x ∗ ) U(x^*) U(x),使得如下不等式成立:
f ( x ∗ ) ≤ f ( x ) , ( ∀ x ∈ D ∩ U ( x ∗ ) ) f(x^*) \leq f(x), (\forall x \in D \cap U(x^*)) f(x)f(x),(xDU(x))
则称 x ∗ x^* x是最优化问题的一个局部最优解。若不等式严格成立,则称 x ∗ x^* x是最优化问题的一个严格局部最优解。

② 若不等式:
f ( x ∗ ) ≤ f ( x ) , ( ∀ x ∈ D ) f(x^*) \leq f(x), (\forall x \in D ) f(x)f(x),(xD)
成立,则称 x ∗ x^* x是最优化问题的一个全局最优解。若不等式严格成立,则称 x ∗ x^* x是最优化问题的一个严格全局最优解。

4. 线性规划和二次规划

当目标函数f 和约束函数g 都是线性函数时,称为线性规划。

当目标函数f 是二次函数且约束函数g 是线性函数时,称为二次规划。

5. 多元函数的Taylor展开式

f : R n → R f : R^n \to R f:RnR二次连续可微。我们用 ∇ f ( x ) 和 ∇ 2 f ( x ) \nabla f(x) 和\nabla^2f(x) f(x)2f(x)分别表示 f f f x x x处的梯度向量Hessian矩阵。即:
∇ f ( x ) = ( ∂ f ( x ) ∂ x 1 ⋮ ∂ f ( x ) ∂ x n ) \nabla f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1}\\ \vdots\\ \frac{\partial f(x)}{\partial x_n} \end{pmatrix} f(x)=x1f(x)xnf(x)
∇ 2 f ( x ) = ( ∂ f ( x ) ∂ x 1 2 ⋯ ∂ f ( x ) ∂ x 1 ∂ x n ⋮ ⋱ ⋮ ∂ f ( x ) ∂ x n ∂ x 1 ⋯ ∂ f ( x ) ∂ x n 2 ) \nabla^2f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1^2} & \cdots & \frac{\partial f(x)}{\partial x_1\partial x_n}\\ \vdots & \ddots & \vdots\\ \frac{\partial f(x)}{\partial x_n \partial x_1} & \cdots & \frac{\partial f(x)}{\partial x_n^2} \end{pmatrix} 2f(x)=x12f(x)xnx1f(x)x1xnf(x)xn2f(x)
多元函数的一阶Taylor展开式(一阶中值定理)如下:
f ( x ) = f ( y ) + ∫ 0 1 ∇ f [ y + τ ( x − y ) ] T ( x − y ) d τ = f ( y ) + ∇ f [ y + θ ( x − y ) ] T ( x − y ) = f ( y ) + ∇ f ( y ) T ( x − y ) + o ( ∣ ∣ x − y ∣ ∣ ) \begin{aligned} f(x) &= f(y)+ \int_0^1 \nabla f[y+\tau(x-y)]^T(x-y)d\tau \\ &=f(y)+\nabla f[y+ \theta (x-y)]^T(x-y) \\ &=f(y)+\nabla f(y)^T(x-y)+o(||x-y||) \end{aligned} f(x)=f(y)+01f[y+τ(xy)]T(xy)dτ=f(y)+f[y+θ(xy)]T(xy)=f(y)+f(y)T(xy)+o(xy)
其中 θ ∈ ( 0 , 1 ) \theta \in (0,1) θ(0,1)

多元函数的二阶Taylor展开式(二阶中值定理)如下:
f ( x ) = f ( y ) + ∇ f ( y ) T ( x − y ) + 1 2 ( x − y ) T ∫ 0 1 ∇ 2 f [ y + τ ( x − y ) ] T d τ ( x − y ) = f ( y ) + ∇ f ( y ) T ( x − y ) + 1 2 ( x − y ) T ∇ 2 f [ y + θ ( x − y ) ] ( x − y ) = f ( y ) + ∇ f ( y ) T ( x − y ) + 1 2 ( x − y ) T ∇ 2 f ( y ) ( x − y ) + o ( ∣ ∣ x − y ∣ ∣ 2 ) \begin{aligned} f(x) &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \int_0^1 \nabla^2 f[y+\tau(x-y)]^Td\tau (x-y) \\ &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \nabla^2 f[y+\theta (x-y)](x-y)\\ &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \nabla^2f(y)(x-y)+o(||x-y||^2) \end{aligned} f(x)=f(y)+f(y)T(xy)+21(xy)T012f[y+τ(xy)]Tdτ(xy)=f(y)+f(y)T(xy)+21(xy)T2f[y+θ(xy)](xy)=f(y)+f(y)T(xy)+21(xy)T2f(y)(xy)+o(xy2)
其中 θ ∈ ( 0 , 1 ) \theta \in (0,1) θ(0,1)

6. 向量值函数的Jacobi矩阵和中值定理

向量值函数有类似的中值定理,设 F = ( F 1 ( x ) , F 2 ( x ) , ⋅ ⋅ ⋅ , F m ( x ) ) T : R n → R m F=(F_1(x),F_2(x),···,F_m(x))^T:R^n \to R^m F=(F1(x),F2(x),,Fm(x))T:RnRm 连续可微。 F ′ ( x ) F'(x) F(x) 表示 F F F x x x 处的Jacobi矩阵,即:
F ′ ( x ) = ( ∇ F 1 ( X ) , ∇ F 2 ( X ) , ⋅ ⋅ ⋅ , ∇ F m ( x ) ) T = ( ∂ F 1 ( x ) ∂ x 1 ∂ F 1 ( x ) ∂ x 2 ⋯ ∂ F 1 ( x ) ∂ x n ∂ F 2 ( x ) ∂ x 1 ∂ F 2 ( x ) ∂ x 2 ⋯ ∂ F 2 ( x ) ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ F m ( x ) ∂ x 1 ∂ F m ( x ) ∂ x 2 ⋯ ∂ F m ( x ) ∂ x n ) \begin{aligned} F'(x)&=(\nabla F_1(X), \nabla F_2(X),···,\nabla F_m(x))^T \\\\ &=\begin{pmatrix} \frac{\partial F_1(x)}{\partial x_1} & \frac{\partial F_1(x)}{\partial x_2} & \cdots & \frac{\partial F_1(x)}{\partial x_n}\\ \frac{\partial F_2(x)}{\partial x_1} & \frac{\partial F_2(x)}{\partial x_2} & \cdots & \frac{\partial F_2(x)}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial F_m(x)}{\partial x_1} & \frac{\partial F_m(x)}{\partial x_2} & \cdots & \frac{\partial F_m(x)}{\partial x_n} \end{pmatrix} \end{aligned} F(x)=(F1(X),F2(X),,Fm(x))T=x1F1(x)x1F2(x)x1Fm(x)x2F1(x)x2F2(x)x2Fm(x)xnF1(x)xnF2(x)xnFm(x)
则有
F ( x ) = F ( y ) + ∫ 0 1 F ′ [ y + τ ( x − y ) ] d τ ( x − y ) = F ( y ) + F ′ ( y ) ( x − y ) + o ( ∣ ∣ x − y ∣ ∣ ) F(x)=F(y)+\int_0^1F'[y+\tau (x-y)]d\tau (x-y)=F(y)+F'(y)(x-y)+o(||x-y||) F(x)=F(y)+01F[y+τ(xy)]dτ(xy)=F(y)+F(y)(xy)+o(xy)

7. 凸集

① 若集合 S ⊆ R n S \subseteq R^n SRn 满足:
α x + ( 1 − α ) y ∈ S , ∀ x , y ∈ S , ∀ α [ 0 , 1 ] \alpha x+(1-\alpha )y \in S, \forall x,y \in S, \forall \alpha [0,1] αx+(1α)ySx,yS,α[0,1]
则称 S S S R n R^n Rn 中的凸集

从几何角度,凸集 S S S可解释为:若 S S S包含点 x , y x,y x,y, 则它包含了 x 与 y x与y xy的连线。如图:

在这里插入图片描述
② 设 S ⊆ R n S \subseteq R^n SRn是闭凸集, x ∈ S x\in S xS。若不存在两个不同的点 x ( 1 ) , x ( 2 ) ∈ S x^{(1)},x^{(2)} \in S x(1),x(2)S 以及数 α ∈ ( 0 , 1 ) \alpha \in (0,1) α(0,1), 使得 x = α x ( 1 ) + ( 1 − α ) x ( 2 ) x=\alpha x^{(1)}+(1-\alpha )x^{(2)} x=αx(1)+(1α)x(2),则称 x x x是凸集 S S S的一个顶点极点,即 x ∈ S x \in S xS是顶点的充要条件是 x x x不能表示为 S S S中两个不同点的凸组合。

凸集可以有无限个顶点。如单位圆:
S = { x ∈ R 2    ∣    ∣ ∣ x ∣ ∣ ≤ 1 } S=\{ x\in R^2 \;| \; ||x|| \leq 1\} S={xR2x1}
的边界上的任意点都是顶点。

③ 设 S ⊆ R 2 S \subseteq R^2 SR2是闭凸集, d ∈ R 2 d \in R^2 dR2为非零向量。若对任意 x ∈ S x \in S xS,均有:
{ x + α d    ∣    α ≥ 0 } ⊆ S \{ x+ \alpha d \;| \; \alpha \geq0\} \subseteq S {x+αdα0}S
则称 d d d S S S的一个方向。如 S S S的方向 d d d不能表示为 S S S的其它两个不同方向的正线性组合,则称它为 S S S的一个极方向。由上面定义易知,有界集合没有方向。

例如,凸集:
S = { x ∈ R 2    ∣    x 1 − 4 x 2 ≤ 0 , 3 x 1 − x 2 ≥ 0 } S=\{x \in R^2 \; | \; x_1-4x_2 \leq 0,3x_1-x_2 \geq 0\} S={xR2x14x20,3x1x20}
有两个极方向
d ( 1 ) = ( 4 , 1 ) T    和    d ( 2 ) = ( 1 , 3 ) T d^{(1)}=(4,1)^T \; 和 \; d^{(2)}=(1,3)^T d(1)=(4,1)Td(2)=(1,3)T
d ( 1 ) d^{(1)} d(1) d ( 1 ) d^{(1)} d(1) 的任何非负线性组合都是 S S S的方向,如图:
在这里插入图片描述

8. 凸函数

S ⊆ R n S \subseteq R^n SRn 是凸集。若函数 f : R n → R f : R^n \to R f:RnR 满足:
f [ α x + ( 1 − α ) y ] ≤ α f ( x ) + ( 1 − α ) f ( y ) , ∀ x , y ∈ S , ∀ α ∈ [ 0 , 1 ] f[\alpha x+(1-\alpha )y] \leq \alpha f(x) + (1 - \alpha)f(y), \quad \forall x,y \in S, \forall \alpha \in [0,1] f[αx+(1α)y]αf(x)+(1α)f(y),x,yS,α[0,1]
则称 f f f S S S上的凸函数。若不等式严格不等式,则称 f f f S S S上的严格凸函数

若存在常数 m > 0 m>0 m>0, 使得不等式
f [ α x + ( 1 − α ) y ] ≤ α f ( x ) + ( 1 − α ) f ( y ) − m α ( 1 − α ) ∣ ∣ x − y ∣ ∣ 2 f[\alpha x+(1-\alpha )y] \leq \alpha f(x) + (1 - \alpha)f(y) - m \alpha (1- \alpha)||x-y||^2 f[αx+(1α)y]αf(x)+(1α)f(y)mα(1α)xy2
对所有 x , y ∈ S x,y \in S x,yS以及所有 α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1]成立,则称 f f f S S S上的一致凸函数(强凸函数)。

凸函数的几何解释为:函数图像上的任意两点确定的弦在其图像上方,如图:
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ta o

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值