一、参考
《数值最优化算法与理论》
二、概述
1. 最优化问题模型
设函数f是定义在 R n R^n Rn上的实值函数。
其中 R n R^n Rn代表:n维实数集,即 ( x 1 , x 2 , . . . , x n ) ∈ R n (x_1,x_2, ... ,x_n) \in R^n (x1,x2,...,xn)∈Rn,每个元素是n维向量,向量中的每个分量是实数。
最优化问题的数学模型如下:
m
i
n
f
(
x
)
,
(
x
∈
D
⊆
R
n
)
min f(x), (x \in D \subseteq R^n)
minf(x),(x∈D⊆Rn)
或者:
m a x f ( x ) , ( x ∈ D ⊆ R n ) max f(x), (x \in D \subseteq R^n) maxf(x),(x∈D⊆Rn)
2. 数据拟合问题
k | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
x k x_k xk | 2 | 4 | 5 | 8 | 9 |
y k y_k yk | 2.01 | 2.98 | 3.50 | 5.02 | 5.47 |
将这些点画在直角坐标系中,大概可以看出( x k , y k x_k, y_k xk,yk)都在某一条直线的附近。
对这些点进行拟合,即确定a,b的值,使得点(
x
k
,
y
k
x_k, y_k
xk,yk)(k = 1, 2,···,5),通过或靠近上面的直线。因此我们求a, b,使得函数:
f
(
a
,
b
)
=
∑
i
=
1
5
∣
y
i
−
(
a
x
i
+
b
)
∣
f(a,b) = \sum_{i=1}^{5}{|y_i - (ax_i + b)|}
f(a,b)=i=1∑5∣yi−(axi+b)∣
或
f
(
a
,
b
)
=
∑
i
=
1
5
[
y
i
−
(
a
x
i
+
b
)
]
2
f(a,b) = \sum_{i=1}^{5}{[y_i - (ax_i + b)]^2}
f(a,b)=i=1∑5[yi−(axi+b)]2
达到最小值,即上面的数据拟合问题可通过如下的极小值问题来描述:
m
i
n
f
(
a
,
b
)
,
(
a
,
b
)
T
∈
R
2
min f(a,b), (a,b)^T \in R^2
minf(a,b),(a,b)T∈R2
数据拟合问题是一类无约束最优化问题。还有一类是约束最优化问题。
3. 局部最优解和全局最优解
① 设点
x
∗
∈
D
x^* \in D
x∗∈D, 若存在
x
∗
x^*
x∗的一个邻域
U
(
x
∗
)
U(x^*)
U(x∗),使得如下不等式成立:
f
(
x
∗
)
≤
f
(
x
)
,
(
∀
x
∈
D
∩
U
(
x
∗
)
)
f(x^*) \leq f(x), (\forall x \in D \cap U(x^*))
f(x∗)≤f(x),(∀x∈D∩U(x∗))
则称
x
∗
x^*
x∗是最优化问题的一个局部最优解
。若不等式严格成立,则称
x
∗
x^*
x∗是最优化问题的一个严格局部最优解。
② 若不等式:
f
(
x
∗
)
≤
f
(
x
)
,
(
∀
x
∈
D
)
f(x^*) \leq f(x), (\forall x \in D )
f(x∗)≤f(x),(∀x∈D)
成立,则称
x
∗
x^*
x∗是最优化问题的一个全局最优解
。若不等式严格成立,则称
x
∗
x^*
x∗是最优化问题的一个严格全局最优解。
4. 线性规划和二次规划
当目标函数f 和约束函数g 都是线性函数时,称为线性规划。
当目标函数f 是二次函数且约束函数g 是线性函数时,称为二次规划。
5. 多元函数的Taylor展开式
设
f
:
R
n
→
R
f : R^n \to R
f:Rn→R二次连续可微。我们用
∇
f
(
x
)
和
∇
2
f
(
x
)
\nabla f(x) 和\nabla^2f(x)
∇f(x)和∇2f(x)分别表示
f
f
f在
x
x
x处的梯度向量
和Hessian矩阵
。即:
∇
f
(
x
)
=
(
∂
f
(
x
)
∂
x
1
⋮
∂
f
(
x
)
∂
x
n
)
\nabla f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1}\\ \vdots\\ \frac{\partial f(x)}{\partial x_n} \end{pmatrix}
∇f(x)=⎝⎜⎜⎛∂x1∂f(x)⋮∂xn∂f(x)⎠⎟⎟⎞
∇
2
f
(
x
)
=
(
∂
f
(
x
)
∂
x
1
2
⋯
∂
f
(
x
)
∂
x
1
∂
x
n
⋮
⋱
⋮
∂
f
(
x
)
∂
x
n
∂
x
1
⋯
∂
f
(
x
)
∂
x
n
2
)
\nabla^2f(x) = \begin{pmatrix} \frac{\partial f(x)}{\partial x_1^2} & \cdots & \frac{\partial f(x)}{\partial x_1\partial x_n}\\ \vdots & \ddots & \vdots\\ \frac{\partial f(x)}{\partial x_n \partial x_1} & \cdots & \frac{\partial f(x)}{\partial x_n^2} \end{pmatrix}
∇2f(x)=⎝⎜⎜⎛∂x12∂f(x)⋮∂xn∂x1∂f(x)⋯⋱⋯∂x1∂xn∂f(x)⋮∂xn2∂f(x)⎠⎟⎟⎞
多元函数的一阶Taylor展开式
(一阶中值定理)如下:
f
(
x
)
=
f
(
y
)
+
∫
0
1
∇
f
[
y
+
τ
(
x
−
y
)
]
T
(
x
−
y
)
d
τ
=
f
(
y
)
+
∇
f
[
y
+
θ
(
x
−
y
)
]
T
(
x
−
y
)
=
f
(
y
)
+
∇
f
(
y
)
T
(
x
−
y
)
+
o
(
∣
∣
x
−
y
∣
∣
)
\begin{aligned} f(x) &= f(y)+ \int_0^1 \nabla f[y+\tau(x-y)]^T(x-y)d\tau \\ &=f(y)+\nabla f[y+ \theta (x-y)]^T(x-y) \\ &=f(y)+\nabla f(y)^T(x-y)+o(||x-y||) \end{aligned}
f(x)=f(y)+∫01∇f[y+τ(x−y)]T(x−y)dτ=f(y)+∇f[y+θ(x−y)]T(x−y)=f(y)+∇f(y)T(x−y)+o(∣∣x−y∣∣)
其中
θ
∈
(
0
,
1
)
\theta \in (0,1)
θ∈(0,1)。
多元函数的二阶Taylor展开式
(二阶中值定理)如下:
f
(
x
)
=
f
(
y
)
+
∇
f
(
y
)
T
(
x
−
y
)
+
1
2
(
x
−
y
)
T
∫
0
1
∇
2
f
[
y
+
τ
(
x
−
y
)
]
T
d
τ
(
x
−
y
)
=
f
(
y
)
+
∇
f
(
y
)
T
(
x
−
y
)
+
1
2
(
x
−
y
)
T
∇
2
f
[
y
+
θ
(
x
−
y
)
]
(
x
−
y
)
=
f
(
y
)
+
∇
f
(
y
)
T
(
x
−
y
)
+
1
2
(
x
−
y
)
T
∇
2
f
(
y
)
(
x
−
y
)
+
o
(
∣
∣
x
−
y
∣
∣
2
)
\begin{aligned} f(x) &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \int_0^1 \nabla^2 f[y+\tau(x-y)]^Td\tau (x-y) \\ &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \nabla^2 f[y+\theta (x-y)](x-y)\\ &= f(y)+ \nabla f(y)^T(x-y)+\frac 1 2 (x-y)^T \nabla^2f(y)(x-y)+o(||x-y||^2) \end{aligned}
f(x)=f(y)+∇f(y)T(x−y)+21(x−y)T∫01∇2f[y+τ(x−y)]Tdτ(x−y)=f(y)+∇f(y)T(x−y)+21(x−y)T∇2f[y+θ(x−y)](x−y)=f(y)+∇f(y)T(x−y)+21(x−y)T∇2f(y)(x−y)+o(∣∣x−y∣∣2)
其中
θ
∈
(
0
,
1
)
\theta \in (0,1)
θ∈(0,1)。
6. 向量值函数的Jacobi矩阵和中值定理
向量值函数有类似的中值定理,设
F
=
(
F
1
(
x
)
,
F
2
(
x
)
,
⋅
⋅
⋅
,
F
m
(
x
)
)
T
:
R
n
→
R
m
F=(F_1(x),F_2(x),···,F_m(x))^T:R^n \to R^m
F=(F1(x),F2(x),⋅⋅⋅,Fm(x))T:Rn→Rm 连续可微。
F
′
(
x
)
F'(x)
F′(x) 表示
F
F
F 在
x
x
x 处的Jacobi
矩阵,即:
F
′
(
x
)
=
(
∇
F
1
(
X
)
,
∇
F
2
(
X
)
,
⋅
⋅
⋅
,
∇
F
m
(
x
)
)
T
=
(
∂
F
1
(
x
)
∂
x
1
∂
F
1
(
x
)
∂
x
2
⋯
∂
F
1
(
x
)
∂
x
n
∂
F
2
(
x
)
∂
x
1
∂
F
2
(
x
)
∂
x
2
⋯
∂
F
2
(
x
)
∂
x
n
⋮
⋮
⋱
⋮
∂
F
m
(
x
)
∂
x
1
∂
F
m
(
x
)
∂
x
2
⋯
∂
F
m
(
x
)
∂
x
n
)
\begin{aligned} F'(x)&=(\nabla F_1(X), \nabla F_2(X),···,\nabla F_m(x))^T \\\\ &=\begin{pmatrix} \frac{\partial F_1(x)}{\partial x_1} & \frac{\partial F_1(x)}{\partial x_2} & \cdots & \frac{\partial F_1(x)}{\partial x_n}\\ \frac{\partial F_2(x)}{\partial x_1} & \frac{\partial F_2(x)}{\partial x_2} & \cdots & \frac{\partial F_2(x)}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial F_m(x)}{\partial x_1} & \frac{\partial F_m(x)}{\partial x_2} & \cdots & \frac{\partial F_m(x)}{\partial x_n} \end{pmatrix} \end{aligned}
F′(x)=(∇F1(X),∇F2(X),⋅⋅⋅,∇Fm(x))T=⎝⎜⎜⎜⎜⎛∂x1∂F1(x)∂x1∂F2(x)⋮∂x1∂Fm(x)∂x2∂F1(x)∂x2∂F2(x)⋮∂x2∂Fm(x)⋯⋯⋱⋯∂xn∂F1(x)∂xn∂F2(x)⋮∂xn∂Fm(x)⎠⎟⎟⎟⎟⎞
则有
F
(
x
)
=
F
(
y
)
+
∫
0
1
F
′
[
y
+
τ
(
x
−
y
)
]
d
τ
(
x
−
y
)
=
F
(
y
)
+
F
′
(
y
)
(
x
−
y
)
+
o
(
∣
∣
x
−
y
∣
∣
)
F(x)=F(y)+\int_0^1F'[y+\tau (x-y)]d\tau (x-y)=F(y)+F'(y)(x-y)+o(||x-y||)
F(x)=F(y)+∫01F′[y+τ(x−y)]dτ(x−y)=F(y)+F′(y)(x−y)+o(∣∣x−y∣∣)
7. 凸集
① 若集合
S
⊆
R
n
S \subseteq R^n
S⊆Rn 满足:
α
x
+
(
1
−
α
)
y
∈
S
,
∀
x
,
y
∈
S
,
∀
α
[
0
,
1
]
\alpha x+(1-\alpha )y \in S, \forall x,y \in S, \forall \alpha [0,1]
αx+(1−α)y∈S,∀x,y∈S,∀α[0,1]
则称
S
S
S 是
R
n
R^n
Rn 中的凸集
。
从几何角度,凸集 S S S可解释为:若 S S S包含点 x , y x,y x,y, 则它包含了 x 与 y x与y x与y的连线。如图:
② 设
S
⊆
R
n
S \subseteq R^n
S⊆Rn是闭凸集,
x
∈
S
x\in S
x∈S。若不存在两个不同的点
x
(
1
)
,
x
(
2
)
∈
S
x^{(1)},x^{(2)} \in S
x(1),x(2)∈S 以及数
α
∈
(
0
,
1
)
\alpha \in (0,1)
α∈(0,1), 使得
x
=
α
x
(
1
)
+
(
1
−
α
)
x
(
2
)
x=\alpha x^{(1)}+(1-\alpha )x^{(2)}
x=αx(1)+(1−α)x(2),则称
x
x
x是凸集
S
S
S的一个顶点
或极点
,即
x
∈
S
x \in S
x∈S是顶点的充要条件是
x
x
x不能表示为
S
S
S中两个不同点的凸组合。
凸集可以有无限个顶点。如单位圆:
S
=
{
x
∈
R
2
∣
∣
∣
x
∣
∣
≤
1
}
S=\{ x\in R^2 \;| \; ||x|| \leq 1\}
S={x∈R2∣∣∣x∣∣≤1}
的边界上的任意点都是顶点。
③ 设
S
⊆
R
2
S \subseteq R^2
S⊆R2是闭凸集,
d
∈
R
2
d \in R^2
d∈R2为非零向量。若对任意
x
∈
S
x \in S
x∈S,均有:
{
x
+
α
d
∣
α
≥
0
}
⊆
S
\{ x+ \alpha d \;| \; \alpha \geq0\} \subseteq S
{x+αd∣α≥0}⊆S
则称
d
d
d是
S
S
S的一个方向
。如
S
S
S的方向
d
d
d不能表示为
S
S
S的其它两个不同方向的正线性组合,则称它为
S
S
S的一个极方向
。由上面定义易知,有界集合没有方向。
例如,凸集:
S
=
{
x
∈
R
2
∣
x
1
−
4
x
2
≤
0
,
3
x
1
−
x
2
≥
0
}
S=\{x \in R^2 \; | \; x_1-4x_2 \leq 0,3x_1-x_2 \geq 0\}
S={x∈R2∣x1−4x2≤0,3x1−x2≥0}
有两个极方向
d
(
1
)
=
(
4
,
1
)
T
和
d
(
2
)
=
(
1
,
3
)
T
d^{(1)}=(4,1)^T \; 和 \; d^{(2)}=(1,3)^T
d(1)=(4,1)T和d(2)=(1,3)T
d
(
1
)
d^{(1)}
d(1) 和
d
(
1
)
d^{(1)}
d(1) 的任何非负线性组合都是
S
S
S的方向,如图:
8. 凸函数
设
S
⊆
R
n
S \subseteq R^n
S⊆Rn 是凸集。若函数
f
:
R
n
→
R
f : R^n \to R
f:Rn→R 满足:
f
[
α
x
+
(
1
−
α
)
y
]
≤
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
,
∀
x
,
y
∈
S
,
∀
α
∈
[
0
,
1
]
f[\alpha x+(1-\alpha )y] \leq \alpha f(x) + (1 - \alpha)f(y), \quad \forall x,y \in S, \forall \alpha \in [0,1]
f[αx+(1−α)y]≤αf(x)+(1−α)f(y),∀x,y∈S,∀α∈[0,1]
则称
f
f
f是
S
S
S上的凸函数
。若不等式严格不等式,则称
f
f
f是
S
S
S上的严格凸函数
。
若存在常数
m
>
0
m>0
m>0, 使得不等式
f
[
α
x
+
(
1
−
α
)
y
]
≤
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
−
m
α
(
1
−
α
)
∣
∣
x
−
y
∣
∣
2
f[\alpha x+(1-\alpha )y] \leq \alpha f(x) + (1 - \alpha)f(y) - m \alpha (1- \alpha)||x-y||^2
f[αx+(1−α)y]≤αf(x)+(1−α)f(y)−mα(1−α)∣∣x−y∣∣2
对所有
x
,
y
∈
S
x,y \in S
x,y∈S以及所有
α
∈
[
0
,
1
]
\alpha \in [0,1]
α∈[0,1]成立,则称
f
f
f是
S
S
S上的一致凸函数
(强凸函数)。
凸函数的几何解释为:函数图像上的任意两点确定的弦在其图像上方,如图: