第一次课程-最优化理论基础
1.1 最优化问题的数学模型
几乎所有类型的最优化问题都可以用下面的数学模型来描述:
m
i
n
f
(
x
)
s
.
t
.
x
∈
K
min f\left(x\right)\\ s.t. x \in K
minf(x)s.t.x∈K
这里,K称为可行集或可行域,
f
(
x
)
f(x)
f(x)是定义在K上的目标函数,
x
x
x被称为决策变量。
按照可行集的性质对最优化问题进行分类:
- 线性规划和非线性规划:可行集是有限维空间中的一个子集;
- 组合优化或网络优化:可行集中元素是有限的;
- 动态规划:可行集是一个依赖时间的决策序列;
- 最优控制:可行集是无穷维空间的一个连续子集。
这里主要考虑非线性规划:
m
i
n
f
(
x
)
s
.
t
.
h
i
(
x
)
=
0
,
i
=
1...
l
g
i
(
x
)
≥
0
,
i
=
1...
m
min f\left(x\right)\\ s.t. h_{i}\left(x\right)=0,i=1...l\\ g_{i}\left(x\right)\geq0, i=1...m
minf(x)s.t.hi(x)=0,i=1...lgi(x)≥0,i=1...m
h
i
(
x
)
h_{i}(x)
hi(x)(等式约束)和
g
i
(
x
)
g_{i}(x)
gi(x)(不等式约束)被称为约束函数。通常把目标函数为二次函数,而约束函数为线性函数的优化问题称为二次规划;目标函数和约束函数均为线性函数的优化问题称为线性规划。
1.2 向量和矩阵范数
向量范数
向量 x x x的范数 ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣是一个非负数,它必须满足以下条件:
- ∣ ∣ x ∣ ∣ ≥ 0 , ∣ ∣ x ∣ ∣ = 0 ⇔ x = 0 ||x||\geq0,||x||=0\Leftrightarrow x=0 ∣∣x∣∣≥0,∣∣x∣∣=0⇔x=0;
- λ ∣ ∣ x ∣ ∣ = ∣ λ ∣ ∣ ∣ x ∣ ∣ , λ ∈ R \lambda ||x||=|\lambda|||x||,\lambda\in R λ∣∣x∣∣=∣λ∣∣∣x∣∣,λ∈R;
- ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq ||x||+||y|| ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
常用的向量范数有:
1-范数:
∣
∣
x
∣
∣
1
=
∑
i
=
1
n
∣
x
i
∣
||x||_{1}=\sum_{i=1}^n|x_i|
∣∣x∣∣1=∑i=1n∣xi∣;
2-范数:
∣
∣
x
∣
∣
2
=
(
∑
i
=
1
n
∣
x
i
∣
2
)
1
2
||x||_2=(\sum_{i=1}^n|x_i|^2)^\frac{1}{2}
∣∣x∣∣2=(∑i=1n∣xi∣2)21;
∞
\infty
∞-范数:
∣
∣
x
∣
∣
∞
=
m
a
x
1
≤
i
≤
n
∣
x
i
∣
||x||_{\infty} = max_{1\leq i\leq n}|x_i|
∣∣x∣∣∞=max1≤i≤n∣xi∣。
矩阵范数
矩阵 A A A的范数是一个非负实数,它除了要满足与与向量范数相似的三条性质外,还需要具备乘法法则:
- ∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ||AB||\leq {||A||}\quad{||B||} ∣∣AB∣∣≤∣∣A∣∣∣∣B∣∣
常用的矩阵范数有:
行和范数:
∣
∣
A
∣
∣
∞
=
m
a
x
1
≤
i
≤
n
∑
j
=
1
n
∣
a
i
j
∣
||A||_\infty = max_{1\leq i\leq n}\sum_{j=1}^n |a_{ij}|
∣∣A∣∣∞=max1≤i≤n∑j=1n∣aij∣;
列和范数:
∣
∣
A
∣
∣
1
=
m
a
x
1
≤
j
≤
n
∑
i
=
1
n
∣
a
i
j
∣
||A||_1 = max_{1\leq j \leq n}\sum_{i=1}^n |a_{ij}|
∣∣A∣∣1=max1≤j≤n∑i=1n∣aij∣;
谱范数:
∣
∣
A
∣
∣
2
=
m
a
x
{
λ
∣
λ
∈
λ
(
A
T
A
)
}
||A||_2 = max\left\{ \sqrt{ \lambda } | \lambda \in \lambda \left( A^T A\right)\right\}
∣∣A∣∣2=max{λ∣λ∈λ(ATA)}。
在讨论向量序列和矩阵序列的收敛性是,常用谱范数和下式定义的F-范数:
∣
∣
A
∣
∣
F
=
(
∑
i
=
1
n
∑
j
=
1
n
a
i
j
2
)
1
2
=
t
r
(
A
T
A
)
||A||_F = \left( \sum_{i=1}^n \sum_{j=1}^n a_{ij}^2 \right) ^ \frac{1}{2} = \sqrt{tr \left( A^T A \right)}
∣∣A∣∣F=(i=1∑nj=1∑naij2)21=tr(ATA)
向量序列和矩阵序列的收敛性
向量序列收敛性:
lim
k
→
∞
x
(
k
)
=
x
↔
lim
k
→
∞
x
i
(
k
)
=
x
i
i
=
1...
n
\lim_{k \rightarrow \infty} x^ {(k)} = x \leftrightarrow \lim_{ k \rightarrow \infty } x_i ^{(k)} = x_i \quad i=1...n
k→∞limx(k)=x↔k→∞limxi(k)=xii=1...n
用向量范数来描述:
lim
k
→
∞
x
(
k
)
=
x
⇔
lim
k
→
∞
∣
∣
x
(
k
)
−
x
∣
∣
=
0
\lim_{k \rightarrow \infty} x^{(k)}= x \Leftrightarrow \lim_{k \rightarrow \infty} ||x^{(k)} - x|| = 0
k→∞limx(k)=x⇔k→∞lim∣∣x(k)−x∣∣=0
类似的,矩阵序列收敛性:
lim
k
→
∞
A
(
k
)
=
A
⇔
lim
k
→
∞
a
i
j
(
k
)
=
a
i
j
i
=
1...
n
\lim_{k \rightarrow \infty} A^ {(k)} = A \Leftrightarrow \lim_{k \rightarrow \infty} a_{ij}^{( k )} = a_{ij} \quad i=1...n
k→∞limA(k)=A⇔k→∞limaij(k)=aiji=1...n
用矩阵范数来描述:
lim
k
→
∞
A
(
k
)
=
A
⇔
lim
k
→
∞
∣
∣
A
(
k
)
−
A
∣
∣
=
0
\lim_{k \rightarrow \infty} A^{(k)}= A \Leftrightarrow \lim_{k \rightarrow \infty} ||A^{(k)} - A|| = 0
k→∞limA(k)=A⇔k→∞lim∣∣A(k)−A∣∣=0
向量范数及矩阵范数的等价定理
-
对于两个向量范数 ∣ ∣ ⋅ ∣ ∣ || \cdot || ∣∣⋅∣∣和 ∣ ∣ ⋅ ∣ ∣ ′ || \cdot ||^ \prime ∣∣⋅∣∣′,存在两个正数 c 1 c_1 c1, c 2 c_2 c2,对于所有 x x x,下式恒成立:
c 1 ∣ ∣ x ∣ ∣ ≤ ∣ ∣ x ∣ ∣ ′ ≤ c 2 ∣ ∣ x ∣ ∣ c_1 ||x|| \leq ||x||^ \prime \leq c_2 ||x|| c1∣∣x∣∣≤∣∣x∣∣′≤c2∣∣x∣∣ -
对于两个矩阵范数 ∣ ∣ ⋅ ∣ ∣ || \cdot || ∣∣⋅∣∣和 ∣ ∣ ⋅ ∣ ∣ ′ || \cdot ||^ \prime ∣∣⋅∣∣′,存在两个正数 m 1 m_1 m1, m 2 m_2 m2,对于所有 A A A,下式恒成立:
m 1 ∣ ∣ A ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ′ ≤ m 2 ∣ ∣ A ∣ ∣ m_1 ||A|| \leq ||A||^ \prime \leq m_2 ||A|| m1∣∣A∣∣≤∣∣A∣∣′≤m2∣∣A∣∣
1.3多元函数的梯度、Hesse矩阵、Jcobi矩阵
设有n元实函数 f ( x ) f(x) f(x),其中自变量 x = ( x 1 , . . . , x n ) T x=(x_1,...,x_n)^T x=(x1,...,xn)T,则其梯度为: