凸集
仿射集合和凸集
直线与线段
y = θ x 1 + ( 1 − θ ) x 2 { θ ∈ [ 0 , 1 ] 线段 θ ∈ R , 直线 y=\theta x_1 +(1-\theta)x_2 \begin{cases} \theta \in [0,1] &\text{线段} \\ \theta \in R, &\text{直线} \end{cases} y=θx1+(1−θ)x2{θ∈[0,1]θ∈R,线段直线
仿射集合
集合
C
C
C中连接任意两点的直线仍然在
C
C
C中,则
C
C
C是一个仿射集,即
C
⊆
R
n
,
∀
x
1
,
x
2
∈
C
C \subseteq \pmb R^n,\forall x_1,x_2 \in C
C⊆Rn,∀x1,x2∈C,有
θ
x
1
+
(
1
−
θ
)
x
2
∈
C
,
θ
∈
R
\theta x_1 + (1-\theta )x_2 \in C,\theta \in R
θx1+(1−θ)x2∈C,θ∈R
- θ 1 x 1 + ⋯ + θ k x k , ∑ i = 1 k θ i = 1 \theta_1x_1+ \cdots + \theta_k x_k,\sum_{i=1}^k \theta_i=1 θ1x1+⋯+θkxk,∑i=1kθi=1称为 x 1 , ⋯ , x k x_1,\cdots,x_k x1,⋯,xk的仿射组合,仿射集合包含其中任意点的仿射组合
- 由集合
C
C
C中点的所有仿射组合组成的集合称为
C
C
C的仿射包
aff C = { θ 1 x 1 + ⋯ + θ k x k ∣ x i ∈ C , ∑ i = 1 k θ k = 1 } \text {aff} \ C = \{\theta_1x_1+ \cdots+\theta_kx_k \mid x_i \in C,\sum_{i=1}^k \theta_k=1\} aff C={θ1x1+⋯+θkxk∣xi∈C,i=1∑kθk=1}
仿射包是包含 C C C的最小的仿射组合。 - 仿射集合可以表示为它的一个子空间加上一个偏移。
例子
- 线性方程组的解集 C = { x ∣ A x = b } C=\{x\mid Ax=b\} C={x∣Ax=b}是一个仿射集合
仿射维数与相对内部
集合
C
C
C的仿射维数为其仿射包的维数。
集合
C
C
C的相对内部为
aff
C
\text{aff} \ C
aff C的内部,记为
relint
C
\text{relint} \ C
relint C
relint
C
=
{
x
∈
C
∣
B
(
x
,
r
)
∩
aff
C
⊆
C
,
r
>
0
}
\text{relint} \ C = \{x\in C \mid B(x,r) \cap \text{aff} \ C \subseteq C ,r>0 \}
relint C={x∈C∣B(x,r)∩aff C⊆C,r>0}
集合
C
C
C的相对边界为
cl
C
\
relint
C
\text{cl} \ C \backslash \text{relint} \ C
cl C\relint C,
cl
C
\text{cl} \ C
cl C为
C
C
C的闭包
凸集
如果集合
C
C
C中任意两点的线段仍然在
C
C
C中,则
C
C
C被称为凸集,即
∀
x
1
,
x
2
∈
C
\forall x_1,x_2 \in C
∀x1,x2∈C,有
θ
x
1
+
(
1
−
θ
)
x
2
∈
C
\theta x_1 + (1-\theta)x_2 \in C
θx1+(1−θ)x2∈C
- 点 θ 1 x 1 + ⋯ + θ k x k , ∑ i = 1 k θ i = 1 , θ i ≥ 0 \theta_1x_1+\cdots+\theta_kx_k,\sum_{i=1}^k \theta_i=1,\theta_i\geq0 θ1x1+⋯+θkxk,∑i=1kθi=1,θi≥0为点 x 1 , ⋯ , x k x_1,\cdots,x_k x1,⋯,xk的一个凸组合
- 一个集合是凸集等价于集合包含其中所有点的凸组合
- 集合
C
C
C中所有点的凸组合的集合被称为凸包,记为
conv
C
\text{conv} C
convC
conv C = { θ 1 x 1 + ⋯ + θ k x k ∣ x i ∈ C , θ i ≥ 0 , 1 T θ = 1 } \text{conv} \ C = \{\theta_1x_1+\cdots+\theta_kx_k \mid x_i \in C,\theta_i\geq0,\pmb 1^T \theta =1\} conv C={θ1x1+⋯+θkxk∣xi∈C,θi≥0,1Tθ=1}
凸包是包含集合 C C C的最小凸集
锥
∀
x
∈
C
,
θ
≥
0
\forall x\in C,\theta \geq0
∀x∈C,θ≥0,都有
θ
x
∈
C
\theta x \in C
θx∈C,则集合
C
C
C是锥或非负齐次。如果集合
C
C
C是锥,并且是凸的,则称
C
C
C为凸锥,即
∀
x
1
,
x
2
∈
C
,
θ
1
,
θ
2
≥
0
\forall x_1,x_2 \in C,\theta_1,\theta_2 \geq0
∀x1,x2∈C,θ1,θ2≥0,有
θ
1
x
1
+
θ
2
x
2
∈
C
\theta_1x_1+\theta_2x_2 \in C
θ1x1+θ2x2∈C
几何上是一个二维的扇形,以0为顶点。
- θ 1 x 1 + ⋯ + θ k x k , θ i ≥ 0 \theta_1x_1+\cdots+\theta_kx_k,\theta_i\geq0 θ1x1+⋯+θkxk,θi≥0称为 x 1 , ⋯ , x k x_1,\cdots,x_k x1,⋯,xk的锥组合
- 集合 C C C是凸锥的充要条件是它包含其元素的所有锥组合
- 集合C的锥包是C中元素的所有锥组合的集合,是包含C的最小的凸锥
重要例子
- 空集、任意一个点、全空间 R n \pmb R^n Rn都是 R n \pmb R^n Rn的仿射子集
- 任意直线是仿射的。如果直线过零点,则是子空间,也是凸锥
- 一条线段是凸的,但不是仿射的
- 一条射线是凸的,但不是仿射的,如果其起点为零点,则是凸锥
- 任意子空间是仿射的、凸锥
超平面与半空间
超平面是具有下面形式的集合
{
x
∣
a
T
x
=
b
}
\{x \mid a^Tx=b\}
{x∣aTx=b}
其中
a
∈
R
n
,
a
≠
0
,
b
∈
R
a\in\pmb R^n,a\neq 0,b\in R
a∈Rn,a=0,b∈R。
- 超平面是仿射集合
- 几何上代表了法线方向为
a
a
a,偏移为
b
b
b的超平面,可以表示成
{
x
∣
a
T
(
x
−
x
0
)
=
0
}
\{x\mid a^T(x-x_0)=0\}
{x∣aT(x−x0)=0}
一个超平面将 R n \pmb R^n Rn划分为两个半空间,半空间是具有下列形式的集合
{ x ∣ a T x ≤ b } \{x \mid a^Tx\leq b \} {x∣aTx≤b} - 半空间是凸的
- 几何上半空间由 x 0 x_0 x0加上任意与向量 a a a呈钝角的向量组成
Euclid球和椭球
R
n
\pmb R^n
Rn中的空间
E
u
c
l
i
d
Euclid
Euclid球具有下面的形式
B
(
x
c
,
r
)
=
{
x
∣
∥
x
−
x
c
∥
2
≤
r
}
=
{
x
∣
(
x
−
x
c
)
T
(
x
−
x
c
)
≤
r
2
}
B(x_c,r) = \{x\mid \parallel x- x_c \parallel_2 \leq r\} = \{x\mid (x-x_c)^T(x-x_c) \leq r^2\}
B(xc,r)={x∣∥x−xc∥2≤r}={x∣(x−xc)T(x−xc)≤r2}
E
u
c
l
i
d
Euclid
Euclid球表示为距离球心
x
c
x_c
xc不超过
r
r
r的所有点组成,也可以表示为
B
(
x
c
,
r
)
=
{
x
c
+
r
u
∣
∥
u
∥
2
≤
1
}
B(x_c,r) = \{x_c+ru \mid \parallel u \parallel_2 \leq1\}
B(xc,r)={xc+ru∣∥u∥2≤1}
相关的凸集椭球具有如下形式
ε
=
{
x
∣
(
x
−
x
c
)
T
P
−
1
(
x
−
x
c
)
≤
1
}
\varepsilon = \{x\mid (x-x_c)^T P^{-1}(x-x_c) \leq 1\}
ε={x∣(x−xc)TP−1(x−xc)≤1}
其中
P
=
P
T
≻
0
P=P^T \succ0
P=PT≻0,即
P
P
P是对称正定矩阵。
椭球的半轴长度由
λ
i
\sqrt{\lambda_i}
λi给出,它的另一个常用的表示形式是
ε
=
{
x
c
+
A
u
∣
∥
u
∥
2
≤
1
}
\varepsilon = \{x_c+Au \mid \parallel u \parallel_2 \leq 1\}
ε={xc+Au∣∥u∥2≤1}
其中
A
=
P
1
2
A = P^{\frac12}
A=P21
范数锥
范数锥是集合
C
=
{
(
x
,
t
)
∣
∥
x
∥
≤
t
}
⊆
R
n
+
1
C = \{(x,t) \mid \parallel x \parallel \leq t\} \subseteq\pmb R^{n+1}
C={(x,t)∣∥x∥≤t}⊆Rn+1
二阶锥是由
E
u
c
l
i
d
Euclid
Euclid范数定义的范数锥,也叫二次锥或
L
o
r
e
n
t
z
Lorentz
Lorentz锥或冰激凌锥。
C
=
{
(
x
,
t
)
∈
R
n
+
1
∣
∥
x
∥
2
≤
t
}
C=\{(x,t)\in R^{n+1} \mid \parallel x \parallel_2 \leq t\}
C={(x,t)∈Rn+1∣∥x∥2≤t}
多面体
多面体被定义为有限个线性等式和不等式的解集,
P
=
{
x
∣
a
j
T
x
≤
b
j
,
j
=
1
,
⋯
,
m
,
c
j
T
x
=
d
j
,
j
=
1
,
⋯
,
p
}
\mathcal P = \{x \mid a_j^Tx\leq b_j,j=1,\cdots,m,c_j^Tx = d_j,j=1,\cdots,p\}
P={x∣ajTx≤bj,j=1,⋯,m,cjTx=dj,j=1,⋯,p}
多面体是有限个半空间和超平面的交集。仿射集合都是多面体。也可以使用紧凑表达式表示
P
=
{
x
∣
A
x
⪯
b
,
C
x
=
d
}
\mathcal P = \{x \mid Ax \preceq b,Cx = d\}
P={x∣Ax⪯b,Cx=d}
单纯性
单纯性是一类重要的多面体。设
k
+
1
k+1
k+1个点
v
0
,
⋯
,
v
k
∈
R
n
v_0,\cdots,v_k\in R^n
v0,⋯,vk∈Rn仿射独立,即
v
1
−
v
0
,
⋯
,
v
k
−
v
0
v_1-v_0,\cdots,v_k-v_0
v1−v0,⋯,vk−v0线性独立,那么这些点决定了一个单纯性,
C
=
c
o
n
v
{
v
0
,
⋯
,
v
k
}
=
{
θ
0
v
0
+
⋯
+
θ
k
v
k
∣
θ
⪰
0
,
1
T
θ
=
1
}
C = conv \{v_0,\cdots,v_k\} = \{\theta_0v_0 + \cdots+\theta_kv_k\mid \theta \succeq 0,\pmb 1^T\theta=1\}
C=conv{v0,⋯,vk}={θ0v0+⋯+θkvk∣θ⪰0,1Tθ=1}
单纯形的仿射维数为
k
k
k,因此也成为
R
n
R^n
Rn空间的
k
k
k维单纯形
fixme多面体的凸包描述
半正定锥
S n = { X ∈ R n × n ∣ X = X T } S + n = { X ∈ S n ∣ X ⪰ 0 } S + + n = { X ∈ S n ∣ X ≻ 0 } \begin{aligned} &S^n = \{X \in R^{n \times n} \mid X = X^T\}\\ &S^n_+ = \{X \in S^{n} \mid X \succeq 0\}\\ &S^n_{++} = \{X \in S^{n} \mid X \succ 0\} \end{aligned} Sn={X∈Rn×n∣X=XT}S+n={X∈Sn∣X⪰0}S++n={X∈Sn∣X≻0}
保凸运算
交集
交集运算是保凸的
仿射函数
函数
f
:
R
n
→
R
m
f:R^n \rightarrow R^m
f:Rn→Rm是仿射的,如果它是一个线性函数和一个常数的和,即具有
f
(
x
)
=
A
x
+
b
f(x) = Ax+b
f(x)=Ax+b的形式,其中
A
∈
R
m
×
n
,
b
∈
R
m
A \in R^{m \times n},b\in R^m
A∈Rm×n,b∈Rm。假设
S
⊆
R
n
S \subseteq R^n
S⊆Rn是凸的,并且
f
:
R
n
→
R
m
f:R^n \rightarrow R^m
f:Rn→Rm是仿射函数。那么,
S
S
S在
f
f
f下的像
f
(
S
)
=
{
f
(
x
)
∣
x
∈
S
}
f(S) = \{f(x) \mid x \in S\}
f(S)={f(x)∣x∈S}
是凸的。类似的没如果
f
:
R
k
→
R
n
f:R^k \rightarrow R^n
f:Rk→Rn是仿射函数,那么
S
S
S在
f
f
f下的原象
f
−
1
(
S
)
=
{
x
∣
f
(
x
)
∈
S
}
f^{-1}(S)=\{x \mid f(x) \in S\}
f−1(S)={x∣f(x)∈S}
是凸的
EXAMPLE:
- 伸缩和平移: α S , S + a \alpha S,S+a αS,S+a
- 两个集合的和: S 1 + S 2 = { x + y ∣ x ∈ S 1 , y ∈ S 2 } S_1+S_2 = \{x+y \mid x\in S_1,y \in S_2\} S1+S2={x+y∣x∈S1,y∈S2}
- 两个集合的直积\Cartesian乘积: S 1 × S 2 = { ( x 1 , x 2 ) ∣ x 1 ∈ S 1 , x 2 ∈ S 2 } S_1 \times S_2 = \{(x_1,x_2) \mid x_1 \in S_1,x_2 \in S_2\} S1×S2={(x1,x2)∣x1∈S1,x2∈S2}
- 两个集合的部分和: S = { ( x , y 1 + y 2 ) ∣ ( x , y 1 ) ∈ S 1 , ( x , y 2 ) ∈ S 2 } S = \{(x,y_1+y_2) \mid (x,y_1)\in S_1,(x,y_2) \in S_2\} S={(x,y1+y2)∣(x,y1)∈S1,(x,y2)∈S2}
线性分式及透视函数
透视函数
定义 P : R n + 1 → R n , P ( z , t ) = z / t P:R^{n+1} \rightarrow R^n,P(z,t) = z/t P:Rn+1→Rn,P(z,t)=z/t为透视函数,其定义域为 dom P = R n × R + + \text{dom} \ P = R^n \times R_{++} dom P=Rn×R++。透视函数对向量进行伸缩,或称为规范化,使得最后一维分量为1并舍弃。透视函数是保凸的。
线性分式函数
线性分式函数由透视函数和仿射函数复合而成。设
g
:
R
n
→
R
m
+
1
g:R^n \rightarrow R^{m+1}
g:Rn→Rm+1是仿射的,即
g
(
x
)
=
[
A
c
T
]
x
+
[
b
d
]
g(x) = \begin{bmatrix} A \\ c^T \end{bmatrix} x + \begin{bmatrix} b \\d \end{bmatrix}
g(x)=[AcT]x+[bd]
其中
A
∈
R
m
×
n
,
b
∈
R
m
,
c
∈
R
n
A \in R^{m\times n},b\in R^m,c\in R^n
A∈Rm×n,b∈Rm,c∈Rn并且
d
∈
R
d\in R
d∈R。则由
f
=
P
∘
g
f = P \circ g
f=P∘g给出的函数
f
:
R
n
→
R
m
f:R^n \rightarrow R^m
f:Rn→Rm
f
(
x
)
=
(
A
x
+
b
)
/
(
c
T
x
+
d
)
,
dom
f
=
{
x
∣
c
T
x
+
d
>
0
}
f(x) = (Ax+b) / (c^Tx+d) ,\text{dom} \ f = \{x \mid c^Tx+d >0\}
f(x)=(Ax+b)/(cTx+d),dom f={x∣cTx+d>0}
称为线性分式函数(或投射函数)。
线性分式函数也是保凸的。
广义不等式
正常锥与广义不等式
如果锥 K ⊆ R n K \subseteq R^n K⊆Rn满足以下条件,则称它为正常锥。
- K K K是凸的
- K K K是闭的
- K K K是实的
-
K
K
K是尖的,不包含直线
正常锥可以用来定义广义不等式,即 R n R^n Rn上的偏序关系。
x ⪯ K y ⟺ y − x ∈ K x ≺ k y ⟺ y − x ∈ int K \begin{aligned} &x \preceq_K y \iff y-x \in K \\ &x \prec_k y \iff y-x \in \text{int} \ K \end{aligned} x⪯Ky⟺y−x∈Kx≺ky⟺y−x∈int K - 当 ⪯ , ≺ \preceq,\prec ⪯,≺出现在向量间时,应被理解为分量不等式, K = R + n K=R^n_+ K=R+n被省略
- 当
⪯
,
≺
\preceq,\prec
⪯,≺出现在对称矩阵间时,应被理解为半正定锥的广义不等式,
K
=
S
+
n
K=S^n_+
K=S+n被省略
广义不等式有如下性质 - 保序性
- 传递性
- 对于非负数乘保序
- 自反
- 反对称
- 对于极限运算保序
最小元与极小元
在广义不等式下,并不是所有元素都是可比的。
- 最小元
- ∀ y ∈ S , x ⪯ K y \forall y\in S,x\preceq_K y ∀y∈S,x⪯Ky
- S ⊆ x + K S \subseteq x+K S⊆x+K
- 极小元
- y ∈ S , y ⪯ K x ⇒ y = x y\in S,y\preceq_K x \Rightarrow y=x y∈S,y⪯Kx⇒y=x
- ( x − K ) ∩ S = x (x-K) \cap S = {x} (x−K)∩S=x
对偶锥与广义不等式
对偶锥
令
K
K
K为一个锥,集合
K
∗
=
{
y
∣
x
T
y
≥
0
,
∀
x
∈
K
}
K^* = \{y\mid x^Ty \geq 0,\forall x\in K\}
K∗={y∣xTy≥0,∀x∈K}
为
K
K
K的对偶锥。对偶锥总是凸的。
- K ∗ K^* K∗是闭凸锥
- K 1 ⊆ K 2 → K 2 ∗ ⊆ K 1 ∗ K_1 \subseteq K_2 \rightarrow K_2^* \subseteq K_1^* K1⊆K2→K2∗⊆K1∗
- 如果 K K K有非空内部,那么 K ∗ K^* K∗是尖的
- 如果 K K K的闭包是尖的,那么 K ∗ K^* K∗有非空内部
-
K
∗
∗
K^{**}
K∗∗是
K
K
K的凸包的闭包。(如果
K
K
K是凸和闭的,
K
∗
∗
=
K
K^{**}=K
K∗∗=K)
范数锥 K = { ( x , t ) ∈ R n + 1 ∣ ∥ x ∥ ≤ t } K=\{(x,t)\in R^{n+1} \mid \parallel x \parallel \leq t\} K={(x,t)∈Rn+1∣∥x∥≤t}的对偶锥由其对偶范数定义
K ∗ = { ( u , v ) ∈ R n + 1 ∣ ∥ u ∥ ≤ v } K^* = \{(u,v) \in R^{n+1} \mid \parallel u \parallel \leq v \} K∗={(u,v)∈Rn+1∣∥u∥≤v}
其中 ∥ u ∥ ∗ = s u p { u T x ∣ ∥ x ∥ ≤ 1 } \parallel u \parallel_* = sup\{u^Tx \mid \parallel x \parallel \leq 1\} ∥u∥∗=sup{uTx∣∥x∥≤1}。
广义不等式的对偶
凸锥 K K K是正常锥,广义不等式 ⪯ K ∗ \preceq_{K^*} ⪯K∗为广义不等式$\preceq_K $的对偶
- x ⪯ K y ⟺ ∀ λ ⪰ K ∗ 0 , λ T x ≤ λ T y x \preceq_K y \iff \forall \lambda \succeq_{K^*} 0,\lambda^Tx \leq \lambda^Ty x⪯Ky⟺∀λ⪰K∗0,λTx≤λTy
- x ≺ K y ⟺ ∀ λ ⪰ K ∗ 0 , λ ≠ 0 , λ T x < λ T y x \prec_K y \iff \forall \lambda \succeq{K^*} 0,\lambda \neq 0,\lambda^Tx < \lambda^Ty x≺Ky⟺∀λ⪰K∗0,λ=0,λTx<λTy
对偶不等式定义的最小元和极小元
- 最小元的对偶性质
x x x是 S S S上关于广义不等式 ⪯ K \preceq_K ⪯K的最小元 ⟺ ∀ λ ≻ K ∗ 0 \iff \forall \lambda \succ_{K^*} 0 ⟺∀λ≻K∗0, x x x是在 z ∈ S z\in S z∈S上极小化 λ T z \lambda^Tz λTz的唯一最优解。从集合上看,这意味着对于任意 λ ≻ K ∗ 0 \lambda \succ_{K^*} 0 λ≻K∗0,超平面
{ z ∣ λ T ( z − x ) = 0 } \{z\mid \lambda^T(z-x)=0\} {z∣λT(z−x)=0}
是在 x x x处对 S S S的一个严格支撑超平面。 - 极小元的对偶性质
∃ λ ≻ K ∗ 0 \exists \lambda \succ_{K^*} 0 ∃λ≻K∗0, x x x在 z ∈ S z\in S z∈S上极小化 λ T z \lambda^Tz λTz,那么 x x x是极小的
当凸性成立,其逆定理成立。
凸函数
基本性质
定义
函数
f
:
R
n
→
R
f:R^n \rightarrow R
f:Rn→R是凸的,如果
d
o
m
f
dom \ f
dom f是凸集,且对于任意
x
,
y
∈
d
o
m
f
x,y \in dom \ f
x,y∈dom f和任意
0
≤
θ
≤
1
0\leq \theta \leq 1
0≤θ≤1,有
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
f(\theta x+(1-\theta)y) \leq \theta f(x) + (1-\theta) f(y)
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
函数凸的充要条件为
∀
x
∈
d
o
m
f
,
∀
v
∈
R
n
,
g
(
t
)
=
f
(
x
+
t
v
)
is convex
\forall x \in dom \ f,\forall v \in R^n,g(t) = f(x+tv) \text{ is convex}
∀x∈dom f,∀v∈Rn,g(t)=f(x+tv) is convex
扩展值延伸
f ~ ( x ) = { f ( x ) x ∈ d o m f ∞ x ∉ d o m f \widetilde{f}(x) = \begin{cases} f(x) & x\in dom \ f \\ \infty & x \notin dom \ f \end{cases} f (x)={f(x)∞x∈dom fx∈/dom f
一阶条件
如果
f
f
f可微,
f
f
f是凸函数的充要条件是
d
o
m
f
is convex
dom \ f \text{ is convex}
dom f is convex,
∀
x
,
y
∈
d
o
m
f
\forall x,y\in dom \ f
∀x,y∈dom f,有
f
(
y
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
f(y) \geq f(x) + \nabla f(x)^T(y-x)
f(y)≥f(x)+∇f(x)T(y−x)
二阶条件
如果
f
f
f二阶可微,
f
f
f是凸函数的充要条件是
∀
x
∈
d
o
m
f
\forall x\in dom \ f
∀x∈dom f,有
∇
2
f
(
x
)
⪰
0
\nabla^2f(x) \succeq 0
∇2f(x)⪰0
下水平集
α
\alpha
α-下水平集
C
α
=
{
x
∈
d
o
m
f
∣
f
(
x
)
≤
α
}
C_\alpha = \{x \in dom \ f \mid f(x) \leq \alpha \}
Cα={x∈dom f∣f(x)≤α}
凸函数的下水平集仍然是凸集
上境图
epi
f
=
{
(
x
,
t
)
∣
x
∈
dom
f
,
f
(
x
)
≤
t
}
\text{epi }f = \{(x,t) \mid x\in \text{dom }f, f(x) \leq t\}
epi f={(x,t)∣x∈dom f,f(x)≤t}
一个函数是凸函数,充要条件是其上境图是凸集。
Jesen不等式及其变形
如果
f
(
x
)
f(x)
f(x)是凸函数,则
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
f(\theta x+(1-\theta)y) \leq \theta f(x) + (1-\theta)f(y)
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
对不同的凸函数应用Jesen不等式,可以得到很多不等式
保凸运算
-
非负加权求和: f = w 1 f 1 + ⋯ + w m f m f=w_1f_1+\cdots+w_mf_m f=w1f1+⋯+wmfm
-
复合仿射映射: g ( x ) = f ( A x + b ) g(x)= f(Ax+b) g(x)=f(Ax+b)
-
逐点最大: f ( x ) = max { f 1 ( x ) , ⋯ , f m ( x ) } f(x) = \max \{f_1(x),\cdots,f_m(x)\} f(x)=max{f1(x),⋯,fm(x)}
-
逐点上确界: g ( x ) = sup y ∈ A f ( x , y ) g(x)=\text{sup}_{y\in \mathcal A} f(x,y) g(x)=supy∈Af(x,y)
-
复合函数: f ( x ) = h ( g ( x ) ) f(x)=h(g(x)) f(x)=h(g(x))
f ′ ′ ( x ) = h ′ ′ ( g ( x ) ) g ′ ( x ) 2 + h ′ ( g ( x ) ) g ′ ′ ( x ) f^{\prime\prime}(x) = h^{\prime\prime}(g(x))g^\prime(x)^2 + h^\prime(g(x))g^{\prime\prime(x)} f′′(x)=h′′(g(x))g′(x)2+h′(g(x))g′′(x)- $\text{h is convex and } \widetilde h \text{ is not decrease, g is convex} $
- $\text{h is convex and } \widetilde h \text{ is not increase, g is convex} $
- $\text{h is convex and } \widetilde h \text{ is not increase, g is convex} $
- $\text{h is convex and } \widetilde h \text{ is not increase, g is convex} $
-
最小化: g ( x ) = i n f y ∈ C f ( x , y ) , ∃ x , g ( x ) > − ∞ g(x) = inf_{y \in \mathcal C}f(x,y),\exists x,g(x)> -\infty g(x)=infy∈Cf(x,y),∃x,g(x)>−∞
-
透视函数: g ( x , t ) = t f ( x / t ) g(x,t) = tf(x/t) g(x,t)=tf(x/t)
共轭函数
f ∗ ( y ) = sup x ∈ d o m f ( y T x − f ( x ) ) f^*(y) = \sup_{x \in dom f}(y^Tx-f(x)) f∗(y)=x∈domfsup(yTx−f(x))
使得上确界有限的所有 y y y组成了共轭函数的定义域。
无论原函数是否是凸函数,共轭函数永远是凸函数,它是一系列关于y的仿射函数的逐点上确界
基本性质
-
Fenchel不等式
f ( x ) + f ∗ ( y ) ≥ x T y f(x)+ f^*(y) \geq x^Ty f(x)+f∗(y)≥xTy -
如果 f f f是凸且闭的,共轭函数的共轭函数是原函数
-
如果 f f f可微, y T x − f ( x ) y^Tx-f(x) yTx−f(x)取最大值时有 y = ∇ f ( x ∗ ) y=\nabla f(x^*) y=∇f(x∗),令 y = ∇ f ( x ∗ ) y=\nabla f(x^*) y=∇f(x∗),则
f ∗ ( y ) = x ∗ T ∇ f ( x ∗ ) − f ( x ∗ ) f^*(y) = x^{*T}\nabla f(x^*) -f(x^*) f∗(y)=x∗T∇f(x∗)−f(x∗) -
伸缩变换
g ( x ) = a f ( x ) + b ⟺ g ∗ ( y ) = a f ∗ ( y / a ) − b g(x) = af(x)+b \iff g^*(y) = af^*(y/a)-b g(x)=af(x)+b⟺g∗(y)=af∗(y/a)−b -
复合仿射变换
g ( x ) = f ( A x + b ) ⟺ g ∗ ( y ) = f ∗ ( A − T y ) − b T A − 1 y g(x) = f(Ax+b) \iff g^*(y) = f^*(A^{-T}y)-b^TA^{-1}y g(x)=f(Ax+b)⟺g∗(y)=f∗(A−Ty)−bTA−1y -
独立函数的和
f ( u , v ) = f 1 ( u ) + f 2 ( v ) ⟺ f ∗ ( w , z ) = f 1 ∗ ( w ) + f 2 ∗ ( z ) , ( f 1 , f 2 is convex ) f(u,v) = f_1(u)+f_2(v) \iff f^*(w,z) = f_1^*(w)+f_2^*(z),\ \ \ \ \ \ \ \ \ \ \ \ (f_1,f_2 \text{ is convex}) f(u,v)=f1(u)+f2(v)⟺f∗(w,z)=f1∗(w)+f2∗(z), (f1,f2 is convex)