Date: 2020/05/05
Editor:萧潇子(Jesse)
Contact: 1223167600@qq.com
3.保凸运算
本节给出一些典型的保凸运算,利用这些保凸运算,可以从凸集构造出其他凸集.这些运算与上一节中给出的凸集例子一起构成凸集的演算,可以用来确定或者构建集合的凸性.
3.1交集
若 S 1 , S 2 S_1,S_2 S1,S2为凸集,则 S 1 ⋂ S 2 S_1 \bigcap S_2 S1⋂S2为凸
若 S a S_a Sa为凸集, ∀ a ∈ A \forall a\in A ∀a∈A 则 ⋂ a ∈ A S a \mathop{\bigcap} \limits_{a\in A} S_a a∈A⋂Sa为凸集
3.2仿射函数
关于仿射变换解释可参考这篇博文https://blog.csdn.net/blogshinelee/article/details/90675178
f : R n → R m f:\:R^n \rightarrow R^m f:Rn→Rm是仿射的,当 f ( S ) = A X + b \color{red} f(S)=AX+b f(S)=AX+b, A ∈ R m × n A\in R^{m\times n} A∈Rm×n, b ∈ R m b\in R^m b∈Rm
若 S ∈ R n S\in R^n S∈Rn为凸集, f : R n → R m f:\:R^n \rightarrow R^m f:Rn→Rm仿射,则 f ( S ) = { f ( X ) ∣ X ∈ S } f(S)=\{f(X)|X\in S \} f(S)={f(X)∣X∈S}为凸集
n n n维空间中的凸集 S S S经过线性变换变成 m m m维空间中的凸集 f ( S ) f(S) f(S)
逆仿射映射
g : R k → R n g:\:R^k \rightarrow R^n g:Rk→Rn为仿射, g − 1 ( S ) = { X ∣ f ( X ) ∈ S } g^{-1}(S)=\{X|f(X) \in S\} g−1(S)={X∣f(X)∈S}
e.g.
缩放与移位是保持凸性的
缩放: α S = { α X ∣ X ∈ S } \alpha S=\{\alpha X|X\in S\} αS={αX∣X∈S}
移位: S + a = { X + a ∣ X ∈ S } S+a=\{X+a|X\in S\} S+a={X+a∣X∈S}
两个凸集的和是凸的:
S 1 + S 2 = { x + y ∣ x ∈ S 1 , y ∈ S 2 } S_1+S_2=\{x+y|x\in S_1, y\in S_2\} S1+S2={x+y∣x∈S1,y∈S2}
定义 S 1 × S 2 = { ( x , y ) ∣ x ∈ S 1 , y ∈ S 2 } S_1\times S_2=\{(x,y)|x\in S_1, y\in S_2\} S1×S2={(x,y)∣x∈S1,y∈S2} 凸
假定 x ∈ R , y ∈ R x\in R,y\in R x∈R,y∈R, 线性变换 f ( x , y ) = x + y f(x,y)=x+y f(x,y)=x+y,因此两个凸集的和还是凸集
线性矩阵不等式 LMT 解集也是凸集
B , A i , X i ∈ S m B,A_i,X_i\in S^m B,Ai,Xi∈Sm 对称矩阵
定义函数: A ( X ) = X 1 A 1 + ⋯ + X n A n ⪯ B A(X)=X_1A_1+\cdots+X_nA_n\preceq B A(X)=X1A1+⋯+XnAn⪯B 表示 ( A ( X ) − B ) ⪯ 0 (A(X)-B)\preceq 0 (A(X)−B)⪯0半负定矩阵
证明 { X ∣ A ( X ) ⪯ B } \{X|A(X)\preceq B\} {X∣A(X)⪯B}为凸 X X X由很多对称矩阵 X i X_i Xi构成
首先定义仿射变换 f ( X ) ≜ B − A ( X ) f(X) \triangleq B-A(X) f(X)≜B−A(X) ⇒ \Rightarrow ⇒ 由高维矩阵变换到低维矩阵空间
f ( X ) f(X) f(X)每个点是由多个矩阵$X_i 构 成 , 构成, 构成,B-A(X)$每个点是一个矩阵
f − 1 ( S + n ) = { X ∣ B − A ( X ) ⪰ 0 } f^{-1}(S_+^n)=\{X|B-A(X) \succeq 0\} f−1(S+n)={X∣B−A(X)⪰0}
S + n S_+^n S+n为凸,经过 f − 1 ( S + n ) f^{-1}(S_+^n) f−1(S+n)逆仿射映射 { X ∣ B − A ( X ) ⪰ 0 } \{X|B-A(X) \succeq 0\} {X∣B−A(X)⪰0}也为凸
由于 B − A ( X ) B-A(X) B−A(X)为凸, 也即 f ( X ) f(X) f(X)也是凸的, f ( X ) f(X) f(X)逆运算符合仿射运算,所以其解集 { X ∣ A ( X ) ⪯ B } \{X|A(X)\preceq B\} {X∣A(X)⪯B}为凸
椭球是球的仿射映射
ξ
(
x
c
,
P
)
=
{
x
∣
(
x
−
x
c
T
)
P
−
1
(
x
−
x
c
)
≤
1
}
x
c
∈
R
n
P
∈
S
+
+
n
(
对
称
正
定
矩
阵
几
何
)
\xi(x_c,P)=\{x\:| (x-x_c^T)P^{-1}(x-x_c) \:\le 1\} \qquad x_c\in R^n \quad P\in S_{++}^{n}(对称正定矩阵几何)
ξ(xc,P)={x∣(x−xcT)P−1(x−xc)≤1}xc∈RnP∈S++n(对称正定矩阵几何)
单位球 { u ∣ ∥ u ∥ 2 ≤ 1 } \{u\: |\parallel u \parallel _2 \le 1\} {u∣∥u∥2≤1}
仿射函数 f ( u ) = P 1 2 u + x c f(u)=P^{\frac{1}{2}} u+x_c f(u)=P21u+xc 其中 ( P 1 2 ) ( P 1 2 ) = P (P^{\frac{1}{2}})(P^{\frac{1}{2}})=P (P21)(P21)=P
{ f ( u ) ∣ ∥ u ∥ 2 ≤ 1 } = { P 1 2 u + x c ∣ ∥ u ∥ 2 ≤ 1 } \{f(u)\:|\parallel u \parallel _2 \le 1\}= \{P^{\frac{1}{2}} u+x_c\:|\parallel u \parallel _2 \le 1\} {f(u)∣∥u∥2≤1}={P21u+xc∣∥u∥2≤1} 定义 x = P 1 2 u + x c ⇔ u = P − 1 2 ( x − x c ) x=P^{\frac{1}{2}} u+x_c\Leftrightarrow u=P^{-\frac{1}{2}}(x-x_c) x=P21u+xc⇔u=P−21(x−xc)
⇒ \Rightarrow ⇒ { x ∣ ∥ P − 1 2 ( x − x c ) ∥ 2 ≤ 1 } \{x\: |\parallel P^{-\frac{1}{2}}(x-x_c) \parallel _2 \le 1\} {x∣∥P−21(x−xc)∥2≤1}
⇒ \Rightarrow ⇒ { x ∣ ( x − x c ) T P − 1 ( x − x c ) ≤ 1 } \{x\: |(x-x_c)^T P^{-1} (x-x_c) \le 1\} {x∣(x−xc)TP−1(x−xc)≤1}
3.3透视函数
P R n + 1 → R n P\quad R^{n+1} \rightarrow R^{n} PRn+1→Rn 定义域 :dom P = R n × R + + P=R^n \times R_{++} P=Rn×R++ 前n个元素可以在实空间里面任意取值,最后一个元素必须要是正数
定义: P ( Z , t ) = Z t Z ∈ R n t ∈ R + + P(Z,t)=\frac{Z}{t} \quad Z\in R^n \quad t\in R_{++} P(Z,t)=tZZ∈Rnt∈R++
二维情况下点 ( x 1 , x 2 ) (x_1,x_2) (x1,x2) 透过原点与直线 x 2 = − 1 x_2=-1 x2=−1 的交点 ( − x 1 x 2 , − 1 ) = ( − P ( x 1 , x 2 ) , − 1 ) (-\frac{x_1}{x_2},-1)=(-P(x_1,x_2),-1) (−x2x1,−1)=(−P(x1,x2),−1)
这里先给出几何意义的解释,可以使用简单的小孔成像原理去理解这个过程,投影的小孔为原点,成像平面为
x
2
=
−
1
x_2=-1
x2=−1,二维平面上的点经过投影变成一维直线上的点,如下图所示:
凸集经过透视函数也是凸集
考虑 R n + 1 R^{n+1} Rn+1内线段 x = ( x ~ ∈ R n , x n + 1 ∈ R + + ) x=(\mathop{\tilde{x}}\limits_{\in R^n},\mathop{x_{n+1}}\limits_{\in R_{++}}) x=(∈Rnx~,∈R++xn+1) y = ( y ~ ∈ R n , y n + 1 ∈ R + + ) y=(\mathop{\tilde{y}}\limits_{\in R^n},\mathop{y_{n+1}}\limits_{\in R_{++}}) y=(∈Rny~,∈R++yn+1)
1 ≥ θ ≥ 0 1 \ge\theta \ge 0 1≥θ≥0 线段为 θ x + ( 1 − θ ) y \theta x+(1-\theta)y θx+(1−θ)y
证明 线段 经过透视函数 还是线段
x → P P ( x ) x \mathop{\rightarrow} \limits^P P(x) x→PP(x) y → P P ( y ) y \mathop{\rightarrow} \limits^P P(y) y→PP(y)
θ
x
+
(
1
−
θ
)
y
→
P
P
(
θ
x
+
(
1
−
θ
)
y
)
\theta x+(1-\theta)y \mathop{\rightarrow} \limits^P P(\theta x+(1-\theta)y)
θx+(1−θ)y→PP(θx+(1−θ)y)
P
(
θ
x
+
(
1
−
θ
)
y
)
=
θ
x
~
+
(
1
−
θ
)
y
~
θ
x
n
+
(
1
−
θ
)
y
n
+
1
=
θ
x
n
+
1
θ
x
n
+
1
+
(
1
−
θ
)
y
n
+
1
x
~
x
n
+
1
+
(
1
−
θ
)
y
n
+
1
θ
x
n
+
1
+
(
1
−
θ
)
y
n
+
1
y
~
y
n
+
1
=
μ
P
(
x
)
+
(
1
−
μ
)
P
(
y
)
1
≥
μ
≥
0
\begin{aligned} P(\theta x+(1-\theta)y)& = \frac{\theta \tilde{x} + (1-\theta) \tilde{y}}{\theta x_n + (1-\theta)y_{n+1}}\\ &=\frac{\theta x_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}\frac{\tilde{x}}{x_{n+1}} + \frac{(1-\theta) y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}\frac{\tilde{y}}{y_{n+1}}\\ &=\mu P(x)+(1-\mu)P(y) \qquad 1 \ge\mu \ge 0 \end{aligned}
P(θx+(1−θ)y)=θxn+(1−θ)yn+1θx~+(1−θ)y~=θxn+1+(1−θ)yn+1θxn+1xn+1x~+θxn+1+(1−θ)yn+1(1−θ)yn+1yn+1y~=μP(x)+(1−μ)P(y)1≥μ≥0
θ
,
μ
\theta, \mu
θ,μ一一映射
任意凸集的反透视函数仍是凸集
P
−
1
(
C
)
=
{
(
x
,
t
)
∈
R
n
+
1
∣
x
t
∈
C
,
t
>
0
}
P^{-1}(C)=\{(x,t)\in R^{n+1}|\frac{x}{t} \in C, \quad t>0\}
P−1(C)={(x,t)∈Rn+1∣tx∈C,t>0}
考虑
(
x
,
t
)
∈
P
−
1
(
C
)
(x,t)\in P^{-1}(C)
(x,t)∈P−1(C)
(
y
,
s
)
∈
P
−
1
(
C
)
(y,s)\in P^{-1}(C)
(y,s)∈P−1(C)
0
≤
θ
≤
1
0\le \theta \le 1
0≤θ≤1
证明
(
θ
x
+
(
1
−
θ
)
y
,
θ
t
+
(
1
−
θ
)
s
)
∈
P
−
1
C
(\theta x+(1-\theta)y, \theta t+(1-\theta)s) \in P^{-1}C
(θx+(1−θ)y,θt+(1−θ)s)∈P−1C 也就是要证明 :
θ
x
+
(
1
−
θ
)
y
θ
t
+
(
1
−
θ
)
s
∈
C
\frac{\theta x+(1-\theta)y} {\theta t+(1-\theta)s} \in C
θt+(1−θ)sθx+(1−θ)y∈C
θ x + ( 1 − θ ) y θ t + ( 1 − θ ) s = θ t θ t + ( 1 − θ ) s x t + ( 1 − θ t θ t + ( 1 − θ ) s ) y s = μ x t ∈ C + ( 1 − μ ) y s ∈ C ⇒ ∈ C \begin{aligned} \frac{\theta x+(1-\theta)y} {\theta t+(1-\theta)s} &=\frac{\theta t}{\theta t+(1-\theta)s} \frac{x}{t} + (1-\frac{\theta t}{\theta t+(1-\theta)s})\frac{y}{s}\\ &=\mu \mathop{\frac{x}{t}}\limits_{\in C} + (1-\mu)\mathop{\frac{y}{s}}\limits_{\in C} \\ \Rightarrow \in C \end{aligned} θt+(1−θ)sθx+(1−θ)y⇒∈C=θt+(1−θ)sθttx+(1−θt+(1−θ)sθt)sy=μ∈Ctx+(1−μ)∈Csy
3.4 线性分数函数(转换后凸性质不变)
线性分式函数由透视函数和仿射函数复合而成
g:
R
n
→
R
m
+
1
R^n \rightarrow R^{m+1}
Rn→Rm+1为仿射映射
g
(
x
)
=
[
A
C
+
]
x
+
[
b
d
]
g(x)= \begin{bmatrix} A \\[0.3em] C^+ \end{bmatrix} x + \begin{bmatrix} b \\[0.3em] d \end{bmatrix}
g(x)=[AC+]x+[bd]
其中
A
∈
R
m
×
n
,
C
∈
R
n
,
b
∈
R
m
,
d
∈
R
A\in R^{m\times n},C\in R^{n}, b\in R^{m}, d\in R
A∈Rm×n,C∈Rn,b∈Rm,d∈R
P: R m + 1 → R m R^{m+1}\rightarrow R^m Rm+1→Rm 透视函数
f : R n → R m ≜ P ∘ g f:\quad R^n \rightarrow R^m \triangleq P\circ g f:Rn→Rm≜P∘g
线性分数函数:
f
(
x
)
=
A
x
+
b
C
T
x
+
d
d
o
m
f
=
{
x
∣
C
T
x
+
d
>
0
}
f(x)=\frac{Ax+b}{C^Tx+d}\quad domf=\{x|C^Tx+d>0\}
f(x)=CTx+dAx+bdomf={x∣CTx+d>0}
例: 两个随机变量的联合概率
→
\rightarrow
→ 条件概率
u u u v v v { 1 ⋯ n } \{1 \cdots n\} {1⋯n} { 1 ⋯ m } \{1 \cdots m\} {1⋯m}
联合概率 P i , j = P ( u = i , v = i ) P_{i,j}=P(u=i,v=i) Pi,j=P(u=i,v=i)
条件概率 f i j = P ( u = i ∣ v = j ) f_{ij}=P(u=i|v=j) fij=P(u=i∣v=j)
∵ f i j = P i j ∑ k = 1 n P k j → [ 0 ⋯ 1 ⋯ 0 ] → 点 乘 下 面 向 量 [ P 1 , j , ⋯ , P n , j ] → 向 量 相 加 分 子 分 母 满 足 线 性 变 换 \because f_{ij}=\frac{P_{ij}}{\sum^n_{k=1}P_{kj}} \rightarrow \frac{[0 \cdots 1\cdots 0]\rightarrow 点乘下面向量}{[P_{1,j},\cdots,P_{n,j}] \rightarrow 向量相加} \quad 分子分母满足线性变换 ∵fij=∑k=1nPkjPij→[P1,j,⋯,Pn,j]→向量相加[0⋯1⋯0]→点乘下面向量分子分母满足线性变换
从高维变成标量
3.5参考
1、Stephen Boyd 、Lieven Vandenberghe——《Convex Optimization》)
2、中科大凌青凸优化 (https://www.bilibili.com/video/BV1Jt411p7jE?)