凸优化(一)绪论与凸集
也可以前往 我的博客 查看原文
参考:
- Stanford《convex optimization》
- 中科大 凌青 凸优化
优化问题
优化问题:从一系列可行解集合中,寻找出最优的元素
优化问题的形式:
minimize f 0 ( x ) subject to f i ( x ) ≤ b i \begin{array}{ll} \text{ minimize } & f_{0}(x) \\ \text { subject to } & f_{i}(x) \leq b_i \end{array} minimize subject to f0(x)fi(x)≤bi
f 0 f_0 f0是目标函数( R n → R R^n \to R Rn→R)
优化问题在现实生活中各个领域都非常常见,深度学习中也是要使Loss最小,也是优化问题。
优化问题的分类
线性优化/非线性优化
(有时候也叫规划,和优化是一个意思)
目标函数由多个线性函数组合成,就是线性优化问题,否则就是非线性优化问题。
线性优化问题,最优解不是在顶点就是在整条边上
凸优化/非凸优化
凸优化:
minimize f 0 ( x ) subject to f i ( x ) ≤ 0 , i = 1 , … , m a i T x = b i , i = 1 , … , p \begin{array}{ll} \text{ minimize } & f_{0}(x) \\ \text { subject to } & f_{i}(x) \leq 0, \quad i=1, \ldots, m \\ & a_{i}^{T} x=b_{i}, \quad i=1, \ldots, p \end{array} minimize subject to f0(x)fi(x)≤0,i=1,…,maiTx=bi,i=1,…,p
优化问题里面,比较好求解的是凸优化问题,非凸优化问题难解决
光滑/非光滑
目标函数每个点都可微就是光滑的,否则是非光滑的
连续/离散
按照可行域连续或者离散分类
单目标/多目标
对多个目标进行优化
这门课只研究单目标连续光滑的凸优化问题
判断是否为凸问题的一个关键,就是看约束集合、目标函数是否是凸集。所以凸集是凸优化问题最基本的一个概念。
仿射集 Affine set
集合中任取两个点,形成的直线,如果整条线上的点也都在集合中,那么称该集合为仿射集
要求任意两点连成的直线在集合中,也就是说
x 1 , x 2 ∈ C , θ ∈ R → θ x 1 + ( 1 − θ ) x 2 ∈ C x_1, x_2 \in C, \theta\in R \to \theta x_1 + (1- \theta)x_2 \in C x1,x2∈C,θ∈R→θx1+(1−θ)x2∈C
仿射组合:不仅限两个点,而是多个点:
x
1
,
.
.
.
x
k
∈
C
,
θ
1
+
.
.
.
θ
k
=
1
→
θ
1
x
1
+
.
.
.
θ
k
x
k
∈
C
x_1,...x_k \in C , \theta_1 + ... \theta_k = 1 \to \theta_1 x_1 + ... \theta_k x_k \in C
x1,...xk∈C,θ1+...θk=1→θ1x1+...θkxk∈C
利用
(
θ
1
+
θ
2
)
(
θ
1
θ
1
+
θ
2
x
1
+
θ
2
θ
1
+
θ
2
x
2
)
+
(
1
−
θ
1
−
θ
2
)
x
3
∈
C
(\theta_1 + \theta_2)(\frac{\theta_1}{\theta_1 + \theta_2}x_1 + \frac{\theta_2}{\theta_1 + \theta_2}x_2) + (1-\theta_1 - \theta_2)x_3 \in C
(θ1+θ2)(θ1+θ2θ1x1+θ1+θ2θ2x2)+(1−θ1−θ2)x3∈C即可证明
任意线性方程组 A x = b Ax = b Ax=b的解集都是仿射集,任意仿射集都可以写成线性方程组的解集
假设该线性方程组有两个解 x 1 , x 2 x_1, x_2 x1,x2,则直线上的任意一点 θ x 1 + ( 1 − θ ) x 2 \theta x_1+(1-\theta)x_2 θx1+(1−θ)x2代入得 A ( θ x 1 + ( 1 − θ ) x 2 ) = b A(\theta x_1+(1-\theta)x_2) = b A(θx1+(1−θ)x2)=b,说明也是该线性方程组的解
仿射包:从非仿射集合中构造一个最小的仿射集
比如两个点的集合不是仿射集,构造一个经过它们的直线,就是仿射集了,这条直线就是仿射包。三个不同直线的点,它们的最小的仿射包就是经过它们的二维平面。如果本身就是仿射集,那么仿射包就是它自己。
凸集 convex set
凸集相比于仿射集条件放松,要求任意两点连成的线段在集合中。凸集的定义为:
x 1 , x 2 ∈ C , θ ∈ [ 0 , 1 ] → θ x 1 + ( 1 − θ 2 ) x 2 ∈ C x_1, x_2 \in C, \theta\in[0,1] \to \theta x_1 + (1- \theta_2)x_2 \in C x1,x2∈C,θ∈[0,1]→θx1+(1−θ2)x2∈C
仿射集必然是凸集,可以认为是一种特殊的凸集,凸集包含的更广。
凸组合:不仅限两个点,而是多个点:
x
1
,
.
.
.
x
k
∈
C
,
θ
1
+
.
.
.
θ
k
=
1
,
θ
i
∈
[
0
,
1
]
→
θ
1
x
1
+
.
.
.
θ
k
x
k
∈
C
x_1,...x_k \in C , \theta_1 + ... \theta_k = 1, \theta_i\in[0,1] \to \theta_1 x_1 + ... \theta_k x_k \in C
x1,...xk∈C,θ1+...θk=1,θi∈[0,1]→θ1x1+...θkxk∈C
凸包:包含集合S的最小凸集
下图2.2,只有左边的凸多边形是凸集。不过如果右图只少了角点,是凸集,少了边上或者内部的点就不是凸集了。
下图2.3是凸包,包括一组离散点的凸包,以及非凸形状的凸包。
典型凸集
凸锥 Convex cone
锥: ∀ x ∈ C , θ ≥ 0 , θ x ∈ C \forall x \in C, \theta \geq 0, \theta x \in C ∀x∈C,θ≥0,θx∈C(锥尖需要在原点)
凸锥: x 1 , x 2 ∈ C , θ 1 x 1 + θ 2 x 2 ∈ C , θ 1 > 0 , θ 2 > 0 x_1, x_2 \in C, \theta_1 x_1 + \theta_2 x_2 \in C, \theta_1 > 0, \theta_2 > 0 x1,x2∈C,θ1x1+θ2x2∈C,θ1>0,θ2>0
图形理解,任取两点 x 1 , x 2 x_1, x_2 x1,x2,如果 x 1 , x 2 , o x_1,x_2,o x1,x2,o不在一条直线上,那么在 x 1 o x 2 ⌢ \overset{\frown}{x_1 o x_2} x1ox2⌢的扇形区域内的所有的点都在凸锥集上
过原点的直线和原点发出的射线是凸锥
凸锥组合: x 1 , . . . x k ∈ C , θ 1 x 1 + . . . θ k x k ∈ C , θ 1 > 0 , . . . θ k > 0 x_1,... x_k \in C, \theta_1 x_1 + ... \theta_k x_k \in C, \theta_1 > 0, ... \theta_k > 0 x1,...xk∈C,θ1x1+...θkxk∈C,θ1>0,...θk>0
凸锥包:和前面一样,如下图所示
对比一下前面几种组合:
仿射组合:
θ
1
+
.
.
.
+
θ
k
=
1
\theta_1 + ... + \theta_k = 1
θ1+...+θk=1
凸组合:
θ
1
+
.
.
.
+
θ
k
=
1
,
θ
1
,
.
.
.
,
θ
k
>
0
\theta_1 + ... + \theta_k = 1, \theta_1, ... , \theta_k > 0
θ1+...+θk=1,θ1,...,θk>0
凸锥组合:
θ
1
,
.
.
.
,
θ
k
≥
0
\theta_1, ... , \theta_k \geq 0
θ1,...,θk≥0
超平面 Hyperplane
{ x ∣ a T x = b } \{x|a^T x = b\} {x∣aTx=b}
是仿射集,也是凸集,不一定凸锥(除非过原点)
半空间 Halfspace
{ x ∣ a T x ≤ b } \{ x|a^T x \leq b \} {x∣aTx≤b}
半空间是凸集,不是仿射集,不一定凸锥(除非过原点)
下图分别为超平面和半空间:
证明:
假设
x
1
,
x
2
x_1, x_2
x1,x2在空间上:
a
T
x
1
≤
b
a^T x_1 \leq b
aTx1≤b
a
T
x
2
≤
b
a^T x_2 \leq b
aTx2≤b
对于
x
1
,
x
2
x_1,x_2
x1,x2上的任意一点
θ
x
1
+
(
1
−
θ
)
x
2
\theta x_1 + (1-\theta) x_2
θx1+(1−θ)x2有:
a
T
(
θ
x
1
+
(
1
−
θ
)
x
2
)
=
θ
(
a
T
x
1
−
b
)
+
(
1
−
θ
)
(
a
T
x
2
−
b
)
+
b
≤
b
a^T(\theta x_1 + (1-\theta) x_2) = \theta (a^T x_1 -b) + (1-\theta) (a^T x_2 - b) +b \leq b
aT(θx1+(1−θ)x2)=θ(aTx1−b)+(1−θ)(aTx2−b)+b≤b,也在集合中,所以半空间是凸集
法线的反方向
空间球 Euclidean Ball
欧几里得球,就是一个空间球
B ( x c , r ) = { x ∣ ∥ x − x c ∥ 2 ≤ r } = { x ∣ ( x − x c ) T ( x − x c ) ≤ r 2 } B\left(x_{c}, r\right)=\left\{x \mid\left\|x-x_{c}\right\|_{2} \leq r\right\}=\left\{x \mid\left(x-x_{c}\right)^{T}\left(x-x_{c}\right) \leq r^{2}\right\} B(xc,r)={x∣∥x−xc∥2≤r}={x∣(x−xc)T(x−xc)≤r2}
证明:
假设
x
1
,
x
2
x_1, x_2
x1,x2在空间上:
∣
∣
x
1
−
x
c
∣
∣
2
≤
r
|| x_1 - x_c ||_2 \leq r
∣∣x1−xc∣∣2≤r
∣
∣
x
2
−
x
c
∣
∣
2
≤
r
|| x_2 - x_c ||_2 \leq r
∣∣x2−xc∣∣2≤r
对于
x
1
,
x
2
x_1,x_2
x1,x2上的任意一点$\theta x_1 + (1-\theta) x_2
,
(
其
中
,(其中
,(其中\theta \in [0,1]$),有:
∣
∣
θ
x
1
+
(
1
−
θ
)
x
2
−
x
c
∣
∣
r
=
∣
∣
θ
(
x
1
−
x
c
)
+
(
1
−
θ
)
(
x
2
−
x
c
)
∣
∣
≤
θ
∣
∣
x
1
−
x
c
∣
∣
2
+
(
1
−
θ
)
∣
∣
x
2
−
x
c
∣
∣
2
≤
r
|| \theta x_1 + (1-\theta) x_2 - x_c ||_r = || \theta (x_1 - x_c) + (1-\theta)(x_2 - x_c)||\newline \leq \theta ||x_1 - x_c||_2 + (1-\theta) ||x_2 - x_c||_2 \leq r
∣∣θx1+(1−θ)x2−xc∣∣r=∣∣θ(x1−xc)+(1−θ)(x2−xc)∣∣≤θ∣∣x1−xc∣∣2+(1−θ)∣∣x2−xc∣∣2≤r
这里用到了范数的三角不等式
范数性质
假设 x x x的范数是 f ( x ) f(x) f(x), f ( x ) ≥ 0 f(x)\geq 0 f(x)≥0,满足下面三条性质:
if f ( x ) = 0 → x = 0 \text{if}\ f(x)=0 \to x=0 if f(x)=0→x=0
k f ( x ) = ∣ k ∣ f ( x ) kf(x) = |k|f(x) kf(x)=∣k∣f(x)
f ( x + y ) ≤ f ( x ) + f ( y ) f(x+y) \leq f(x) + f(y) f(x+y)≤f(x)+f(y)(三角不等式)
椭球 Ellipsoids
E = { x ∣ ( x − x c ) T P − 1 ( x − x c ) ≤ 1 } \mathcal{E}=\left\{x \mid\left(x-x_{c}\right)^{T} P^{-1}\left(x-x_{c}\right) \leq 1\right\} E={x∣(x−xc)TP−1(x−xc)≤1}
矩阵P是一个n*n的对称正定矩阵
(特征值,奇异值)
多面体 Polyhedra
多面体:有限个线性等式和不等式的解集
多面体是有限个半空间和超平面的交集
P = { x ∣ a j T x ≤ b j , j = 1 , … , m , c j T x = d j , j = 1 , … , p } \mathcal{P}=\left\{x \mid a_{j}^{T} x \leq b_{j}, j=1, \ldots, m, c_{j}^{T} x=d_{j}, j=1, \ldots, p\right\} P={x∣ajTx≤bj,j=1,…,m,cjTx=dj,j=1,…,p}
范数球 Norm Ball & 范数锥 Norm Cone
范数:满足以下条件的函数 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣
1、 ∣ ∣ x ∣ ∣ ≥ 0 ||x||\geq 0 ∣∣x∣∣≥0, ∣ ∣ x ∣ ∣ = 0 ||x||=0 ∣∣x∣∣=0当且仅当 x = 0 x=0 x=0
2、 ∣ ∣ t x ∣ ∣ = t ∣ ∣ x ∣ ∣ ||tx|| = t||x|| ∣∣tx∣∣=t∣∣x∣∣,对于任何 t ∈ R t\in R t∈R成立
3、 ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y|| \leq ||x|| + ||y|| ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
C = { ( x , t ) ∣ ∥ x ∥ ≤ t } ⊆ R n + 1 C=\{(x, t) \mid\|x\| \leq t\} \subseteq \mathbf{R}^{n+1} C={(x,t)∣∥x∥≤t}⊆Rn+1
其他的例子
n*n的对称矩阵组成的集合,是凸锥,也是凸集
n*n的半正定矩阵组成的集合,是凸集
n*n的正定矩阵组成的集合不是凸集(取值只能>=0,不属于正定了)
线性矩阵不等式的解集也是凸集
保凸运算
如果要证明是凸集可以用定义法,不过复杂情况会很难证明。
另一种方法是证明集合是多个凸集的保凸运算的简单组合,保凸运算包括以下几个:
交集 Intersection
C 1 C_1 C1, C 2 C_2 C2是凸集,其交集 C = C 1 ∩ C 2 C = C_1 \cap C_2 C=C1∩C2也一定是凸集。
拓展到n个也是。
仿射函数 Affine
f f f是仿射变换: R n → R m \mathbf{R}^{n} \rightarrow \mathbf{R}^{m} Rn→Rm
如果有
S
∈
R
n
S \in R^n
S∈Rn是凸集,那么
f
(
S
)
=
{
f
(
x
)
∣
x
∈
S
}
f(S)=\{f(x) \mid x \in S\}
f(S)={f(x)∣x∈S}也是凸集,用定义证明即可。
逆函数
f
−
1
(
S
)
=
{
x
∣
f
(
x
)
∈
S
}
f^{-1}(S)=\{x \mid f(x) \in S\}
f−1(S)={x∣f(x)∈S}也是凸集。
透视函数 Perspective functions
透视函数 P : R n + 1 → R n P: \mathbf{R}^{n+1} \rightarrow \mathbf{R}^{n} P:Rn+1→Rn,相当于通过变换(所有元素除以最后一个元素)将最后一个维度的元素变为1,然后去掉这个维度的一种变换。降低一个维度。
P
(
X
,
t
)
=
X
/
t
,
d
o
m
P
=
(
X
,
t
)
,
t
>
0
P(\mathbf{X}, t) = \mathbf{X}/t, dom P = {(\mathbf{X}, t), t > 0}
P(X,t)=X/t,domP=(X,t),t>0
这里t是一个标量,X是矩阵,相当于P是dom(X)+1维度的,去掉最后一个维度t,X里的每一个元素除以t。
类比于针孔相机,3维的点 ( x 1 , x 2 , x 3 ) (x_1, x_2, x_3) (x1,x2,x3)会通过孔映射到二维的平面 − ( x 1 / x 3 , x 2 / x 3 , 1 ) -(x_1/x_3, x_2/x_3, 1) −(x1/x3,x2/x3,1)上,就是一个透视函数的过程。
任意凸集的反透视映射也是凸集
线性分段函数 Linear-fractional
一个Linear-fractional function是由perspective function和一个affine function组成的
g ( x ) = [ A c T ] x + [ b d ] g(x)=\left[\begin{array}{c}A \\ c^{T}\end{array}\right] x+\left[\begin{array}{l}b \\ d\end{array}\right] g(x)=[AcT]x+[bd]
超平面分离定理与支撑超平面
超平面分离定理
如果 C C C和 D D D是两个不相交的凸集,那么必然存在一个超平面 { x ∣ a T x = b } \{x|a^Tx = b\} {x∣aTx=b}能够分离 C C C和 D D D,这超平面被称为分割超平面
支撑超平面
集合C边界上的点 x 0 x_0 x0的支撑超平面: { x ∣ a T x = a T x 0 } \{x | a^Tx = a^T x_0\} {x∣aTx=aTx0}
其中 a ≠ 0 a \neq 0 a=0,对于所有的 x ∈ C x \in C x∈C满足 a T x ≤ a T x 0 a^Tx \leq a^T x_0 aTx≤aTx0
如果 C C C是凸的,那么C边界上的每一个点都存在一个支撑超平面。
一些例题
第一题
设 C ⊆ R n C \subseteq R^n C⊆Rn是一个凸集,证明对于任意 k k k的情况,满足 θ i ≥ 0 , θ 1 + . . . θ k = 1 \theta_i \geq 0, \theta_1 + ... \theta_k = 1 θi≥0,θ1+...θk=1的情况下,有 θ 1 x 1 + . . . + θ k x k ∈ C \theta_1 x_1 + ... + \theta_k x_k \in C θ1x1+...+θkxk∈C。
证明:使用数学归纳法,
k
=
2
k=2
k=2时,根据凸集的定义性质可知,任取
θ
1
,
θ
2
\theta_1, \theta_2
θ1,θ2,满足
θ
1
+
θ
2
=
1
\theta_1+\theta_2=1
θ1+θ2=1,有
θ
1
x
1
+
θ
2
x
2
∈
C
\theta_1 x_1 + \theta_2 x_2 \in C
θ1x1+θ2x2∈C
假设 k = n − 1 k=n-1 k=n−1时上式成立,即满足 θ 1 + . . . + θ n − 1 = 1 \theta_1+ ... +\theta_{n-1}=1 θ1+...+θn−1=1,有 θ 1 x 1 + . . . + θ n − 1 x n − 1 ∈ C \theta_1 x_1 + ... + \theta_{n-1} x_{n-1} \in C θ1x1+...+θn−1xn−1∈C
下面考虑 k = n k=n k=n的情况,构造下面的式子:
( ∑ i = 1 k − 1 θ i ) ∑ i = 1 k − 1 θ i x i ∑ i = 1 k − 1 θ i + ( 1 − ∑ i = 1 k − 1 θ i ) x i (\sum_{i=1}^{k-1} \theta_i) \frac{\sum_{i=1}^{k-1} \theta_i x_i}{\sum_{i=1}^{k-1}\theta_i} + (1-\sum_{i=1}^{k-1} \theta_i)x_i (i=1∑k−1θi)∑i=1k−1θi∑i=1k−1θixi+(1−i=1∑k−1θi)xi
其中
∑
i
=
1
k
−
1
θ
i
x
i
∑
i
=
1
k
−
1
θ
i
\frac{\sum_{i=1}^{k-1} \theta_i x_i}{\sum_{i=1}^{k-1}\theta_i}
∑i=1k−1θi∑i=1k−1θixi完全符合
n
−
1
n-1
n−1的条件,所以
∑
i
=
1
k
−
1
θ
i
x
i
∑
i
=
1
k
−
1
θ
i
∈
C
\frac{\sum_{i=1}^{k-1} \theta_i x_i}{\sum_{i=1}^{k-1}\theta_i} \in C
∑i=1k−1θi∑i=1k−1θixi∈C,整个式子又满足
k
=
2
k=2
k=2的凸集的定义,所以有:
(
∑
i
=
1
k
−
1
θ
i
)
∑
i
=
1
k
−
1
θ
i
x
i
∑
i
=
1
k
−
1
θ
i
+
(
1
−
∑
i
=
1
k
−
1
θ
i
)
x
i
∈
C
(\sum_{i=1}^{k-1} \theta_i) \frac{\sum_{i=1}^{k-1} \theta_i x_i}{\sum_{i=1}^{k-1}\theta_i} + (1-\sum_{i=1}^{k-1} \theta_i)x_i \in C
(i=1∑k−1θi)∑i=1k−1θi∑i=1k−1θixi+(1−i=1∑k−1θi)xi∈C
即证明了只要 k = n − 1 k=n-1 k=n−1时成立,就有 k = n k=n k=n时成立,数学归纳法得证
第二题
判断下面的哪些集合是凸集
(a)平板,形如 { x ∈ R n ∣ α ⩽ a T x ⩽ β } \left\{x \in \mathbf{R}^{n} \mid \alpha \leqslant a^{T} x \leqslant \beta\right\} {x∈Rn∣α⩽aTx⩽β}
(b)矩形,形如 { x ∈ R n ∣ α i ⩽ x i ⩽ β i , i = 1 , . . . , n } \left\{x \in \mathbf{R}^{n} \mid \alpha_i \leqslant x_i \leqslant \beta_i\ , i = 1, ..., n \right\} {x∈Rn∣αi⩽xi⩽βi ,i=1,...,n}
(c)楔形,形如 { x ∈ R n ∣ α 1 T x ⩽ b 1 , α 2 T x ⩽ b 2 , i = 1 , . . . , n } \left\{x \in \mathbf{R}^{n} \mid \alpha_1^T x \leqslant b_1 , \alpha_2^T x \leqslant b_2, i = 1, ..., n \right\} {x∈Rn∣α1Tx⩽b1,α2Tx⩽b2,i=1,...,n}
(d)距离给定点比距离给定集合近的点构成的集合: { x ∣ ∥ x − x 0 ∥ 2 ⩽ ∥ x − y ∥ 2 , ∀ y ∈ S } \left\{x \mid\left\|x-x_{0}\right\|_{2} \leqslant\|x-y\|_{2}, \forall y \in S\right\} {x∣∥x−x0∥2⩽∥x−y∥2,∀y∈S}
(e)距离一个集合比另一个集合更近的点的集合: { x ∣ dist ( x , S ) ⩽ dist ( x , T ) } \{x \mid \operatorname{dist}(x, S) \leqslant \operatorname{dist}(x, T)\} {x∣dist(x,S)⩽dist(x,T)}
(f)集合 { x ∣ x + S 2 ⊆ S 1 } \{x \mid x + S_2 \subseteq S_1 \} {x∣x+S2⊆S1},其中 S 1 , S 2 ⊆ R n S_1, S_2 \subseteq R^n S1,S2⊆Rn,并且 S 1 S_1 S1是凸集
(g)到 a a a 的距离与到 b b b 的距离之比不超过到某一固定分数 θ \theta θ的点的集合,即集合 { x ∣ ∥ x − a ∥ 2 ⩽ θ ∥ x − b ∥ 2 } \left\{x \mid\left\|x-a\right\|_{2} \leqslant \theta \|x-b\|_{2}\right\} {x∣∥x−a∥2⩽θ∥x−b∥2}
(a)
- 用定义证明:
任取 x 1 , x 2 ∈ C x_1, x_2 \in C x1,x2∈C,有 α ⩽ a T x 1 ⩽ β , α ⩽ a T x 2 ⩽ β \alpha \leqslant a^{T} x_1 \leqslant \beta, \alpha \leqslant a^{T} x_2 \leqslant \beta α⩽aTx1⩽β,α⩽aTx2⩽β
对于
θ
∈
[
0
,
1
]
\theta \in [0, 1]
θ∈[0,1],对于$ (\theta x_1 + (1-\theta) x_2)$,有:
α
=
θ
α
+
(
1
−
θ
)
α
≤
α
T
(
θ
x
1
+
(
1
−
θ
)
x
2
)
≤
θ
β
+
(
1
−
θ
)
β
=
β
\alpha = \theta \alpha + (1-\theta) \alpha \leq \alpha^T (\theta x_1 + (1-\theta) x_2) \leq \theta \beta + (1-\theta) \beta = \beta
α=θα+(1−θ)α≤αT(θx1+(1−θ)x2)≤θβ+(1−θ)β=β
即 ( θ x 1 + ( 1 − θ ) x 2 ) ∈ C (\theta x_1 + (1-\theta) x_2) \in C (θx1+(1−θ)x2)∈C,是凸集
- 用保凸性证明:
因为平板是两个半空间的交集,半空间是凸集,交集是保凸运算,所以平板也是凸集
(b)
- 用定义证明:
任取 x 1 , x 2 ∈ C x_1, x_2 \in C x1,x2∈C,有 α i ⩽ x 1 ⩽ β i , α i ⩽ x 2 ⩽ β i \alpha_i \leqslant x_1 \leqslant \beta_i, \alpha_i \leqslant x_2 \leqslant \beta_i αi⩽x1⩽βi,αi⩽x2⩽βi
对于
θ
∈
[
0
,
1
]
\theta \in [0, 1]
θ∈[0,1],对于$ (\theta x_1 + (1-\theta) x_2)$,有:
α
i
≤
(
θ
x
1
+
(
1
−
θ
)
x
2
)
≤
β
i
\alpha_i \leq (\theta x_1 + (1-\theta) x_2) \leq \beta_i
αi≤(θx1+(1−θ)x2)≤βi
即 ( θ x 1 + ( 1 − θ ) x 2 ) ∈ C (\theta x_1 + (1-\theta) x_2) \in C (θx1+(1−θ)x2)∈C,是凸集
- 用保凸性证明:
矩形是多个半空间的交集,半空间是凸集,交集是保凸运算,所以矩形也是凸集
(c)
- 用定义证明:
任取 x 1 , x 2 ∈ C x_1, x_2 \in C x1,x2∈C,有 a 1 T x 1 ⩽ b 1 , a 2 T x 1 ⩽ b 2 a_1^{T} x_1 \leqslant b_1, a_2^{T} x_1 \leqslant b_2 a1Tx1⩽b1,a2Tx1⩽b2、 a 1 T x 2 ⩽ b 1 , a 2 T x 2 ⩽ b 2 a_1^{T} x_2 \leqslant b_1, a_2^{T} x_2 \leqslant b_2 a1Tx2⩽b1,a2Tx2⩽b2
对于
θ
∈
[
0
,
1
]
\theta \in [0, 1]
θ∈[0,1],对于$ (\theta x_1 + (1-\theta) x_2)$,有:
a
1
T
(
θ
x
1
+
(
1
−
θ
)
x
2
)
≤
θ
b
1
+
(
1
−
θ
)
b
1
=
b
1
a
2
T
(
θ
x
1
+
(
1
−
θ
)
x
2
)
≤
θ
b
2
+
(
1
−
θ
)
b
2
=
b
2
a_1^T (\theta x_1 + (1-\theta) x_2) \leq \theta b_1 + (1-\theta) b_1 = b_1\newline a_2^T (\theta x_1 + (1-\theta) x_2) \leq \theta b_2 + (1-\theta) b_2 = b_2
a1T(θx1+(1−θ)x2)≤θb1+(1−θ)b1=b1a2T(θx1+(1−θ)x2)≤θb2+(1−θ)b2=b2
- 用保凸性证明:
楔形是多个半空间的交集,半空间是凸集,交集是保凸运算,所以楔形也是凸集
(d)
对于固定的
y
y
y而言,有:
∣
∣
x
−
x
0
∣
∣
2
⩽
∣
∣
x
−
y
∣
∣
2
⇔
(
x
−
x
0
)
T
(
x
−
x
0
)
⩽
(
x
−
y
)
T
(
x
−
y
)
⇔
x
T
x
−
2
x
0
T
x
+
x
0
T
x
0
⩽
x
T
x
−
2
y
T
x
+
y
T
y
⇔
2
(
y
T
−
x
0
T
)
x
⩽
y
T
y
−
x
0
T
x
0
\begin{array}{ll} &||x-x_{0}||_{2} \leqslant ||x-y||_{2}\\ \Leftrightarrow & (x-x_{0})^T(x-x_{0}) \leqslant (x-y)^T (x-y)\\ \Leftrightarrow & x^T x - 2x_0^T x + x_0^T x_0 \leqslant x^T x - 2y^T x + y^T y\\ \Leftrightarrow & 2(y^T - x_0^T)x \leqslant y^T y - x_0^T x_0 \\ \end{array}
⇔⇔⇔∣∣x−x0∣∣2⩽∣∣x−y∣∣2(x−x0)T(x−x0)⩽(x−y)T(x−y)xTx−2x0Tx+x0Tx0⩽xTx−2yTx+yTy2(yT−x0T)x⩽yTy−x0Tx0
说明该集合是多个半空间的交集,交集为保凸运算,所以该集合为凸集
(e)
不是凸集,可以举反例,比如
S
=
{
(
x
,
y
)
∣
x
2
+
y
2
=
1
}
S = \{(x, y)|x^2 + y^2 = 1\}
S={(x,y)∣x2+y2=1},
T
=
{
(
0
,
0
)
}
T = \{(0, 0)\}
T={(0,0)},那么这个集合就是
R
2
R^2
R2平面挖空一个圆心在原点,半径为
1
2
\frac{1}{2}
21的孔,比如集合上取
(
0
,
1
)
,
(
0
,
−
1
)
(0, 1),(0, -1)
(0,1),(0,−1)两点,取
θ
=
0.5
\theta=0.5
θ=0.5,
(
0
,
0
)
(0,0)
(0,0)不在这个集合内,很显然它不是凸集。
(f)
令
y
∈
S
2
y \in S_2
y∈S2,集合相当于是多个凸集
(
S
1
−
y
)
(S_1 - y)
(S1−y)的交集,交集为保凸运算,所以也是凸集。
(g)
是凸集
∣
∣
x
−
a
∣
∣
2
⩽
θ
∣
∣
x
−
b
∣
∣
2
⇔
(
1
−
θ
2
)
x
T
x
−
2
(
a
−
θ
2
b
)
T
x
+
(
a
T
a
−
θ
2
b
T
b
)
≤
0
\begin{array}{ll} & ||x-a||_{2} \leqslant \theta||x-b||_{2}\\ \Leftrightarrow & (1-\theta^2)x^Tx - 2 (a-\theta^2b)^Tx + (a^Ta - \theta^2b^Tb) \leq 0 \end{array}
⇔∣∣x−a∣∣2⩽θ∣∣x−b∣∣2(1−θ2)xTx−2(a−θ2b)Tx+(aTa−θ2bTb)≤0
如果
θ
≤
1
\theta \leq 1
θ≤1,集合是一个球
如果
θ
=
1
\theta = 1
θ=1,集合是半空间
都是凸集
第三题
一些概率分布集合,令 x x x为服从分布 prob ( x = a i ) = p 1 , i = 1 , . . . , n \textbf{prob}(x=a_i) = p_1, i = 1, ... ,n prob(x=ai)=p1,i=1,...,n 的实数随机变量, p ∈ R n p \in R^n p∈Rn在一个标准概率单纯形 P = { p ∣ 1 T p = 1 , p ⪰ 0 } P=\left\{p \mid \mathbf{1}^{T} p=1, p \succeq 0\right\} P={p∣1Tp=1,p⪰0},下面哪些条件在 p p p中是凸的?
(a) α ⩽ E f ( x ) ⩽ β \alpha \leqslant \textbf{E} f(x) \leqslant \beta α⩽Ef(x)⩽β
(b) prob ( x > α ) ⩽ β \textbf{prob}(x>\alpha) \leqslant \beta prob(x>α)⩽β
(c) E ∣ x 3 ∣ ⩽ α E ∣ x ∣ \textbf{E} |x^3| \leqslant \alpha \textbf{E} |x| E∣x3∣⩽αE∣x∣
(d) E x 2 ⩽ α \textbf{E} x^2 \leqslant \alpha Ex2⩽α
(e) E x 2 ⩾ α \textbf{E} x^2 \geqslant \alpha Ex2⩾α
(f) var ( x ) ⩽ α \textbf{var} (x) \leqslant \alpha var(x)⩽α
(g) var ( x ) ⩾ α \textbf{var} (x) \geqslant \alpha var(x)⩾α
(h) quartile ( x ) ⩾ α \textbf{quartile} (x) \geqslant \alpha quartile(x)⩾α, quartile ( x ) = inf { β ∣ prob ( x ⩽ β ) ⩾ 0.25 } \textbf{quartile} (x) = \text{inf} \{ \beta | \textbf{prob}(x\leqslant \beta) \geqslant 0.25\} quartile(x)=inf{β∣prob(x⩽β)⩾0.25}
(i) quartile ( x ) ⩽ α \textbf{quartile} (x) \leqslant \alpha quartile(x)⩽α
p p p的约束: p i ≥ 0 p_i \geq 0 pi≥0是n个半空间,约束 ∑ i = 1 n = 1 \sum_{i=1}^n = 1 ∑i=1n=1是超平面,也就是说 p p p是一个多面体,本身为凸集。
(a)
α
≤
∑
i
=
1
n
p
i
f
(
a
i
)
≤
β
\alpha \leq \sum_{i=1}^n p_i f(a_i) \leq \beta
α≤∑i=1npif(ai)≤β
增加线性不等式约束,仍为凸集
(b)
prob
(
x
≥
α
)
=
∑
i
,
a
i
≥
α
p
i
≤
β
\textbf{prob}(x\geq \alpha) = \sum_{i, a_i \geq \alpha}p_i \leq \beta
prob(x≥α)=∑i,ai≥αpi≤β
增加线性不等式约束,仍为凸集
(c)
E
∣
x
3
∣
≤
α
E
∣
x
∣
→
∑
i
=
1
n
p
i
(
∣
a
i
3
∣
−
α
∣
a
i
∣
)
≤
0
\mathbf{E}\left|x^{3}\right| \leq \alpha \mathbf{E}|x| \to \sum_{i=1}^{n} p_{i}\left(\left|a_{i}^{3}\right|-\alpha\left|a_{i}\right|\right) \leq 0
E∣∣x3∣∣≤αE∣x∣→∑i=1npi(∣∣ai3∣∣−α∣ai∣)≤0
增加线性不等式约束,仍为凸集
(d)
∑
i
=
1
n
p
i
a
i
2
≤
α
\sum_{i=1}^{n} p_{i} a_{i}^{2} \leq \alpha
∑i=1npiai2≤α
增加线性不等式约束,仍为凸集
(e)
∑
i
=
1
n
p
i
a
i
2
≥
α
\sum_{i=1}^{n} p_{i} a_{i}^{2} \geq \alpha
∑i=1npiai2≥α
增加线性不等式约束,仍为凸集
(f)
var
(
x
)
=
E
x
2
−
(
E
x
)
2
=
∑
i
=
1
n
p
i
a
i
2
−
(
∑
i
=
1
n
p
i
a
i
)
2
≤
α
\textbf{var}(x)=\mathbf{E} x^{2}-(\mathbf{E} x)^{2}=\sum_{i=1}^{n} p_{i} a_{i}^{2}-\left(\sum_{i=1}^{n} p_{i} a_{i}\right)^{2} \leq \alpha
var(x)=Ex2−(Ex)2=∑i=1npiai2−(∑i=1npiai)2≤α
不是凸集。举反例,比如
a
1
=
0
,
a
2
=
1
,
α
=
0.2
a_1 = 0, a_2 = 1, \alpha = 0.2
a1=0,a2=1,α=0.2,两个点
p
1
=
(
0
,
1
)
,
p
2
=
(
1
,
0
)
p_1 = (0, 1), p_2 = (1,0)
p1=(0,1),p2=(1,0),有
var
(
x
)
≤
α
\textbf{var}(x) \leq \alpha
var(x)≤α,但是中间的点
(
1
2
,
1
2
)
(\frac{1}{2}, \frac{1}{2})
(21,21)明显不满足。
(g)
var
(
x
)
=
E
x
2
−
(
E
x
)
2
=
∑
i
=
1
n
p
i
a
i
2
−
(
∑
i
=
1
n
p
i
a
i
)
2
=
b
T
p
+
p
T
A
p
≥
α
\textbf{var}(x)=\mathbf{E} x^{2}-(\mathbf{E} x)^{2}=\sum_{i=1}^{n} p_{i} a_{i}^{2}-\left(\sum_{i=1}^{n} p_{i} a_{i}\right)^{2} = b^T p + p^T A p \geq \alpha
var(x)=Ex2−(Ex)2=∑i=1npiai2−(∑i=1npiai)2=bTp+pTAp≥α
因为
A
=
a
a
T
A = a a^T
A=aaT是半正定的,所以是凸集
(h)
prob
(
x
≤
a
k
)
=
∑
i
=
1
k
p
i
<
0.25
\textbf{prob}\left(x \leq a_{k}\right)=\sum_{i=1}^{k} p_{i}<0.25
prob(x≤ak)=∑i=1kpi<0.25
是一个半空间,是凸集。
(i)
∑
i
=
k
+
1
n
p
i
≥
0.25
\sum_{i=k+1}^{n} p_{i} \geq 0.25
∑i=k+1npi≥0.25
是一个半空间,是凸集。