基本概念
仿射集Affine Set
定义:集合内任意两个不同的点,都可以形成一条直线,且直线上所有点都在该集合内,形如
x
=
θ
x
1
+
(
1
−
θ
)
x
2
,
θ
∈
R
x=\theta x_1+(1-\theta)x_2,\theta \isin R
x=θx1+(1−θ)x2,θ∈R
S
=
{
x
∣
A
x
=
b
}
S=\{x|Ax=b\}
S={x∣Ax=b}这种线性函数方程解类型就可以符合条件
x
=
θ
x
1
+
(
1
−
θ
)
x
2
,
A
x
1
=
b
,
A
x
2
=
b
x=\theta x_1+(1-\theta)x_2,Ax_1=b,Ax_2=b
x=θx1+(1−θ)x2,Ax1=b,Ax2=b
有
A
x
=
A
(
θ
x
1
+
(
1
−
θ
)
x
2
)
=
θ
b
+
(
1
−
θ
)
b
=
b
Ax=A(\theta x_1+(1-\theta)x_2)=\theta b+(1-\theta)b=b
Ax=A(θx1+(1−θ)x2)=θb+(1−θ)b=b
凸集Convex Set
定义:集合内任意两个不同的点,都可以形成一条线段,且线段上所有点都在该集合内,形如
x
=
θ
x
1
+
(
1
−
θ
)
x
2
,
θ
∈
[
0
,
1
]
x=\theta x_1+(1-\theta)x_2,\theta \isin [0,1]
x=θx1+(1−θ)x2,θ∈[0,1]
凸组合Convex Combination
定义:假设有k个不同的点可组合成新点:
x
=
∑
i
=
1
k
θ
i
x
i
,
∑
i
=
1
k
θ
i
=
1
,
θ
i
≥
0
x=\sum\limits_{i=1}^{k}\theta_i x_i,\sum\limits_{i=1}^{k}\theta_i=1,\theta_i \geq 0
x=i=1∑kθixi,i=1∑kθi=1,θi≥0
假如要应用在凸集S里,采用数学归纳法:
k=2已经证明成立
k=n假设成立(作为新的点)
y
=
∑
i
=
1
n
η
i
y
i
∈
S
y=\sum\limits_{i=1}^{n}\eta_i y_i \isin S
y=i=1∑nηiyi∈S,
接下来证明k=n+1:注意
∑
i
=
1
n
+
1
θ
i
=
1
=
>
(
1
−
θ
n
+
1
)
=
∑
i
=
1
n
θ
i
\sum\limits_{i=1}^{n+1}\theta_i=1=>(1-\theta_{n+1})=\sum\limits_{i=1}^{n}\theta_i
i=1∑n+1θi=1=>(1−θn+1)=i=1∑nθi
x
=
∑
i
=
1
n
+
1
θ
i
x
i
=
∑
i
=
1
n
θ
i
x
i
+
θ
n
+
1
x
n
+
1
=
(
1
−
θ
n
+
1
)
(
∑
i
=
1
n
θ
i
x
i
1
−
θ
n
+
1
)
+
θ
n
+
1
x
n
+
1
x=\sum\limits_{i=1}^{n+1}\theta_i x_i=\sum\limits_{i=1}^{n}\theta_i x_i+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{1-\theta_{n+1}})+\theta_{n+1}x_{n+1}
x=i=1∑n+1θixi=i=1∑nθixi+θn+1xn+1=(1−θn+1)(i=1∑n1−θn+1θixi)+θn+1xn+1
=
(
1
−
θ
n
+
1
)
(
∑
i
=
1
n
θ
i
x
i
∑
i
=
1
n
θ
i
)
+
θ
n
+
1
x
n
+
1
=
(
1
−
θ
n
+
1
)
∑
i
=
1
n
η
i
y
i
+
θ
n
+
1
x
n
+
1
=(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{\sum\limits_{i=1}^{n}\theta_i})+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})\sum\limits_{i=1}^{n}\eta_i y_i+\theta_{n+1}x_{n+1}
=(1−θn+1)(i=1∑ni=1∑nθiθixi)+θn+1xn+1=(1−θn+1)i=1∑nηiyi+θn+1xn+1
=
(
1
−
θ
n
+
1
)
y
+
θ
n
+
1
x
n
+
1
【
两
个
任
意
的
点
y
,
x
n
+
1
】
=(1-\theta_{n+1})y+\theta_{n+1}x_{n+1}【两个任意的点y,x_{n+1}】
=(1−θn+1)y+θn+1xn+1【两个任意的点y,xn+1】
得证,所以凸组合
x
∈
S
x\isin S
x∈S
凸包Convex Pull
定义:用一个最小集合涵盖(凸集S生成的)凸组合的所有点,这最小点集就是凸包。
存在
凸
集
V
凸集V
凸集V,若
凸
集
S
⊂
V
凸集S\subset V
凸集S⊂V,则
S
的
凸
包
⊆
V
S的凸包\subseteq V
S的凸包⊆V
走边界,保证区域内任意一点,一直在同一侧
边界点的切线,该直线不会将整个区域分成两个子区域
凸锥Convex cone
cone锥的定义:
∀
x
∈
C
,
有
θ
x
∈
C
,
且
θ
≥
0
\forall x\isin C,有\theta x\isin C,且\theta\geq0
∀x∈C,有θx∈C,且θ≥0
conic combination锥组合的定义:
x
=
θ
1
x
1
+
θ
2
x
2
,
且
θ
1
,
θ
2
≥
0
x=\theta_1 x_1+\theta_2 x_2,且\theta_1,\theta_2\geq0
x=θ1x1+θ2x2,且θ1,θ2≥0
convex cone凸锥:包含锥组合所有点的最小点集(两个边界的夹角小于180°)
(超)平面Hyperplanes|球体balls|椭球Ellipsoids
定义:法向量决定一个平面,所以
a
T
(
x
−
x
0
)
=
0
a^T(x-x_0)=0
aT(x−x0)=0,于是有公式
{
x
∣
a
T
x
=
b
}
,
a
≠
0
\{x|a^Tx=b\},a\neq 0
{x∣aTx=b},a=0,a是一个向量,属于凸集+仿射集
半空间Halfspaces|
定义:公式
{
x
∣
a
T
x
−
b
≤
0
}
\{x|a^Tx-b\leq0\}
{x∣aTx−b≤0},a是一个向量,属于凸集+非仿射集
证明:
S
=
{
x
∣
a
T
x
−
b
>
0
}
,
x
1
,
x
2
∈
S
S=\{x|a^Tx-b>0\},x_1,x_2\isin S
S={x∣aTx−b>0},x1,x2∈S,凸集+非仿射集
a
T
x
1
−
b
>
0
,
a
T
x
2
−
b
>
0
a^Tx_1-b>0,a^Tx_2-b>0
aTx1−b>0,aTx2−b>0
原
式
=
a
T
[
θ
x
1
+
(
1
−
θ
)
x
2
]
−
b
=
θ
(
a
T
x
1
−
b
)
+
(
1
−
θ
)
(
a
T
x
2
−
b
)
原式=a^T[\theta x_1+(1-\theta)x_2]-b=\theta(a^Tx_1-b)+(1-\theta)(a^Tx_2-b)
原式=aT[θx1+(1−θ)x2]−b=θ(aTx1−b)+(1−θ)(aTx2−b)
- θ ∈ [ 0 , 1 ] , 原 式 > 0 ⟹ c o n v e x \theta\isin[0,1],原式>0\implies convex θ∈[0,1],原式>0⟹convex
- θ ∈ R , 原 式 不 确 定 符 号 ⟹ n o t − a f f i n e \theta\isin R,原式不确定符号\implies not-affine θ∈R,原式不确定符号⟹not−affine
欧式球体Euclidean balls
定义: 中 心 x c , 半 径 r , B ( x c , r ) = { x ∣ ∣ ∣ x − x c ∣ ∣ 2 ≤ r } = { x c + r u ∣ ∣ ∣ u ∣ ∣ 2 ≤ 1 } 中心x_c,半径r,B(x_c,r)=\{x|\space ||x-x_c||_2\leq r\}=\{x_c+ru|\space ||u||_2\leq 1\} 中心xc,半径r,B(xc,r)={x∣ ∣∣x−xc∣∣2≤r}={xc+ru∣ ∣∣u∣∣2≤1}
椭球Ellipsoids
定义: ∑ i = 1 n x i 2 r i 2 ≤ 1 \sum\limits_{i=1}^n \frac{x_i^2}{r_i^2}\leq1 i=1∑nri2xi2≤1,也可以写成 { x ∣ ( x − x c ) T P − 1 ( x − x c ) ≤ 1 } 且 P ∈ S + + n ( 对 称 正 定 矩 阵 ) , { x c + A u ∣ ∣ ∣ u ∣ ∣ 2 ≤ 1 } \{x|(x-x_c)^TP^{-1}(x-x_c)\leq1\}且P\isin S_{++}^n(对称正定矩阵),\{x_c+Au|\space||u||_2\leq 1\} {x∣(x−xc)TP−1(x−xc)≤1}且P∈S++n(对称正定矩阵),{xc+Au∣ ∣∣u∣∣2≤1}
类似马氏距离,马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标,同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据 之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。
可以允许P的特征值分解
P
=
u
T
∑
u
且
u
T
=
u
−
1
,
P
是
半
径
方
向
P=u^T\sum u且u^T=u^{-1},P是半径方向
P=uT∑u且uT=u−1,P是半径方向
有
(
x
−
x
c
)
T
P
−
1
(
x
−
x
c
)
=
(
x
−
x
c
)
T
(
u
T
∑
u
)
−
1
(
x
−
x
c
)
(x-x_c)^TP^{-1}(x-x_c)=(x-x_c)^T(u^T\sum u)^{-1}(x-x_c)
(x−xc)TP−1(x−xc)=(x−xc)T(uT∑u)−1(x−xc)
=
(
u
(
x
−
x
c
)
)
T
∑
−
1
u
(
x
−
x
c
)
=
y
T
∑
−
1
y
=
∑
i
=
1
n
y
i
2
r
i
2
≤
1
=(u(x-x_c))^T\sum^{-1} u(x-x_c)=y^T\sum^{-1} y=\sum\limits_{i=1}^n \frac{y_i^2}{r_i^2}\leq1
=(u(x−xc))T∑−1u(x−xc)=yT∑−1y=i=1∑nri2yi2≤1
注意: 1 r i 2 = 1 λ i , λ i 是 P 的 特 征 值 ⟹ r i = λ i \frac{1}{r_i^2}=\frac{1}{\lambda_i},\lambda_i是P的特征值\implies r_i=\sqrt{\lambda_i} ri21=λi1,λi是P的特征值⟹ri=λi
范数norm|带范数的锥norm cone
范数( ∣ ∣ . ∣ ∣ 2 , ∣ ∣ . ∣ ∣ 1 , ∣ ∣ . ∣ ∣ ∞ , ∣ ∣ . ∣ ∣ p ||.||_2,||.||_1,||.||_{\infty},||.||_p ∣∣.∣∣2,∣∣.∣∣1,∣∣.∣∣∞,∣∣.∣∣p)条件:
- ∣ ∣ x ∣ ∣ ≥ 0 , 仅 当 x = 0 时 等 号 成 立 ||x||\geq 0,仅当x=0时等号成立 ∣∣x∣∣≥0,仅当x=0时等号成立
- ∣ ∣ t x ∣ ∣ = ∣ t ∣ ∣ ∣ x ∣ ∣ , ∀ t ∈ R ||tx||=|t|\space||x||,\forall t\isin R ∣∣tx∣∣=∣t∣ ∣∣x∣∣,∀t∈R
- ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq||x||+||y|| ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣
例如:
带范数的球norm ball:
{
x
∣
∣
∣
x
−
x
c
∣
∣
≤
r
}
\{x|\space||x-x_c||\leq r\}
{x∣ ∣∣x−xc∣∣≤r},属于凸集。
带范数的锥norm cone:
{
(
x
,
t
)
∣
∣
∣
x
∣
∣
≤
t
}
\{(x,t)|\space||x||\leq t\}
{(x,t)∣ ∣∣x∣∣≤t},属于凸集。
证明:通过条件2&3&
∣
∣
x
1
−
x
c
∣
∣
≤
r
,
∣
∣
x
2
−
x
c
∣
∣
≤
r
||x_1-x_c||\leq r,||x_2-x_c||\leq r
∣∣x1−xc∣∣≤r,∣∣x2−xc∣∣≤r,
∣
∣
θ
x
1
+
(
1
−
θ
)
x
2
−
x
c
∣
∣
=
∣
∣
θ
(
x
1
−
x
c
)
+
(
1
−
θ
)
(
x
2
−
x
c
)
∣
∣
||\theta x_1+(1-\theta)x_2-x_c||=||\theta(x_1-x_c)+(1-\theta)(x_2-x_c)||
∣∣θx1+(1−θ)x2−xc∣∣=∣∣θ(x1−xc)+(1−θ)(x2−xc)∣∣
≤
∣
∣
θ
(
x
1
−
x
c
)
∣
∣
+
∣
∣
(
1
−
θ
)
(
x
2
−
x
c
)
∣
∣
=
θ
∣
∣
x
1
−
x
c
∣
∣
+
(
1
−
θ
)
∣
∣
x
2
−
x
c
∣
∣
\leq||\theta(x_1-x_c)||+||(1-\theta)(x_2-x_c)||=\theta||x_1-x_c||+(1-\theta)||x_2-x_c||
≤∣∣θ(x1−xc)∣∣+∣∣(1−θ)(x2−xc)∣∣=θ∣∣x1−xc∣∣+(1−θ)∣∣x2−xc∣∣
≤
θ
r
+
(
1
−
θ
)
r
=
r
\leq\theta r+(1-\theta)r=r
≤θr+(1−θ)r=r
多面体Polyhedra
定义:包含等式和不等式,逐点有
A
x
<
b
,
C
x
=
d
,
A
∈
R
m
×
n
,
C
∈
R
p
×
n
Ax<b,Cx=d,A\isin R^{m\times n},C\isin R^{p\times n}
Ax<b,Cx=d,A∈Rm×n,C∈Rp×n,属于凸集,是半空间和超平面的有限点的交集。
半正定矩阵的锥Positive semidefinite cone
定义:
-
n
×
n
n\times n
n×n的对称矩阵(n阶方阵):
S
n
S^n
Sn,维度是
n
(
n
+
1
)
2
\frac{n(n+1)}{2}
2n(n+1)
∣ [ x y y z ] − λ I ∣ = 0 \begin{vmatrix} \begin{bmatrix} x & y \\ y & z \end{bmatrix}-\lambda I \end{vmatrix}=0 ∣∣∣∣[xyyz]−λI∣∣∣∣=0
( x − λ ) ( z − λ ) − y 2 = 0 (x-\lambda)(z-\lambda)-y^2=0 (x−λ)(z−λ)−y2=0
λ 2 − ( x + z ) λ + x z − y 2 = 0 \lambda^2-(x+z)\lambda+xz-y^2=0 λ2−(x+z)λ+xz−y2=0所以有: x z − y 2 ≥ 0 , x + z 2 > 0 xz-y^2\geq0,\frac{x+z}{2}>0 xz−y2≥0,2x+z>0 - 半正定的对称矩阵:
S
+
n
=
X
=
{
s
∈
S
n
∣
x
≥
0
}
,
就
是
任
意
非
零
向
量
z
∈
R
n
,
都
有
(
二
次
型
)
z
T
X
z
≥
0
S_{+}^n=X=\{s\isin S^n|x\geq 0\},就是任意非零向量z\isin R^n,都有(二次型)z^TXz\geq 0
S+n=X={s∈Sn∣x≥0},就是任意非零向量z∈Rn,都有(二次型)zTXz≥0,属于凸集。
- 半正定矩阵的行列式是非负的;所有主子式均为非负的;所有特征值均为非负的;
比如: z T X z = ( z 1 + z 2 ) 2 ≥ 0 z^TXz=(z_1+z_2)^2\geq0 zTXz=(z1+z2)2≥0 - (顺序主子式非负并不能推出矩阵是半正定的);
- 存在实矩阵 C , 使 得 X = C T C C,使得X=C^TC C,使得X=CTC
- 存在秩为r的 r × n r\times n r×n实矩阵 B , 使 得 X = B T B B,使得X=B^TB B,使得X=BTB
- 两个半正定矩阵的和是半正定的;非负实数与半正定矩阵的数乘矩阵是半正定的
- 正定的对称矩阵:
S
+
+
n
=
X
=
{
s
∈
S
n
∣
x
>
0
}
S_{++}^n=X=\{s\isin S^n|x>0\}
S++n=X={s∈Sn∣x>0}
- 正定矩阵的行列式恒为正;一切顺序主子式均为正;所有特征值均为正;
比如: z T X z = z 1 2 + z 2 2 > 0 z^TXz=z_1^2+z_2^2>0 zTXz=z12+z22>0 - 正定实对称矩阵,与单位矩阵合同;
实对称矩阵,矩阵转置等于本身 - 存在实可逆矩阵 C , 使 得 X = C T C C,使得X=C^TC C,使得X=CTC
- 存在秩为n的 m × n m\times n m×n实矩阵 B , 使 得 X = B T B B,使得X=B^TB B,使得X=BTB
- 存在主对角线元素全为正的实三角矩阵 R , 使 得 X = R T R R,使得X=R^TR R,使得X=RTR
- 两个正定矩阵的和是正定矩阵;实数与正定矩阵的乘积是正定矩阵。
- 正定矩阵的行列式恒为正;一切顺序主子式均为正;所有特征值均为正;
- 正定、半正定矩阵:直觉,代表一个向量经过它的变化后的向量与其本身的夹角小于等于90度。
c o s ( θ ) = z T ( X z ) ∣ ∣ z ∣ ∣ ∗ ∣ ∣ ( X z ) ∣ ∣ ≥ 0 cos(\theta)=\frac{z^T(Xz)}{||z||*||(Xz)||}\geq0 cos(θ)=∣∣z∣∣∗∣∣(Xz)∣∣zT(Xz)≥0
保凸运算Operations that preserve convexity
证明是凸集C的方法:
- 定义法
x 1 , x 2 ∈ C , θ ∈ [ 0 , 1 ] = > x = θ x 1 + ( 1 − θ ) x 2 ∈ C x_1,x_2\isin C,\theta \isin [0,1]=>x=\theta x_1+(1-\theta)x_2\isin C x1,x2∈C,θ∈[0,1]=>x=θx1+(1−θ)x2∈C - 通过简单集合(超平面,多面体,球体)变化求证(主要是以下二级标题的四种)
求交集Intersection
定义:
- 假设: x 1 , x 2 ∈ C 1 ∩ C 2 x_1,x_2\isin C_1\cap C_2 x1,x2∈C1∩C2
- 结论: θ x 1 + ( 1 − θ ) x 2 ∈ C 1 ∩ C 2 \theta x_1+(1-\theta)x_2\isin C_1\cap C_2 θx1+(1−θ)x2∈C1∩C2
例子:
S
=
{
x
∈
R
m
∣
∣
p
(
t
)
∣
≤
1
f
o
r
∣
t
∣
≤
π
3
}
S=\{x\isin R^m |\space |p(t)|\leq1 \space for\space |t|\leq\frac{\pi}{3}\}
S={x∈Rm∣ ∣p(t)∣≤1 for ∣t∣≤3π}
p
(
t
)
=
x
1
c
o
s
t
+
x
2
c
o
s
2
t
+
.
.
.
+
x
m
c
o
s
m
t
=
(
c
o
s
t
,
c
o
s
2
t
,
.
.
.
,
c
o
s
m
t
)
(
x
1
x
2
.
.
.
x
m
)
=
C
(
t
)
T
x
p(t)=x_1cost+x_2cos2t+...+x_mcosmt=(cost,cos2t,...,cosmt)\begin{pmatrix} x_1 \\ x_2 \\. \\. \\. \\x_m \end{pmatrix}=C(t)^Tx
p(t)=x1cost+x2cos2t+...+xmcosmt=(cost,cos2t,...,cosmt)⎝⎜⎜⎜⎜⎜⎜⎛x1x2...xm⎠⎟⎟⎟⎟⎟⎟⎞=C(t)Tx
S
t
=
{
x
∈
R
m
∣
∣
P
(
t
)
∣
≤
1
}
=
{
x
∈
R
m
∣
P
(
t
)
≤
1
}
∩
{
x
∈
R
m
∣
P
(
t
)
≥
−
1
}
(
2
个
半
空
间
的
交
集
)
S_t=\{x\isin R^m|\space |P(t)|\leq1\}=\{x\isin R^m|\space P(t)\leq1\}\cap\{x\isin R^m|\space P(t)\geq-1\}(2个半空间的交集)
St={x∈Rm∣ ∣P(t)∣≤1}={x∈Rm∣ P(t)≤1}∩{x∈Rm∣ P(t)≥−1}(2个半空间的交集)
所以
S
=
∩
∣
t
∣
≤
π
3
S
t
S=\cap_{|t|\leq\frac{\pi}{3}}S_t
S=∩∣t∣≤3πSt
若m=2,有下图
仿射变换Affine function
定义:
- 假设:若 f ( x ) = A x + b , A ∈ R m × n , b ∈ R m f(x)=Ax+b,A\isin R^{m\times n},b\isin R^m f(x)=Ax+b,A∈Rm×n,b∈Rm
- 结论:那么有仿射集 f : R n − > R m f:R^n->R^m f:Rn−>Rm
线性变换只能保证从(线性-1)到(线性-2),(曲线)可变(直线/曲线)
所以凸集线性变换后仍是凸集,但是凹集B(非满秩)可变为凸集A,B在线性变换下的原像是一个包含A的凸集
若
S
⊆
R
n
是
凸
集
S\subseteq R^n是凸集
S⊆Rn是凸集
- = > f ( S ) = { f ( x ) ∣ x ∈ S } 是 凸 集 =>f(S)=\{f(x)|x\isin S\}是凸集 =>f(S)={f(x)∣x∈S}是凸集
- = > f − 1 ( C ) = { x ∣ f ( x ) = C } 是 凸 集 =>f^{-1}(C)=\{x|f(x)=C\}是凸集 =>f−1(C)={x∣f(x)=C}是凸集
例子:
scaling(尺度变换),translation(平移),projection(投影),hyperbolic cone(双曲锥)
比如:(推导-仿射变换)双曲锥:
{
x
∣
x
T
P
x
≤
(
C
T
x
)
2
,
C
T
x
≥
0
}
,
P
∈
S
+
n
(
半
正
定
矩
阵
,
对
角
化
P
1
2
不
一
定
可
逆
)
\{x|\space x^TPx\leq(C^Tx)^2,C^Tx\geq0\},P\isin S_+^n(半正定矩阵,对角化P^{\frac{1}{2}}不一定可逆)
{x∣ xTPx≤(CTx)2,CTx≥0},P∈S+n(半正定矩阵,对角化P21不一定可逆)
- 将P转换: P = A T A , A P=A^TA,A P=ATA,A是实矩阵
- 设 C T x = t C^Tx=t CTx=t
- 于是仿射变换 x T P x = z T z x^TPx=z^Tz xTPx=zTz
- 得到 S ′ = { z ∣ z T z ≤ t 2 , t ≥ 0 } S'=\{z|z^Tz\leq t^2,t\geq 0\} S′={z∣zTz≤t2,t≥0}(二阶锥second-order cone属于凸集)
- 所以S也是凸集(convex)
感知函数Perspective function
定义:
- P : R n + 1 → R n P:R^{n+1}\rightarrow R^n P:Rn+1→Rn
- f ( x , t ) = x t , d o m P = { ( x , t ) ∣ t > 0 } f(x,t)=\frac{x}{t},domP=\{(x,t)|t>0\} f(x,t)=tx,domP={(x,t)∣t>0}(小孔成像类似投影)
证明:凸集经过感知函数P仍然是凸集
假设:
x
,
y
∈
C
,
θ
x
+
(
1
−
θ
)
y
∈
C
,
θ
∈
[
0
,
1
]
,
P
(
x
)
=
x
~
x
n
+
1
x,y\isin C,\theta x+(1-\theta)y\isin C,\theta\isin[0,1],P(x)=\frac{\widetilde{x}}{x_{n+1}}
x,y∈C,θx+(1−θ)y∈C,θ∈[0,1],P(x)=xn+1x
结论:
θ
P
(
x
)
+
(
1
−
θ
)
P
(
y
)
∈
P
(
C
)
\theta P(x)+(1-\theta)P(y)\isin P(C)
θP(x)+(1−θ)P(y)∈P(C)
推导:
P
(
θ
x
+
(
1
−
θ
)
y
)
=
θ
x
+
(
1
−
θ
)
y
~
(
θ
x
+
(
1
−
θ
)
y
)
n
+
1
P(\theta x+(1-\theta)y)=\frac{\widetilde{\theta x+(1-\theta)y}}{(\theta x+(1-\theta)y)_{n+1}}
P(θx+(1−θ)y)=(θx+(1−θ)y)n+1θx+(1−θ)y
= θ x ~ + ( 1 − θ ) y ~ θ x n + 1 + ( 1 − θ ) y n + 1 = θ x ~ x n + 1 x n + 1 + ( 1 − θ ) y ~ y n + 1 y n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 =\frac{\theta\widetilde{x}+(1-\theta)\widetilde{y}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\frac{\theta\frac{\widetilde{x}}{x_{n+1}}x_{n+1}+(1-\theta)\frac{\widetilde{y}}{y_{n+1}}y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}} =θxn+1+(1−θ)yn+1θx +(1−θ)y =θxn+1+(1−θ)yn+1θxn+1x xn+1+(1−θ)yn+1y yn+1
= θ P ( x ) x n + 1 + ( 1 − θ ) P ( y ) y n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 = α P ( x ) + ( 1 − α ) P ( y ) =\frac{\theta P(x)x_{n+1}+(1-\theta)P(y)y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\alpha P(x)+(1-\alpha)P(y) =θxn+1+(1−θ)yn+1θP(x)xn+1+(1−θ)P(y)yn+1=αP(x)+(1−α)P(y)
其中 α = θ x n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 \alpha=\frac{\theta x_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}} α=θxn+1+(1−θ)yn+1θxn+1
线性分式函数Linear-fractional function
定义:
- f : R n → R m f:R^{n}\rightarrow R^m f:Rn→Rm
-
f
(
x
)
=
A
x
+
b
C
T
x
+
d
,
d
o
m
f
=
{
x
∣
C
T
x
+
d
>
0
}
f(x)=\frac{Ax+b}{C^Tx+d},domf=\{x|C^Tx+d>0\}
f(x)=CTx+dAx+b,domf={x∣CTx+d>0}(仿射变换(
A
x
+
b
Ax+b
Ax+b)+感知函数(
C
T
x
+
d
>
0
C^Tx+d>0
CTx+d>0)的组合)
结论:其原象(image)和反象(逆inverse)都是保持凸性的,线性分式函数是能保持凸性的运算
例子:性状(凹凸/角)基本不变,就是部分拉伸
广义不等关系
好锥proper cone
定义:凸集 K ⊆ R n K\subseteq R^n K⊆Rn满足以下条件就是一个好的锥(proper cone)
- K要包含边界(closed-闭/边界线)
- K不是一条射线(solid-有内点/实心)
- K是有方向的,不包含其反方向(pointed-尖)
pointed cone尖锥
举例:
- 非负实数集: K = R + n = { x ∈ R n ∣ x i ≥ 0 , i = 1 , . . . , n } K=R_+^n=\{x\isin R^n|x_i\geq 0,i=1,...,n\} K=R+n={x∈Rn∣xi≥0,i=1,...,n}
- 对称半正定矩阵的锥positive semidefinite cone: K = S + n K=S_+^n K=S+n,内部是一个对称正定矩阵
- 非负多项式nonnegative polynominal: K = { x ∈ R n ∣ x + x 2 t + x 3 t 2 + . . . + x n t n − 1 ≥ 0 , f o r t ∈ [ 0 , 1 ] } K=\{x\isin R^n|x+x_2t+x_3t^2+...+x_nt^{n-1}\geq0,for\space t\isin[0,1]\} K={x∈Rn∣x+x2t+x3t2+...+xntn−1≥0,for t∈[0,1]}
偏序Generalized Inequality
偏序:部分元素的二元关系成立;全序:任何一对元素的二元关系都成立
全序关系必定是偏序关系
定义:通过proper cone定义,是关于某种集合K
- x ⪯ K y ⟺ y − x ∈ K x\preceq_Ky\iff y-x\isin K x⪯Ky⟺y−x∈K
- x ≺ K y ⟺ y − x ∈ I n t K ( 指 K 的 内 点 ) x\prec_Ky\iff y-x\isin Int K(指K的内点) x≺Ky⟺y−x∈IntK(指K的内点)
例子ex:
- 分量偏序-componentwise inequality(
K
=
R
+
n
K=R_+^n
K=R+n)每一个相减以后符号都一样
x ⪯ R + n y x\preceq_{R_+^n}y x⪯R+ny ⟺ x i ≤ y i , i = 1 , . . . , n \iff x_i\leq y_i,i=1,...,n ⟺xi≤yi,i=1,...,n - 矩阵偏序-matrix inequality(
K
=
S
+
n
K=S_+^n
K=S+n)每一个相减以后都是半正定矩阵
X ⪯ R + n Y X\preceq_{R_+^n}Y X⪯R+nY ⟺ Y − X ∈ S + n \iff Y-X\isin S_+^n ⟺Y−X∈S+n
性质:支持加法运算
x
⪯
K
y
,
u
⪯
K
v
⟹
(
x
+
u
)
⪯
K
(
y
+
v
)
x\preceq_Ky,u\preceq_Kv \implies (x+u)\preceq_K(y+v)
x⪯Ky,u⪯Kv⟹(x+u)⪯K(y+v)
由此可以比较找出最大/最小值
最小化Minimum
最小元Minimum elements定义:(w.r.t=with respect to)关于某种顺序K下,如果符合条件:
∀
y
∈
S
⟹
x
⪯
K
y
\forall y\isin S\implies x\preceq_Ky
∀y∈S⟹x⪯Ky,那么x是集合S中的最小元【别的都比他大】。
任意的y都可以和x比较,举例
K
=
R
+
2
K=R_+^2
K=R+2,下图中,单点
x
1
x_1
x1是
S
1
S_1
S1的最小元。
极小元Minimal elements定义:(w.r.t=with respect to)关于某种顺序K下,如果符合条件:
∀
y
∈
S
,
y
⪯
K
x
⟹
y
=
x
\forall y\isin S,y\preceq_Kx\implies y=x
∀y∈S,y⪯Kx⟹y=x,那么x是集合S中的极小元【没有比他小的】。
举例
K
=
R
+
2
K=R_+^2
K=R+2,下图中,点
x
2
x_2
x2所在的边界线是
S
2
S_2
S2的极小元。
(线性)可分超平面定理Separating hyperplane theorem
定义:
对于不相交(disjoint)的非空凸集C和D,存在一个向量
a
≠
(
0
或
b
)
a\neq (0或b)
a=(0或b),都有
a
T
x
≤
b
f
o
r
x
∈
C
,
a
T
x
≥
b
f
o
r
x
∈
D
a^Tx\leq b\space for\space x\isin C,a^Tx\geq b\space for\space x\isin D
aTx≤b for x∈C,aTx≥b for x∈D,分割出C和D的超平面就是
{
x
∣
a
T
x
=
b
}
\{x|a^Tx=b\}
{x∣aTx=b}
最优化建模:
假设
坐
标
d
∈
D
,
坐
标
c
∈
C
,
∣
∣
d
−
c
∣
∣
=
i
n
f
(
下
确
界
)
{
∣
∣
u
−
v
∣
∣
∣
u
∈
D
,
v
∈
C
}
坐标d\isin D,坐标c\isin C,||d-c||=inf(下确界)\{||u-v||\space|u\isin D,v\isin C\}
坐标d∈D,坐标c∈C,∣∣d−c∣∣=inf(下确界){∣∣u−v∣∣ ∣u∈D,v∈C},
那么超平面符合
f
(
x
)
=
(
d
−
c
)
T
(
x
−
d
+
c
2
)
=
0
f(x)=(d-c)^T(x-\frac{d+c}{2})=0
f(x)=(d−c)T(x−2d+c)=0
(
d
−
c
是
向
量
,
和
中
点
方
向
d
+
c
2
垂
直
,
所
以
用
转
置
)
(d-c是向量,和中点方向\frac{d+c}{2}垂直,所以用转置)
(d−c是向量,和中点方向2d+c垂直,所以用转置)
证明:
f
(
x
)
=
{
≥
0
,
x
∈
D
≤
0
,
x
∈
C
f(x)=\begin{cases}\geq 0,x\isin D \\ \leq 0,x\isin C \end{cases}
f(x)={≥0,x∈D≤0,x∈C
u
∈
D
,
f
(
u
)
≥
0
u\isin D,f(u)\geq 0
u∈D,f(u)≥0
(
d
−
c
)
T
(
u
−
d
+
c
2
)
=
(
d
−
c
)
T
(
u
−
d
+
d
−
c
2
)
=
(
d
−
c
)
T
(
u
−
d
)
+
∣
∣
d
−
c
∣
∣
2
2
2
(d-c)^T(u-\frac{d+c}{2})=(d-c)^T(u-d+\frac{d-c}{2})=(d-c)^T(u-d)+\frac{||d-c||_2^2}{2}
(d−c)T(u−2d+c)=(d−c)T(u−d+2d−c)=(d−c)T(u−d)+2∣∣d−c∣∣22
反证法:设 f ( u ) ≤ 0 f(u)\leq 0 f(u)≤0,因为 ∣ ∣ d − c ∣ ∣ 2 2 2 \frac{||d-c||_2^2}{2} 2∣∣d−c∣∣22肯定大于0,所以 ( d − c ) T ( u − d ) ≤ 0 (d-c)^T(u-d)\leq 0 (d−c)T(u−d)≤0
设置函数:
g
(
t
)
=
∣
∣
d
−
c
+
t
(
u
−
d
)
∣
∣
2
2
,
g
’
(
t
)
=
2
(
d
−
c
+
t
(
u
−
d
)
)
g(t)=||d-c+t(u-d)||_2^2,g’(t)=2(d-c+t(u-d))
g(t)=∣∣d−c+t(u−d)∣∣22,g’(t)=2(d−c+t(u−d))
有导数
g
′
(
0
)
=
2
(
d
−
c
)
T
(
u
−
d
)
≤
0
g'(0)=2(d-c)^T(u-d)\leq 0
g′(0)=2(d−c)T(u−d)≤0
所以:
∃
t
>
0
,
s
.
t
(
s
o
t
h
a
t
)
∣
∣
d
−
c
+
t
(
u
−
d
)
∣
∣
2
2
<
∣
∣
d
−
c
∣
∣
2
2
\exist t>0,s.t(so\space that)||d-c+t(u-d)||_2^2<||d-c||_2^2
∃t>0,s.t(so that)∣∣d−c+t(u−d)∣∣22<∣∣d−c∣∣22,这与
d
−
c
d-c
d−c是最小距离的假设相互矛盾
严格可分超平面
充分条件:例如:一个集合是闭的,一个集合是开的,那么,一定可分割
支撑面Supporting hyperplane theorem
定义:
点集C的边界点
x
0
x_0
x0上衍生出的一条直线
{
x
∣
a
T
x
=
a
T
x
0
}
\{x|a^Tx=a^Tx_0\}
{x∣aTx=aTx0},保证C完全在线的某一侧
其中,向量
a
≠
0
,
且
∀
x
∈
C
,
有
a
T
x
≤
a
T
x
0
a\neq 0,且\forall x\isin C,有a^Tx\leq a^Tx_0
a=0,且∀x∈C,有aTx≤aTx0
性质:
如果C是凸集,那么C的每一个边界点都存在一个支撑面
对偶Dual cone
对偶定义
锥K的对偶定义:
K
∗
=
{
y
∣
y
T
x
≥
0
f
o
r
a
l
l
x
∈
K
}
K^*=\{y|y^Tx\geq 0\space for\space all\space x\isin K\}
K∗={y∣yTx≥0 for all x∈K}(保证选取的向量,与锥内的点向量之间,都保持直角以下的关系)
对偶举例
- 自对偶self-dual cones
- K = R + n ⟹ K ∗ = R + n K=R_+^n\implies K^*=R_+^n K=R+n⟹K∗=R+n(非负实数集)
- K = S + n ⟹ K ∗ = S + n K=S_+^n\implies K^*=S_+^n K=S+n⟹K∗=S+n(半正定对称矩阵)
- K = { ( x , t ) ∣ ∣ ∣ x ∣ ∣ 2 ≤ t } ⟹ K ∗ = { ( x , t ) ∣ ∣ ∣ x ∣ ∣ 2 ≤ t } K=\{(x,t)|\space||x||_2\leq t\}\implies K^*=\{(x,t)|\space||x||_2\leq t\} K={(x,t)∣ ∣∣x∣∣2≤t}⟹K∗={(x,t)∣ ∣∣x∣∣2≤t}(第二范数恒为正)
- 普通对偶
- K = { ( x , t ) ∣ ∣ ∣ x ∣ ∣ 1 ≤ t } ⟹ K ∗ = { ( x , t ) ∣ ∣ ∣ x ∣ ∣ ∞ ≤ t } K=\{(x,t)|\space||x||_1\leq t\}\implies K^*=\{(x,t)|\space||x||_\infty \leq t\} K={(x,t)∣ ∣∣x∣∣1≤t}⟹K∗={(x,t)∣ ∣∣x∣∣∞≤t}(第一范数是绝对值,对偶是其向量的最大值)
对偶性质
- 对偶也是凸集convex
u , v ∈ K ∗ , ( θ u + ( 1 − θ ) v ) T x = θ u T x + ( 1 − θ ) v T x ≥ 0 , 所 以 对 θ ∈ [ 0 , 1 ] , 有 θ u + ( 1 − θ ) v ∈ K ∗ u,v\isin K^*,(\theta u+(1-\theta)v)^Tx=\theta u^Tx+(1-\theta)v^Tx\geq0,所以对\theta\isin[0,1],有\theta u+(1-\theta)v\isin K^* u,v∈K∗,(θu+(1−θ)v)Tx=θuTx+(1−θ)vTx≥0,所以对θ∈[0,1],有θu+(1−θ)v∈K∗
锥cone不一定是convex的,如下图
-
K
∗
∗
是
K
K^{**}是K
K∗∗是K的凸包
当 K K K是凸集, K ∗ ∗ = K K^{**}=K K∗∗=K,
对偶的偏序关系
proper cones的对偶也是proper的
其偏序的定义:
y
⪰
K
∗
0
⟺
y
T
x
≥
0
f
o
r
a
l
l
x
⪰
K
0
y\succeq_{K^*}0\iff y^Tx\geq 0\space for \space all \space x\succeq_K0
y⪰K∗0⟺yTx≥0 for all x⪰K0
注意:
y
∈
K
∗
,
x
∈
K
y\isin K^*,x\isin K
y∈K∗,x∈K
对偶的最小化
- 最小元minimum element
∀ 向 量 λ ∈ K ∗ ( λ ⪰ K ∗ 0 ) , ∀ x , z ∈ S , 有 λ T x ≤ λ T z , 所 以 x 就 是 点 集 S 关 于 对 偶 K ∗ 的 最 小 元 \forall向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz,所以x就是点集S关于对偶K^*的最小元 ∀向量λ∈K∗(λ⪰K∗0),∀x,z∈S,有λTx≤λTz,所以x就是点集S关于对偶K∗的最小元
- 极小元minimal element
∃ 向 量 λ ∈ K ∗ ( λ ⪰ K ∗ 0 ) , ∀ x , z ∈ S , 有 λ T x ≤ λ T z , 所 以 x 就 是 点 集 S 关 于 对 偶 K ∗ 的 极 小 元 \exist向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz,所以x就是点集S关于对偶K^*的极小元 ∃向量λ∈K∗(λ⪰K∗0),∀x,z∈S,有λTx≤λTz,所以x就是点集S关于对偶K∗的极小元
总结
- 基本概念
- 凸集和仿射集
凸集convex是 θ ∈ [ 0 , 1 ] \theta\isin [0,1] θ∈[0,1],仿射集affine是 θ ∈ R \theta\isin R θ∈R,所以凸集不一定是仿射集 - 凸组合和凸包
两个x扩展到k个x的组合 - 凸锥
任意一个x,而且 θ ≥ 0 \theta\geq 0 θ≥0 - 超平面和半空间
超平面:凸+仿射;半空间:凸+非仿射 - 球体和椭球
半径的取值变换 - 范数
带范数的球和带范数的锥都是凸的 - 多面体和半正定矩阵
这些都是凸的
- 凸集和仿射集
- 保凸运算
通过简单集合(超平面,多面体,球体)变化求证- 交集
就是求得半空间的交集 - 仿射变换
类似线性变换+平移,仍保持线性结构 - 感知函数
函数形式是分式,类似投影效果 - 线性反分式函数
感知函数的形式,分子利用了仿射变换
- 交集
- 不等关系
- 好锥的定义
凸convex,闭closed,实solid,尖pointed - 偏序
部分元素成立的二元关系 - 最小化
最小元-锥尖;极小元-底线 - 可分超平面
区分两个可分割的点集 - 支撑面
凸集的每个边界点都有支撑面
- 好锥的定义
- 对偶
- 定义
向量-内积大于0,矩阵-迹大于0 - 性质
对偶是凸的, K ∗ ∗ 是 K K^{**}是K K∗∗是K的凸包 - 最小化
最小元-锥尖-任意向量λ;极小元-由一个向量λ决定
- 定义
如若笔记有误,欢迎指正批评。未来仍会不定期修正和补充。
Reference