凸函数
基本性质
凸函数
定义:
f
:
R
n
→
R
f:R^n\rightarrow R
f:Rn→R是凸性的,需要符合以下条件
- d o m f domf domf是凸性的
- ∀ x , y ∈ d o m f , ∀ θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \forall x,y\isin domf,\forall \theta\isin[0,1],f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) ∀x,y∈domf,∀θ∈[0,1],f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
- 不等式没有等号的时候,就是严格凸函数
性质:
f f f是凸函数,那么 − f -f −f是凹函数
例子: x ∈ R x\isin R x∈R
- 凸函数
- 仿射函数: a x + b , x ∈ R , ∀ a , b ∈ R ax+b,x\isin R,\forall a,b\isin R ax+b,x∈R,∀a,b∈R
- 指数函数: e a x , ∀ a ∈ R e^{ax},\forall a\isin R eax,∀a∈R
- 幂函数: x a , x ∈ R + + , ∀ a ∈ [ − ∞ , 0 ] ∪ [ 1 , + ∞ ] x^{a},x\isin R_{++},\forall a\isin[-\infty,0]\cup[1,+\infty] xa,x∈R++,∀a∈[−∞,0]∪[1,+∞]
- P函数: ∣ x ∣ p , x ∈ R + + , ∀ p ∈ [ 1 , + ∞ ] |x|^{p},x\isin R_{++},\forall p\isin[1,+\infty] ∣x∣p,x∈R++,∀p∈[1,+∞](幂函数带绝对值-偶函数)
- 负熵函数: x log x , x ∈ R + + x\log{x},x\isin R_{++} xlogx,x∈R++
- 凹函数
- 仿射函数: a x + b , x ∈ R , ∀ a , b ∈ R ax+b,x\isin R,\forall a,b\isin R ax+b,x∈R,∀a,b∈R
- 幂函数: x a , x ∈ R , ∀ a ∈ [ 1 , + ∞ ] x^{a},x\isin R,\forall a\isin[1,+\infty] xa,x∈R,∀a∈[1,+∞]
- log函数: log x , x ∈ R + + \log{x},x\isin R_{++} logx,x∈R++
例子: x ∈ R n x\isin R^n x∈Rn
- 仿射函数(可凸可凹): f ( x ) = a T x + b f(x)=a^Tx+b f(x)=aTx+b
- 范数: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p , p ∈ [ 1 , + ∞ ] , ∣ ∣ x ∣ ∣ ∞ = m a x k ∣ x k ∣ ||x||_p=(\sum_{i=1}^n|x_i|^p)^{\frac{1}{p}},p\isin[1,+\infty],||x||_\infty=max_k|x_k| ∣∣x∣∣p=(∑i=1n∣xi∣p)p1,p∈[1,+∞],∣∣x∣∣∞=maxk∣xk∣
例子: x ∈ R m × n x\isin R^{m\times n} x∈Rm×n
- 仿射函数(可凸可凹): f ( X ) = t r ( a T X ) + b = ∑ i = 1 m ∑ j = 1 n A i j X i j + b f(X)=tr(a^TX)+b=\sum\limits_{i=1}^m\sum\limits_{j=1}^nA_{ij}X_{ij}+b f(X)=tr(aTX)+b=i=1∑mj=1∑nAijXij+b
- 最大奇异值范数spectral norm: f ( X ) = ∣ ∣ X ∣ ∣ 2 = σ m a x ( X ) = ( λ m a x ( X T X ) ) 1 2 f(X)=||X||_2=\sigma_{max}(X)=(\lambda_{max}(X^TX))^{\frac{1}{2}} f(X)=∣∣X∣∣2=σmax(X)=(λmax(XTX))21
凸函数限制到直线(降维)
f
:
R
n
→
R
f:R^n\rightarrow R
f:Rn→R有凸性
⟺
凸
函
数
g
:
R
→
R
(
g
(
t
)
=
f
(
x
+
t
v
)
)
,
d
o
m
g
=
{
t
∣
x
+
t
v
∈
d
o
m
f
}
,
t
∈
R
,
x
∈
d
o
m
f
,
x
是
原
点
,
v
∈
R
n
,
v
是
方
向
\iff 凸函数g:R\rightarrow R(g(t)=f(x+tv)),domg=\{t|x+tv\isin domf\},t\isin R,x\isin domf,x是原点,v\isin R^n,v是方向
⟺凸函数g:R→R(g(t)=f(x+tv)),domg={t∣x+tv∈domf},t∈R,x∈domf,x是原点,v∈Rn,v是方向
也就是:高维凸函数
⟺
\iff
⟺高维函数的每个维度上都是凸函数
凸函数f的延拓extended-value extension
{ f ~ = f ( x ) , ∀ x ∈ d o m f f ~ = ∞ , x ∉ d o m f \begin{cases}\tilde{f}=f(x),\forall x\isin domf \\ \tilde{f}=\infty,x\notin domf \end{cases} {f~=f(x),∀x∈domff~=∞,x∈/domf
- 凸性定义法
保持凸性——凸性的不等关系性质成立
f ( θ x + ( 1 − θ ) y ) ~ ≤ θ f ( x ) ~ + ( 1 − θ ) f ( y ) ~ \widetilde{f(\theta x+(1-\theta)y)}\leq\theta\widetilde{f(x)}+(1-\theta)\widetilde{f(y)} f(θx+(1−θ)y) ≤θf(x) +(1−θ)f(y)
其中: { x ∣ f ( x ) ~ < ∞ } ⟺ x ∈ d o m f \{x|\widetilde{f(x)}<\infty\}\iff x\isin domf {x∣f(x) <∞}⟺x∈domf - 函数性质判定凸性法
- 一阶条件(first-order condition):
f
(
x
)
一
阶
可
微
(
d
i
f
f
e
r
e
n
t
i
a
b
l
e
)
,
定
义
域
∀
x
,
y
∈
d
o
m
f
(
o
p
e
n
)
,
存
在
梯
度
(
列
向
量
)
是
▽
f
(
x
)
=
(
∂
f
(
x
)
∂
x
1
,
∂
f
(
x
)
∂
x
2
,
.
.
.
,
∂
f
(
x
)
∂
x
n
)
T
【
+
】
f
(
y
)
≥
f
(
x
)
+
▽
f
(
x
)
T
(
y
−
x
)
⟺
f
有
凸
性
f(x)一阶可微(differentiable),定义域\forall x,y\isin domf(open),存在梯度(列向量)是\triangledown{f(x)}=(\frac{\partial{f(x)}}{\partial{x_1}},\frac{\partial{f(x)}}{\partial{x_2}},...,\frac{\partial{f(x)}}{\partial{x_n}})^T【+】f(y)\geq f(x)+\triangledown{f(x)^T}(y-x) \iff f有凸性
f(x)一阶可微(differentiable),定义域∀x,y∈domf(open),存在梯度(列向量)是▽f(x)=(∂x1∂f(x),∂x2∂f(x),...,∂xn∂f(x))T【+】f(y)≥f(x)+▽f(x)T(y−x)⟺f有凸性
证明:
∗ 1. n = 1 , 即 f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) *1.n=1,即f(y)\geq f(x)+f'(x)(y-x) ∗1.n=1,即f(y)≥f(x)+f′(x)(y−x)
⟵ \longleftarrow ⟵(Assume:f is convex)
给定条件: f ( x + t ( y − x ) ) ≤ ( 1 − t ) f ( x ) + t f ( y ) f(x+t(y-x))\leq(1-t)f(x)+tf(y) f(x+t(y−x))≤(1−t)f(x)+tf(y)
目标: f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) f(y)\geq f(x)+f'(x)(y-x) f(y)≥f(x)+f′(x)(y−x)
过程: f ( y ) ≥ f ( x + t ( y − x ) ) − ( 1 − t ) f ( x ) t = f ( x + t ( y − x ) ) − f ( x ) t + f ( x ) = f ( x ) + f ( x + t ( y − x ) ) − f ( x ) t ( y − x ) ( y − x ) = t → 0 f ( x ) + f ′ ( x ) ( y − x ) f(y)\geq\frac{f(x+t(y-x))-(1-t)f(x)}{t}=\frac{f(x+t(y-x))-f(x)}{t}+f(x)=f(x)+\frac{f(x+t(y-x))-f(x)}{t(y-x)}(y-x)\xlongequal{t\rightarrow 0}f(x)+f'(x)(y-x) f(y)≥tf(x+t(y−x))−(1−t)f(x)=tf(x+t(y−x))−f(x)+f(x)=f(x)+t(y−x)f(x+t(y−x))−f(x)(y−x)t→0f(x)+f′(x)(y−x)
⟶ \longrightarrow ⟶(Assume:不等式成立)
给定条件: f ( y ) ≥ f ( x ) + f ′ ( x ) ( y − x ) f(y)\geq f(x)+f'(x)(y-x) f(y)≥f(x)+f′(x)(y−x)
目标: f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
过程:利用中间点 z = θ x + ( 1 − θ ) y z=\theta x+(1-\theta)y z=θx+(1−θ)y,存在 f ( y ) ≥ f ( z ) + f ′ ( z ) ( y − z ) , f ( x ) ≥ f ( z ) + f ′ ( z ) ( x − z ) f(y)\geq f(z)+f'(z)(y-z),f(x)\geq f(z)+f'(z)(x-z) f(y)≥f(z)+f′(z)(y−z),f(x)≥f(z)+f′(z)(x−z)
f ( y ) 同 乘 ( 1 − θ ) , ( 1 − θ ) f ( y ) ≥ ( 1 − θ ) [ f ( z ) + f ′ ( z ) ( y − z ) ] f(y)同乘(1-\theta),(1-\theta)f(y)\geq (1-\theta)[f(z)+f'(z)(y-z)] f(y)同乘(1−θ),(1−θ)f(y)≥(1−θ)[f(z)+f′(z)(y−z)]
f ( x ) 同 乘 θ , θ f ( x ) ≥ θ [ f ( z ) + f ′ ( z ) ( x − z ) ] f(x)同乘\theta,\theta f(x)\geq \theta [f(z)+f'(z)(x-z)] f(x)同乘θ,θf(x)≥θ[f(z)+f′(z)(x−z)]
两 式 相 加 , ( 1 − θ ) f ( y ) + θ f ( x ) ≥ f ( z ) 两式相加,(1-\theta)f(y)+\theta f(x)\geq f(z) 两式相加,(1−θ)f(y)+θf(x)≥f(z)
∗ 2. n > 1 , x ∈ R n *2.n>1,x\isin R^n ∗2.n>1,x∈Rn
设 g ( t ) = f ( t y + ( 1 − t ) x ) , 所 以 g ′ ( t ) = ▽ f ( t y + ( 1 − t ) x ) T ( y − x ) g(t)=f(ty+(1-t)x),所以g'(t)=\triangledown f(ty+(1-t)x)^T(y-x) g(t)=f(ty+(1−t)x),所以g′(t)=▽f(ty+(1−t)x)T(y−x)
⟵ \longleftarrow ⟵(Assume:f is convex,then g is convex)
给定条件: g ( t ) 凸 性 定 义 : g ( t ) ≥ g ( τ ) + g ′ ( τ ) ( t − τ ) [ 一 维 的 时 候 ] g(t)凸性定义:g(t)\geq g(\tau)+g'(\tau)(t-\tau)[一维的时候] g(t)凸性定义:g(t)≥g(τ)+g′(τ)(t−τ)[一维的时候]
目标: f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) f(y)\geq f(x)+\triangledown f(x)^T(y-x) f(y)≥f(x)+▽f(x)T(y−x)
过程: 若 t = 1 , τ = 0 , 有 g ( 1 ) ≥ g ( 0 ) + g ′ ( 0 ) ( 1 − 0 ) 若t=1,\tau=0,有g(1)\geq g(0)+g'(0)(1-0) 若t=1,τ=0,有g(1)≥g(0)+g′(0)(1−0)
将 值 带 回 f 函 数 有 f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) 将值带回f函数有f(y)\geq f(x)+\triangledown f(x)^T(y-x) 将值带回f函数有f(y)≥f(x)+▽f(x)T(y−x),不等式成立
⟶ \longrightarrow ⟶(Assume:不等式成立)
给定条件: f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) f(y)\geq f(x)+\triangledown f(x)^T(y-x) f(y)≥f(x)+▽f(x)T(y−x)
目标: ∀ t , τ ∈ R , g ( t ) ≥ g ( τ ) + g ′ ( τ ) ( t − τ ) [ g 函 数 有 凸 性 ] ⟺ f ( t y + ( 1 − t ) x ) ≥ f ( τ y + ( 1 − τ ) x ) + ▽ f ( τ y + ( 1 − τ ) x ) T ( y − x ) ( t − τ ) \forall t,\tau\isin R,g(t)\geq g(\tau)+g'(\tau)(t-\tau)[g函数有凸性]\iff f(ty+(1-t)x)\geq f(\tau y+(1-\tau)x)+\triangledown{f(\tau y+(1-\tau)x)^T}(y-x)(t-\tau) ∀t,τ∈R,g(t)≥g(τ)+g′(τ)(t−τ)[g函数有凸性]⟺f(ty+(1−t)x)≥f(τy+(1−τ)x)+▽f(τy+(1−τ)x)T(y−x)(t−τ)
过程:令 Y = t y + ( 1 − t ) x , X = τ y + ( 1 − τ ) x , B = Y − X Y=ty+(1-t)x,X=\tau y+(1-\tau)x,B=Y-X Y=ty+(1−t)x,X=τy+(1−τ)x,B=Y−X
所以 f ( t y + ( 1 − t ) x ) ≥ f ( τ y + ( 1 − τ ) x ) + ▽ f ( τ y + ( 1 − τ ) x ) T ∗ B f(ty+(1-t)x)\geq f(\tau y+(1-\tau)x)+\triangledown{f(\tau y+(1-\tau)x)^T}*B f(ty+(1−t)x)≥f(τy+(1−τ)x)+▽f(τy+(1−τ)x)T∗B
B = Y − X = t y + ( 1 − t ) x − [ τ y + ( 1 − τ ) x ] = t y + x − t x − τ y − x + τ x = t ( y − x ) − τ ( y − x ) = ( y − x ) ( t − τ ) B=Y-X=ty+(1-t)x-[\tau y+(1-\tau)x]=ty+x-tx-\tau y-x+\tau x=t(y-x)-\tau(y-x)=(y-x)(t-\tau) B=Y−X=ty+(1−t)x−[τy+(1−τ)x]=ty+x−tx−τy−x+τx=t(y−x)−τ(y−x)=(y−x)(t−τ),凸性成立 - 二阶条件(second-order condition):
f
(
x
)
二
阶
可
微
(
t
w
i
c
e
d
i
f
f
e
r
e
n
t
i
a
b
l
e
)
,
定
义
域
∀
x
∈
d
o
m
f
(
o
p
e
n
)
,
存
在
二
阶
导
数
(
矩
阵
)
▽
2
f
(
x
)
i
j
=
∂
2
f
(
x
)
∂
x
i
∂
x
j
,
i
,
j
=
1
,
.
.
.
,
n
【
+
】
定
义
域
d
o
m
f
是
凸
的
,
二
阶
导
数
是
正
定
▽
2
f
(
x
)
≥
0
⟺
f
有
凸
性
(
≥
0
)
f(x)二阶可微(twice\space differentiable),定义域\forall x\isin domf(open),存在二阶导数(矩阵)\triangledown^2{f(x)_{ij}}=\frac{\partial^2{f(x)}}{\partial{x_i}\partial{x_j}},i,j=1,...,n【+】定义域domf是凸的,二阶导数是正定\triangledown^2{f(x)}\geq 0 \iff f有凸性(\geq 0)
f(x)二阶可微(twice differentiable),定义域∀x∈domf(open),存在二阶导数(矩阵)▽2f(x)ij=∂xi∂xj∂2f(x),i,j=1,...,n【+】定义域domf是凸的,二阶导数是正定▽2f(x)≥0⟺f有凸性(≥0)
例子:- 二次函数quadratic function: f ( x ) = 1 2 x T P x + q T x + r , P ∈ S n f(x)=\frac{1}{2}x^TPx+q^Tx+r,P\isin S^n f(x)=21xTPx+qTx+r,P∈Sn,二阶导系数矩阵 ▽ 2 f ( x ) = P \triangledown^2{f(x)}=P ▽2f(x)=P是对称矩阵(特征值是实数),再要求 P ≥ 0 P\geq 0 P≥0(特征值大于等于0)
- 最小二乘目标least-squares objective: f ( x ) = ∣ ∣ A x − b ∣ ∣ 2 2 , ▽ f ( x ) = 2 A T ( A x − b ) , ▽ 2 f ( x ) = 2 A T A f(x)=||Ax-b||_2^2,\triangledown{f(x)}=2A^T(Ax-b),\triangledown^2{f(x)}=2A^TA f(x)=∣∣Ax−b∣∣22,▽f(x)=2AT(Ax−b),▽2f(x)=2ATA(特征值一定大于等于0)
- 二次线性quadratic-over-linear: f ( x , y ) = x 2 y , y > 0 , ▽ 2 f ( x , y ) = [ ∂ 2 f ( x , y ) ∂ x 2 ∂ 2 f ( x , y ) ∂ x ∂ y ∂ 2 f ( x , y ) ∂ y ∂ x ∂ 2 f ( x , y ) ∂ y 2 ] = [ 2 y − 2 x y 2 − 2 x y 2 2 x 2 y 3 ] = 2 y 3 [ y 2 − x y − x y x 2 ] = 2 y 3 [ y − x ] [ y − x ] T ≥ 0 f(x,y)=\frac{x^2}{y},y>0,\triangledown^2{f(x,y)}=\begin{bmatrix}\frac{\partial^2{f(x,y)}}{\partial{x}^2} & \frac{\partial^2{f(x,y)}}{\partial{x}\partial{y}} \\ \frac{\partial^2{f(x,y)}}{\partial{y}\partial{x}} & \frac{\partial^2{f(x,y)}}{\partial{y}^2} \end{bmatrix}=\begin{bmatrix}\frac{2}{y} & -\frac{2x}{y^2} \\ -\frac{2x}{y^2} & \frac{2x^2}{y^3} \end{bmatrix}=\frac{2}{y^3}\begin{bmatrix}y^2 & -xy \\ -xy & x^2 \end{bmatrix}=\frac{2}{y^3}\begin{bmatrix}y \\ -x \end{bmatrix}{\begin{bmatrix}y \\ -x \end{bmatrix}}^T\geq 0 f(x,y)=yx2,y>0,▽2f(x,y)=[∂x2∂2f(x,y)∂y∂x∂2f(x,y)∂x∂y∂2f(x,y)∂y2∂2f(x,y)]=[y2−y22x−y22xy32x2]=y32[y2−xy−xyx2]=y32[y−x][y−x]T≥0
- 对数的偏分函数(softmax): f ( x ) = − log ∑ k = 1 n exp x k , 设 z k = e x k = exp x k , ▽ 2 f ( x ) = 1 1 T z d i a g ( z ) − 1 ( 1 T z ) 2 z z T f(x)=-\log\sum\limits_{k=1}^n \exp x_k,设z_k=e^{x_k}=\exp x_k,\triangledown^2{f(x)}=\frac{1}{1^Tz}diag(z)-\frac{1}{(1^Tz)^2}zz^T f(x)=−logk=1∑nexpxk,设zk=exk=expxk,▽2f(x)=1Tz1diag(z)−(1Tz)21zzT
- 一阶条件(first-order condition):
f
(
x
)
一
阶
可
微
(
d
i
f
f
e
r
e
n
t
i
a
b
l
e
)
,
定
义
域
∀
x
,
y
∈
d
o
m
f
(
o
p
e
n
)
,
存
在
梯
度
(
列
向
量
)
是
▽
f
(
x
)
=
(
∂
f
(
x
)
∂
x
1
,
∂
f
(
x
)
∂
x
2
,
.
.
.
,
∂
f
(
x
)
∂
x
n
)
T
【
+
】
f
(
y
)
≥
f
(
x
)
+
▽
f
(
x
)
T
(
y
−
x
)
⟺
f
有
凸
性
f(x)一阶可微(differentiable),定义域\forall x,y\isin domf(open),存在梯度(列向量)是\triangledown{f(x)}=(\frac{\partial{f(x)}}{\partial{x_1}},\frac{\partial{f(x)}}{\partial{x_2}},...,\frac{\partial{f(x)}}{\partial{x_n}})^T【+】f(y)\geq f(x)+\triangledown{f(x)^T}(y-x) \iff f有凸性
f(x)一阶可微(differentiable),定义域∀x,y∈domf(open),存在梯度(列向量)是▽f(x)=(∂x1∂f(x),∂x2∂f(x),...,∂xn∂f(x))T【+】f(y)≥f(x)+▽f(x)T(y−x)⟺f有凸性
Sublevel set
定义:
α
−
s
u
b
l
e
v
e
l
s
e
t
o
f
f
:
R
n
→
R
,
C
α
=
{
x
∈
d
o
m
f
∣
f
(
x
)
≤
α
}
\alpha-sublevel\space set\space of\space f:R^n\rightarrow R,C_{\alpha}=\{x\isin domf| f(x)\leq \alpha\}
α−sublevel set of f:Rn→R,Cα={x∈domf∣f(x)≤α}(要求区间是连续的)
凸函数的Sublevel set是凸性的(其逆函数不一定)
Epigraph
定义:
e
p
i
o
f
f
:
R
n
→
R
,
e
p
i
f
=
{
(
x
,
t
)
∈
R
n
+
1
∣
x
∈
d
o
m
f
,
f
(
x
)
≤
t
}
epi\space of\space f:R^n\rightarrow R,epi\space f=\{(x,t)\isin R^{n+1}| x\isin domf,f(x)\leq t\}
epi of f:Rn→R,epi f={(x,t)∈Rn+1∣x∈domf,f(x)≤t}(要求区间是连续的)
f
是
凸
函
数
⟺
e
p
i
f
是
凸
集
f是凸函数\iff epi\space f是凸集
f是凸函数⟺epi f是凸集
例子(epigraph与一阶导数的关系):
一维情况:已知
x
2
x^2
x2函数的切线(类似支撑面),切点,
e
p
i
f
epi f
epif集合
切线的法向量:
(
▽
f
(
x
)
,
−
1
)
(\triangledown{f(x)},-1)
(▽f(x),−1)
tan
θ
=
d
f
d
x
∣
x
=
x
=
▽
f
(
x
)
1
\tan{\theta}=\frac{df}{dx}|_{x=x}=\frac{\triangledown{f(x)}}{1}
tanθ=dxdf∣x=x=1▽f(x)
若有点
(
y
,
t
)
,
存
在
t
≥
f
(
y
)
≥
f
(
x
)
+
▽
f
(
x
)
T
(
y
−
x
)
(y,t),存在t\geq f(y)\geq f(x)+\triangledown{f(x)}^T(y-x)
(y,t),存在t≥f(y)≥f(x)+▽f(x)T(y−x)
前一个不等式是因为epigraph,后一个不等式是因为一阶导数的性质
所以推导:
−
(
t
−
f
(
x
)
)
+
▽
f
(
x
)
T
(
y
−
x
)
≤
0
⟹
[
▽
f
(
x
)
−
1
]
T
[
y
−
x
t
−
f
(
x
)
]
≤
0
-(t-f(x))+\triangledown{f(x)}^T(y-x)\leq 0\implies \begin{bmatrix}\triangledown{f(x)} \\ -1 \end{bmatrix}^T\begin{bmatrix}y-x \\ t-f(x) \end{bmatrix}\leq 0
−(t−f(x))+▽f(x)T(y−x)≤0⟹[▽f(x)−1]T[y−xt−f(x)]≤0(就是两个蓝色的向量内积是小于0的)
Jensen不等式
定义-基本:
∀
θ
∈
[
0
,
1
]
,
凸
函
数
f
,
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
\forall \theta\isin[0,1],凸函数f,f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y)
∀θ∈[0,1],凸函数f,f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
定义-扩展:
f
(
∑
i
=
1
n
θ
i
x
i
)
≤
∑
i
=
1
n
θ
i
f
(
x
i
)
,
∑
i
=
1
n
θ
i
=
1
,
θ
i
∈
[
0
,
1
]
f(\sum\limits_{i=1}^n\theta_ix_i)\leq\sum\limits_{i=1}^n\theta_if(x_i),\sum\limits_{i=1}^n\theta_i=1,\theta_i\isin[0,1]
f(i=1∑nθixi)≤i=1∑nθif(xi),i=1∑nθi=1,θi∈[0,1]
考
虑
随
机
取
值
的
情
况
:
f
(
1
n
∑
i
=
1
n
x
i
)
≤
1
n
∑
i
=
1
n
f
(
x
i
)
,
于
是
f
(
E
X
)
≤
E
f
(
x
)
考虑随机取值的情况:f(\frac{1}{n}\sum\limits_{i=1}^nx_i)\leq \frac{1}{n}\sum\limits_{i=1}^nf(x_i),于是f(EX)\leq Ef(x)
考虑随机取值的情况:f(n1i=1∑nxi)≤n1i=1∑nf(xi),于是f(EX)≤Ef(x)
小结(判定凸函数的5种方法)
- 定义法:
f : R n → R f:R^n\rightarrow R f:Rn→R是凸函数 ⟺ d o m f \iff domf ⟺domf定义域是凸的, ∀ x , y ∈ d o m f , ∀ θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \forall x,y\isin domf,\forall \theta\isin[0,1],f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) ∀x,y∈domf,∀θ∈[0,1],f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y) - 高维限制法:
f : R n → R f:R^n\rightarrow R f:Rn→R是凸函数 ⟺ 凸 函 数 g : R → R ( g ( t ) = f ( x + t v ) ) , d o m g = { t ∣ x + t v ∈ d o m f } 是 凸 集 , t ∈ R , x ∈ d o m f , x 是 原 点 , v ∈ R n , v 是 方 向 \iff 凸函数g:R\rightarrow R(g(t)=f(x+tv)),dom g=\{t|x+tv\isin domf\}是凸集,t\isin R,x\isin domf,x是原点,v\isin R^n,v是方向 ⟺凸函数g:R→R(g(t)=f(x+tv)),domg={t∣x+tv∈domf}是凸集,t∈R,x∈domf,x是原点,v∈Rn,v是方向 - 一阶条件法:
f ( x ) 一 阶 可 微 ( d i f f e r e n t i a b l e ) , 定 义 域 ∀ x , y ∈ d o m f ( o p e n ) , 定 义 域 d o m f 是 凸 的 , 存 在 梯 度 ( 列 向 量 ) 是 ▽ f ( x ) = ( ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , . . . , ∂ f ( x ) ∂ x n ) T , f 是 凸 函 数 ⟺ f ( y ) ≥ f ( x ) + ▽ f ( x ) T ( y − x ) f(x)一阶可微(differentiable),定义域\forall x,y\isin domf(open),定义域domf是凸的,存在梯度(列向量)是\triangledown{f(x)}=(\frac{\partial{f(x)}}{\partial{x_1}},\frac{\partial{f(x)}}{\partial{x_2}},...,\frac{\partial{f(x)}}{\partial{x_n}})^T,f是凸函数\iff f(y)\geq f(x)+\triangledown{f(x)^T}(y-x) f(x)一阶可微(differentiable),定义域∀x,y∈domf(open),定义域domf是凸的,存在梯度(列向量)是▽f(x)=(∂x1∂f(x),∂x2∂f(x),...,∂xn∂f(x))T,f是凸函数⟺f(y)≥f(x)+▽f(x)T(y−x) - 二阶条件法:
f ( x ) 二 阶 可 微 ( t w i c e d i f f e r e n t i a b l e ) , 定 义 域 ∀ x ∈ d o m f ( o p e n ) , 定 义 域 d o m f 是 凸 的 , 存 在 二 阶 导 数 ( 矩 阵 ) ▽ 2 f ( x ) i j = ∂ 2 f ( x ) ∂ x i ∂ x j , i , j = 1 , . . . , n , f 是 凸 函 数 ( ≥ 0 ) ⟺ 二 阶 导 数 是 正 定 ▽ 2 f ( x ) ≥ 0 f(x)二阶可微(twice\space differentiable),定义域\forall x\isin domf(open),定义域domf是凸的,存在二阶导数(矩阵)\triangledown^2{f(x)_{ij}}=\frac{\partial^2{f(x)}}{\partial{x_i}\partial{x_j}},i,j=1,...,n,f是凸函数(\geq 0)\iff 二阶导数是正定\triangledown^2{f(x)}\geq 0 f(x)二阶可微(twice differentiable),定义域∀x∈domf(open),定义域domf是凸的,存在二阶导数(矩阵)▽2f(x)ij=∂xi∂xj∂2f(x),i,j=1,...,n,f是凸函数(≥0)⟺二阶导数是正定▽2f(x)≥0 - epi图法:
f : R n → R f:R^n\rightarrow R f:Rn→R是凸函数 ⟺ e p i o f f : R n → R , e p i f = { ( x , t ) ∈ R n + 1 ∣ x ∈ d o m f , f ( x ) ≤ t } \iff epi\space of\space f:R^n\rightarrow R,epi\space f=\{(x,t)\isin R^{n+1}| x\isin domf,f(x)\leq t\} ⟺epi of f:Rn→R,epi f={(x,t)∈Rn+1∣x∈domf,f(x)≤t}(要求区间是连续的)是凸的
保凸运算
非负权和nonegative weight sum
定义:
逐点求和:
α
i
≥
0
,
f
i
是
凸
函
数
→
f
(
x
)
=
∑
i
=
1
k
α
i
f
i
是
凸
函
数
\alpha_i\geq 0,f_i是凸函数\rightarrow f(x)=\sum\limits_{i=1}^k\alpha_if_i是凸函数
αi≥0,fi是凸函数→f(x)=i=1∑kαifi是凸函数(线性变换保凸)
求和转变为积分形式
无穷点求和:
f
(
x
)
是
凸
函
数
,
∀
y
,
w
(
y
)
≥
0
→
g
(
x
)
=
∫
Ω
f
(
x
,
y
)
w
(
y
)
d
y
是
凸
函
数
f(x)是凸函数,\forall y,w(y)\geq 0\rightarrow g(x)=\int_\Omega f(x,y)w(y)dy是凸函数
f(x)是凸函数,∀y,w(y)≥0→g(x)=∫Ωf(x,y)w(y)dy是凸函数
类似两个凸函数交集的部分子集:
仿射函数复合composition with affine function
定义:
f
(
x
)
是
凸
函
数
→
f
(
A
x
+
b
)
是
凸
函
数
f(x)是凸函数\rightarrow f(Ax+b)是凸函数
f(x)是凸函数→f(Ax+b)是凸函数
例子:
- log barrier
f ( x ) = − ∑ i = 1 m log ( b i − a i T x ) , d o m f = { x ∣ b i − a i T x > 0 , ∀ i } f(x)=-\sum\limits_{i=1}^m\log{(b_i-a_i^Tx)},dom f=\{x|b_i-a_i^Tx>0,\forall i\} f(x)=−i=1∑mlog(bi−aiTx),domf={x∣bi−aiTx>0,∀i} - norm of affine function
f ( x ) = ∣ ∣ A x + b ∣ ∣ f(x)=||Ax+b|| f(x)=∣∣Ax+b∣∣
逐点最大Pointwise maximum
定义:
f
1
(
x
)
,
f
2
(
x
)
是
凸
函
数
→
f
(
x
)
=
m
a
x
{
f
1
(
x
)
,
f
2
(
x
)
}
是
凸
函
数
f_1(x),f_2(x)是凸函数\rightarrow f(x)=max\{f_1(x),f_2(x)\}是凸函数
f1(x),f2(x)是凸函数→f(x)=max{f1(x),f2(x)}是凸函数
例子:
x
∈
R
m
,
X
[
1
]
>
X
[
2
]
>
.
.
.
>
X
[
n
]
,
f
(
x
)
=
max
{
x
i
1
+
x
i
2
+
.
.
.
+
x
i
r
∣
1
≤
i
1
<
i
2
<
.
.
.
<
i
r
≤
n
}
是
凸
函
数
x\isin R^m,X_[1]>X_[2]>...>X_[n],f(x)=\max\{x_{i_1}+x_{i_2}+...+x_{i_r}|1\leq i_1<i_2<...<i_r\leq n\}是凸函数
x∈Rm,X[1]>X[2]>...>X[n],f(x)=max{xi1+xi2+...+xir∣1≤i1<i2<...<ir≤n}是凸函数
逐点上界Pointwise supremum
定义:
∀
y
∈
A
,
f
(
x
,
y
)
对
x
是
凸
函
数
→
g
(
x
)
=
sup
y
∈
A
f
(
x
,
y
)
是
凸
函
数
(
g
是
f
关
于
y
求
极
值
的
函
数
)
\forall y\isin A,f(x,y)对x是凸函数\rightarrow g(x)=\sup\limits_{y\isin A}f(x,y)是凸函数(g是f关于y求极值的函数)
∀y∈A,f(x,y)对x是凸函数→g(x)=y∈Asupf(x,y)是凸函数(g是f关于y求极值的函数)
例子:
- 集合C的support function: x 是 凸 函 数 → S C ( x ) = sup y ∈ C y T x 是 凸 函 数 x是凸函数\rightarrow S_C(x)=\sup\limits_{y\isin C}y^Tx是凸函数 x是凸函数→SC(x)=y∈CsupyTx是凸函数
- 集合C的最远距离: 求 范 数 是 凸 函 数 → f ( x ) = sup y ∈ C ∣ ∣ x − y ∣ ∣ 求范数是凸函数\rightarrow f(x)=\sup\limits_{y\isin C}||x-y|| 求范数是凸函数→f(x)=y∈Csup∣∣x−y∣∣
- 对称矩阵( X ∈ S n X\isin S^n X∈Sn)的最大特征值(eigenvalue): 对 称 矩 阵 X 线 性 仍 是 凸 函 数 → λ m a x ( X ) = sup ∣ ∣ y ∣ ∣ 2 = 1 y T X y 对称矩阵X线性仍是凸函数\rightarrow \lambda_{max}(X)=\sup\limits_{||y||_2=1}y^TXy 对称矩阵X线性仍是凸函数→λmax(X)=∣∣y∣∣2=1supyTXy
标量函数的耦合Composition with scalar functions
定义:
g
:
R
n
→
R
,
h
:
R
→
R
,
f
(
x
)
=
h
(
g
(
x
)
)
,
f
′
(
x
)
=
h
′
(
g
(
x
)
)
g
′
(
x
)
,
f
′
′
(
x
)
=
h
′
′
(
g
(
x
)
)
(
g
′
(
x
)
)
2
+
h
′
(
g
(
x
)
)
g
′
′
(
x
)
g:R^n\rightarrow R,h:R\rightarrow R,f(x)=h(g(x)),f'(x)=h'(g(x))g'(x),f''(x)=h''(g(x))(g'(x))^2+h'(g(x))g''(x)
g:Rn→R,h:R→R,f(x)=h(g(x)),f′(x)=h′(g(x))g′(x),f′′(x)=h′′(g(x))(g′(x))2+h′(g(x))g′′(x)
[
1
]
.
g
是
凸
函
数
(
g
′
′
≥
0
)
,
h
的
延
拓
h
~
是
非
递
减
的
(
h
′
≥
0
)
,
h
是
凸
函
数
(
f
′
′
≥
0
)
[1].g是凸函数(g''\geq 0),h的延拓\tilde{h}是非递减的(h'\geq 0),h是凸函数(f''\geq 0)
[1].g是凸函数(g′′≥0),h的延拓h~是非递减的(h′≥0),h是凸函数(f′′≥0)
[
2
]
.
g
是
凹
函
数
(
g
′
′
≤
0
)
,
h
的
延
拓
h
~
是
非
递
增
的
(
h
′
≤
0
)
,
h
是
凸
函
数
(
f
′
′
≥
0
)
[2].g是凹函数(g''\leq 0),h的延拓\tilde{h}是非递增的(h'\leq 0),h是凸函数(f''\geq 0)
[2].g是凹函数(g′′≤0),h的延拓h~是非递增的(h′≤0),h是凸函数(f′′≥0)
→
f
(
x
)
是
凸
函
数
(
f
′
′
(
x
)
≥
0
)
\rightarrow f(x)是凸函数(f''(x)\geq 0)
→f(x)是凸函数(f′′(x)≥0)
证明:
x
,
y
∈
d
o
m
g
,
f
(
x
)
=
h
(
g
(
x
)
)
,
证
明
条
件
[
1
]
成
立
x,y\isin domg,f(x)=h(g(x)),证明条件[1]成立
x,y∈domg,f(x)=h(g(x)),证明条件[1]成立
1.
g
是
凸
函
数
,
所
以
g
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
g
(
x
)
+
(
1
−
θ
)
g
(
y
)
1.g是凸函数,所以g(\theta x+(1-\theta)y)\leq \theta g(x)+(1-\theta)g(y)
1.g是凸函数,所以g(θx+(1−θ)y)≤θg(x)+(1−θ)g(y)
2.
h
是
凸
函
数
,
所
以
h
(
g
(
θ
x
+
(
1
−
θ
)
y
)
)
≤
h
(
θ
g
(
x
)
+
(
1
−
θ
)
g
(
y
)
)
≤
θ
h
(
g
(
x
)
)
+
(
1
−
θ
)
h
(
g
(
y
)
)
2.h是凸函数,所以h(g(\theta x+(1-\theta)y))\leq h(\theta g(x)+(1-\theta)g(y))\leq \theta h(g(x))+(1-\theta)h(g(y))
2.h是凸函数,所以h(g(θx+(1−θ)y))≤h(θg(x)+(1−θ)g(y))≤θh(g(x))+(1−θ)h(g(y))
3.
根
据
延
拓
h
~
的
定
义
,
若
g
(
x
)
∉
d
o
m
h
,
那
么
h
(
g
(
x
)
)
=
∞
,
上
述
不
等
式
也
成
立
,
于
是
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
,
f
是
凸
函
数
3.根据延拓\tilde{h}的定义,若g(x)\notin domh,那么h(g(x))=\infty,上述不等式也成立,于是f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y),f是凸函数
3.根据延拓h~的定义,若g(x)∈/domh,那么h(g(x))=∞,上述不等式也成立,于是f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y),f是凸函数
例子:
- g ( x ) 是 凸 函 数 → exp g ( x ) 是 凸 函 数 g(x)是凸函数\rightarrow \exp{g(x)}是凸函数 g(x)是凸函数→expg(x)是凸函数
- g ( x ) 是 凹 函 数 , g ( x ) > 0 → 1 g ( x ) 是 凸 函 数 g(x)是凹函数,g(x)>0\rightarrow \frac{1}{g(x)}是凸函数 g(x)是凹函数,g(x)>0→g(x)1是凸函数
向量的耦合Vector composition
定义:
g
:
R
n
→
R
k
,
h
:
R
k
→
R
,
f
(
x
)
=
h
(
g
(
x
)
)
=
h
(
g
1
(
x
)
,
g
2
(
x
)
,
.
.
.
,
g
k
(
x
)
)
g:R^n\rightarrow R^k,h:R^k\rightarrow R,f(x)=h(g(x))=h(g_1(x),g_2(x),...,g_k(x))
g:Rn→Rk,h:Rk→R,f(x)=h(g(x))=h(g1(x),g2(x),...,gk(x))
回
顾
多
元
函
数
二
阶
导
数
因
子
:
▽
2
f
(
x
)
i
j
=
∂
2
f
(
x
)
∂
x
i
∂
x
j
回顾多元函数二阶导数因子:\triangledown^2{f(x)_{ij}}=\frac{\partial^2{f(x)}}{\partial{x_i}\partial{x_j}}
回顾多元函数二阶导数因子:▽2f(x)ij=∂xi∂xj∂2f(x)
f
′
′
(
x
)
=
g
′
(
x
)
T
▽
2
h
(
g
(
x
)
)
g
′
(
x
)
+
▽
h
(
g
(
x
)
)
T
g
′
′
(
x
)
f''(x)=g'(x)^T\triangledown^2{h(g(x))}g'(x)+\triangledown h(g(x))^Tg''(x)
f′′(x)=g′(x)T▽2h(g(x))g′(x)+▽h(g(x))Tg′′(x)
[
1
]
.
g
i
是
凸
函
数
,
h
的
延
拓
h
~
是
非
递
减
的
,
h
是
凸
函
数
[1].g_i是凸函数,h的延拓\tilde{h}是非递减的,h是凸函数
[1].gi是凸函数,h的延拓h~是非递减的,h是凸函数
[
2
]
.
g
i
是
凹
函
数
,
h
的
延
拓
h
~
是
非
递
增
的
,
h
是
凸
函
数
[2].g_i是凹函数,h的延拓\tilde{h}是非递增的,h是凸函数
[2].gi是凹函数,h的延拓h~是非递增的,h是凸函数
→
f
(
x
)
是
凸
函
数
(
f
′
′
(
x
)
≥
0
)
\rightarrow f(x)是凸函数(f''(x)\geq 0)
→f(x)是凸函数(f′′(x)≥0)
例子:
- g i ( x ) 是 凹 函 数 , g i ( x ) > 0 → ∑ i = 1 m log g i ( x ) 是 凹 函 数 , 加 上 负 号 凹 凸 性 改 变 g_i(x)是凹函数,g_i(x)>0\rightarrow \sum\limits_{i=1}^m\log g_i(x)是凹函数,加上负号凹凸性改变 gi(x)是凹函数,gi(x)>0→i=1∑mloggi(x)是凹函数,加上负号凹凸性改变
- g i ( x ) 是 凸 函 数 → log ∑ i = 1 m exp g i ( x ) 是 凸 函 数 ( 二 阶 导 非 负 ) g_i(x)是凸函数\rightarrow \log{\sum\limits_{i=1}^m\exp g_i(x)}是凸函数(二阶导非负) gi(x)是凸函数→logi=1∑mexpgi(x)是凸函数(二阶导非负)
最小值Minimization
定义:
f
(
x
,
y
)
对
(
x
,
y
)
都
满
足
凸
函
数
,
C
是
凸
集
→
g
(
x
)
=
inf
y
∈
C
f
(
x
,
y
)
是
凸
函
数
f(x,y)对(x,y)都满足凸函数,C是凸集\rightarrow g(x)=\inf\limits_{y\isin C}f(x,y)是凸函数
f(x,y)对(x,y)都满足凸函数,C是凸集→g(x)=y∈Cinff(x,y)是凸函数
例子:
高
维
倾
斜
二
次
型
函
数
:
f
(
x
)
=
x
T
A
x
+
2
x
T
B
y
+
y
T
C
y
高维倾斜二次型函数:f(x)=x^TAx+2x^TBy+y^TCy
高维倾斜二次型函数:f(x)=xTAx+2xTBy+yTCy
f
(
x
)
的
二
阶
导
[
A
B
B
T
C
]
≥
0
,
C
>
0
→
f
(
x
)
是
凸
函
数
f(x)的二阶导\begin{bmatrix}A & B \\ B^T & C\end{bmatrix}\geq 0,C>0\rightarrow f(x)是凸函数
f(x)的二阶导[ABTBC]≥0,C>0→f(x)是凸函数
f
(
x
,
y
)
对
于
y
进
行
最
小
化
,
g
(
x
)
=
inf
y
∈
C
f
(
x
,
y
)
=
x
T
(
A
−
B
C
−
1
B
T
)
x
根
据
保
凸
运
算
可
知
g
是
凸
函
数
,
所
以
其
系
数
矩
阵
(
舒
尔
补
)
是
半
正
定
的
(
A
−
B
C
−
1
B
T
≥
0
)
f(x,y)对于y进行最小化,g(x)=\inf\limits_{y\isin C}f(x,y)=x^T(A-BC^{-1}B^T)x根据保凸运算可知g是凸函数,所以其系数矩阵(舒尔补)是半正定的(A-BC^{-1}B^T\geq 0)
f(x,y)对于y进行最小化,g(x)=y∈Cinff(x,y)=xT(A−BC−1BT)x根据保凸运算可知g是凸函数,所以其系数矩阵(舒尔补)是半正定的(A−BC−1BT≥0)
舒尔补Schur complement-n×n方阵分块
分块形式:
M
=
[
A
B
C
D
]
n
×
n
M=\begin{bmatrix}A & B \\ C & D\end{bmatrix}_{n\times n}
M=[ACBD]n×n
其
中
A
,
D
是
方
阵
其中 A,D是方阵
其中A,D是方阵
A
是
非
奇
异
的
,
则
A
在
M
中
的
舒
尔
补
:
D
−
C
A
−
1
B
A是非奇异的,则A在M中的舒尔补:D-CA^{-1}B
A是非奇异的,则A在M中的舒尔补:D−CA−1B(顺时针排列)
D
是
非
奇
异
的
,
则
D
在
M
中
的
舒
尔
补
:
A
−
B
D
−
1
C
D是非奇异的,则D在M中的舒尔补:A-BD^{-1}C
D是非奇异的,则D在M中的舒尔补:A−BD−1C(顺时针排列)
本质:
A
是
非
奇
异
的
,
则
对
A
做
初
等
对
角
化
:
[
I
0
−
C
A
−
1
I
]
[
A
B
C
D
]
[
I
−
A
−
1
B
0
I
]
=
[
A
0
0
D
−
C
A
−
1
B
]
A是非奇异的,则对A做初等对角化:\begin{bmatrix}I & 0 \\ -CA^{-1} & I\end{bmatrix}\begin{bmatrix}A & B \\ C & D\end{bmatrix}\begin{bmatrix}I & -A^{-1}B \\ 0 & I\end{bmatrix}=\begin{bmatrix}A & 0 \\ 0 & D-CA^{-1}B\end{bmatrix}
A是非奇异的,则对A做初等对角化:[I−CA−10I][ACBD][I0−A−1BI]=[A00D−CA−1B]
得到行列式:
∣
A
B
C
D
∣
=
∣
A
0
0
D
−
C
A
−
1
B
∣
=
∣
A
∣
∣
D
−
C
A
−
1
B
∣
\begin{vmatrix}A & B \\ C & D\end{vmatrix}=\begin{vmatrix}A & 0 \\ 0 & D-CA^{-1}B\end{vmatrix}=|A||D-CA^{-1}B|
∣∣∣∣ACBD∣∣∣∣=∣∣∣∣A00D−CA−1B∣∣∣∣=∣A∣∣D−CA−1B∣
所以:
- ( A 非 奇 异 ) M 非 奇 异 ⟺ D − C A − 1 B 非 奇 异 (A非奇异)M非奇异\iff D-CA^{-1}B非奇异 (A非奇异)M非奇异⟺D−CA−1B非奇异
- ( D 非 奇 异 ) M 非 奇 异 ⟺ A − B D − 1 C 非 奇 异 (D非奇异)M非奇异\iff A-BD^{-1}C非奇异 (D非奇异)M非奇异⟺A−BD−1C非奇异
透射函数Perspective
定义:
f
:
R
n
→
R
,
f
是
凸
函
数
,
g
:
R
n
×
R
→
R
,
d
o
m
g
=
{
(
x
,
t
)
∣
x
t
∈
d
o
m
f
,
t
>
0
}
→
g
(
x
,
t
)
=
t
f
(
x
t
)
是
凸
函
数
f:R^n\rightarrow R,f是凸函数,g:R^n\times R\rightarrow R,domg=\{(x,t)|\frac{x}{t}\isin domf,t>0\}\rightarrow g(x,t)=tf(\frac{x}{t})是凸函数
f:Rn→R,f是凸函数,g:Rn×R→R,domg={(x,t)∣tx∈domf,t>0}→g(x,t)=tf(tx)是凸函数
例子:
- f ( x ) = x T x 是 凸 函 数 , t > 0 → g ( x , t ) = x T x t 是 凸 函 数 f(x)=x^Tx是凸函数,t>0\rightarrow g(x,t)=\frac{x^Tx}{t}是凸函数 f(x)=xTx是凸函数,t>0→g(x,t)=txTx是凸函数
- f ( x ) = − log x 是 凸 函 数 → g ( x , t ) = − t log x t 是 凸 函 数 , 在 R + + 2 集 合 上 f(x)=-\log{x}是凸函数\rightarrow g(x,t)=-t\log{\frac{x}{t}}是凸函数,在R_{++}^2集合上 f(x)=−logx是凸函数→g(x,t)=−tlogtx是凸函数,在R++2集合上
- f ( x ) 是 凸 函 数 , 定 义 域 { x ∣ c T x + d > 0 , ( A x + b ) C T x + d ∈ d o m f } → g ( x ) = ( c T x + d ) f ( A x + b c T x + d ) 是 凸 函 数 ( 仿 射 + 透 射 p e r s p e c t i v e ) f(x)是凸函数,定义域\{x|c^Tx+d>0,\frac{(Ax+b)}{C^Tx+d}\isin domf\}\rightarrow g(x)=(c^Tx+d)f(\frac{Ax+b}{c^Tx+d})是凸函数(仿射+透射perspective) f(x)是凸函数,定义域{x∣cTx+d>0,CTx+d(Ax+b)∈domf}→g(x)=(cTx+d)f(cTx+dAx+b)是凸函数(仿射+透射perspective)
小结
请跳转到最后的总结。
共轭函数Conjugate function
原函数是以x为自变量,求y值
共轭函数是以斜率为自变量,求y轴上截距值
找斜率的最小值
⟺
\iff
⟺找y轴上截距的最大值
定义:
多元偏分函数形式:
切
线
:
g
(
x
)
=
(
x
−
x
0
)
∂
f
∂
x
(
x
0
)
+
f
(
x
0
)
)
切线:g(x)=(x-x_0)\frac{\partial f}{\partial x}(x_0)+f(x_0))
切线:g(x)=(x−x0)∂x∂f(x0)+f(x0))
截
距
:
g
(
0
)
=
−
x
0
∂
f
∂
x
(
x
0
)
+
f
(
x
0
)
截距:g(0)=-x_0\frac{\partial f}{\partial x}(x_0)+f(x_0)
截距:g(0)=−x0∂x∂f(x0)+f(x0)
共轭形式:
共轭函数(截距的相反数):
x
=
x
0
∈
d
o
m
f
,
自
变
量
y
=
∂
f
∂
x
,
f
∗
(
y
)
=
y
T
x
−
f
(
x
)
x=x_0\isin domf,自变量y=\frac{\partial f}{\partial x},f^*(y)=y^Tx-f(x)
x=x0∈domf,自变量y=∂x∂f,f∗(y)=yTx−f(x)
f
(
x
)
是
凸
函
数
,
所
以
y
和
−
f
(
x
)
是
凹
函
数
,
有
唯
一
最
大
值
(
sup
就
是
求
最
大
值
)
f(x)是凸函数,所以y和-f(x)是凹函数,有唯一最大值(\sup就是求最大值)
f(x)是凸函数,所以y和−f(x)是凹函数,有唯一最大值(sup就是求最大值)
求 最 值 的 目 标 函 数 : f ∗ ( y ) = sup x ∈ d o m f ( y T x − f ( x ) ) 求最值的目标函数:f^*(y)=\sup\limits_{x\isin domf}(y^Tx-f(x)) 求最值的目标函数:f∗(y)=x∈domfsup(yTx−f(x))
{
y
=
∂
f
∂
x
x
=
∂
f
∗
∂
y
,
属
于
对
称
形
式
,
所
以
两
次
共
轭
会
回
到
原
来
的
函
数
\begin{cases}y=\frac{\partial f}{\partial x} \\ x=\frac{\partial f^*}{\partial y}\end{cases},属于对称形式,所以两次共轭会回到原来的函数
{y=∂x∂fx=∂y∂f∗,属于对称形式,所以两次共轭会回到原来的函数
截
距
是
给
点
,
找
斜
线
求
截
距
最
大
值
截距是给点,找斜线求截距最大值
截距是给点,找斜线求截距最大值
共
轭
是
给
斜
线
,
找
点
求
截
距
最
大
值
,
且
即
使
f
不
是
凸
函
数
,
f
∗
也
是
凸
函
数
共轭是给斜线,找点求截距最大值,且即使f不是凸函数,f^*也是凸函数
共轭是给斜线,找点求截距最大值,且即使f不是凸函数,f∗也是凸函数
例子:
-
f
(
x
)
=
−
log
x
,
x
>
0
→
f
∗
(
y
)
=
sup
x
>
0
(
x
y
+
log
x
)
f(x)=-\log x,x>0\rightarrow f^*(y)=\sup\limits_{x>0}(xy+\log x)
f(x)=−logx,x>0→f∗(y)=x>0sup(xy+logx)
可 知 y = ∂ f ( x ) ∂ x , 最 值 即 导 数 y + 1 x = 0 , 所 以 x = − 1 y 可知y=\frac{\partial f(x)}{\partial x},最值即导数y+\frac{1}{x}=0,所以x=-\frac{1}{y} 可知y=∂x∂f(x),最值即导数y+x1=0,所以x=−y1
f ∗ ( y ) = { − 1 + log ( − 1 y ) y < 0 ∞ y ≥ 0 f^*(y)=\begin{cases} -1+\log{(-\frac{1}{y})} & y<0 \\ \infty & y\geq 0 \end{cases} f∗(y)={−1+log(−y1)∞y<0y≥0 -
f
(
x
)
=
1
2
x
T
Q
x
,
Q
∈
S
+
+
n
→
f
∗
(
y
)
=
sup
x
(
y
T
x
−
1
2
x
T
Q
x
)
⟺
计
算
二
次
函
数
的
极
值
f(x)=\frac{1}{2}x^TQx,Q\isin S_{++}^n\rightarrow f^*(y)=\sup\limits_{x}(y^Tx-\frac{1}{2}x^TQx)\iff计算二次函数的极值
f(x)=21xTQx,Q∈S++n→f∗(y)=xsup(yTx−21xTQx)⟺计算二次函数的极值
根 据 x = Q − 1 y 推 导 出 : f ∗ ( y ) = y T Q − 1 y − 1 2 y T Q − 1 y = 1 2 y T Q − 1 y , 这 形 式 与 f ( x ) 对 称 根据x=Q^{-1}y推导出: f^*(y)=y^TQ^{-1}y-\frac{1}{2}y^TQ^{-1}y=\frac{1}{2}y^TQ^{-1}y,这形式与f(x)对称 根据x=Q−1y推导出:f∗(y)=yTQ−1y−21yTQ−1y=21yTQ−1y,这形式与f(x)对称
类 比 能 量 公 式 : E = 1 2 m v 2 = 1 2 v m v → E ∗ ( p ) = 1 2 p 1 m p = p 2 2 m , p = m v 是 动 量 用 来 表 示 v 的 物 理 过 程 类比能量公式:E=\frac{1}{2}mv^2=\frac{1}{2}vmv\rightarrow E^*(p)=\frac{1}{2}p\frac{1}{m}p=\frac{p^2}{2m},p=mv是动量用来表示v的物理过程 类比能量公式:E=21mv2=21vmv→E∗(p)=21pm1p=2mp2,p=mv是动量用来表示v的物理过程
次凸函数Quasiconvex|次凹函数Quasiconcave
这类函数不全符合凸函数的定义,但是他们仍然有唯一最值
定义:
f
:
R
n
→
R
,
d
o
m
f
是
凸
集
,
∀
α
,
(
s
u
b
l
e
v
e
l
s
e
t
)
S
α
=
{
x
∣
f
(
x
)
≤
α
}
是
凸
集
→
f
是
次
凸
函
数
f:R^n\rightarrow R,domf是凸集,\forall\alpha,(sublevel\space set)S_\alpha=\{x|f(x)\leq\alpha\}是凸集\rightarrow f是次凸函数
f:Rn→R,domf是凸集,∀α,(sublevel set)Sα={x∣f(x)≤α}是凸集→f是次凸函数
f
:
R
n
→
R
,
d
o
m
f
是
凸
集
,
∀
α
,
(
h
i
g
h
l
e
v
e
l
s
e
t
)
H
α
=
{
x
∣
f
(
x
)
>
α
}
是
凸
集
→
f
是
次
凹
函
数
f:R^n\rightarrow R,domf是凸集,\forall\alpha,(highlevel\space set)H_\alpha=\{x|f(x)>\alpha\}是凸集\rightarrow f是次凹函数
f:Rn→R,domf是凸集,∀α,(highlevel set)Hα={x∣f(x)>α}是凸集→f是次凹函数
判定:
- − f 是 次 凸 函 数 → f 是 次 凹 函 数 -f是次凸函数\rightarrow f是次凹函数 −f是次凸函数→f是次凹函数
- f 是 次 凹 函 数 也 是 次 凸 函 数 → f 是 次 线 性 函 数 f是次凹函数也是次凸函数\rightarrow f是次线性函数 f是次凹函数也是次凸函数→f是次线性函数
例子:
-
x ∈ R , f = ∣ x ∣ 是 次 凸 函 数 x\isin R,f=\sqrt{|x|}是次凸函数 x∈R,f=∣x∣是次凸函数
-
f = c e i l ( x ) = i n f { z ∈ Z ∣ z ≥ x } 是 次 线 性 函 数 f=ceil(x)=inf\{z\isin Z|z\geq x\}是次线性函数 f=ceil(x)=inf{z∈Z∣z≥x}是次线性函数
-
x ∈ R + + , f = log x 是 次 线 性 函 数 x\isin R_{++},f=\log x是次线性函数 x∈R++,f=logx是次线性函数
-
x ∈ R + + 2 , f ( x 1 , x 2 ) = x 1 x 2 是 次 凹 函 数 x\isin R_{++}^2,f(x_1,x_2)=x_1x_2是次凹函数 x∈R++2,f(x1,x2)=x1x2是次凹函数
-
d o m f = { x ∣ c T x + d > 0 } , f ( x ) = a T x + b x T x + d 是 次 线 性 函 数 domf=\{x|c^Tx+d>0\},f(x)=\frac{a^Tx+b}{x^Tx+d}是次线性函数 domf={x∣cTx+d>0},f(x)=xTx+daTx+b是次线性函数(linear-fractional-function)
-
d o m f = { x ∣ ∣ ∣ x − a ∣ ∣ 2 ≤ ∣ ∣ x − b ∣ ∣ 2 } , f ( x ) = ∣ ∣ x − a ∣ ∣ 2 ∣ ∣ x − b ∣ ∣ 2 是 次 凸 函 数 domf=\{x|\space ||x-a||_2\leq||x-b||_2\},f(x)=\frac{||x-a||_2}{||x-b||_2}是次凸函数 domf={x∣ ∣∣x−a∣∣2≤∣∣x−b∣∣2},f(x)=∣∣x−b∣∣2∣∣x−a∣∣2是次凸函数
性质:
-
modified Jensen inequality: f 是 次 凸 函 数 θ ∈ [ 0 , 1 ] → f ( θ x + ( 1 − θ ) y ) ≤ max ( f ( x ) , f ( y ) ) f是次凸函数\theta\isin [0,1]\rightarrow f(\theta x+(1-\theta)y)\leq\max{(f(x),f(y))} f是次凸函数θ∈[0,1]→f(θx+(1−θ)y)≤max(f(x),f(y))
【下图是不符合条件的多峰情况】
-
first-order condition: f 定 义 域 是 凸 集 , f 可 微 是 次 凸 函 数 ⟺ f ( y ) ≤ f ( x ) ⟹ ▽ f ( x ) T ( y − x ) ≤ 0 f定义域是凸集,f可微是次凸函数\iff f(y)\leq f(x)\implies \triangledown f(x)^T(y-x)\leq 0 f定义域是凸集,f可微是次凸函数⟺f(y)≤f(x)⟹▽f(x)T(y−x)≤0
-
次凸函数的累加,不一定仍是次凸函数
取log意义下的凹函数log-concave和凸函数log-convex
定义:
log
f
是
凸
函
数
→
f
是
l
o
g
−
c
o
n
v
e
x
函
数
:
θ
∈
[
0
,
1
]
,
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
f
(
x
)
θ
f
(
y
)
1
−
θ
\log{f}是凸函数\rightarrow f是log-convex函数:\theta\isin[0,1],f(\theta x+(1-\theta)y)\leq f(x)^{\theta}f(y)^{1-\theta}
logf是凸函数→f是log−convex函数:θ∈[0,1],f(θx+(1−θ)y)≤f(x)θf(y)1−θ
log
f
是
凹
函
数
→
f
是
l
o
g
−
c
o
n
c
a
v
e
函
数
:
θ
∈
[
0
,
1
]
,
f
(
θ
x
+
(
1
−
θ
)
y
)
≥
f
(
x
)
θ
f
(
y
)
1
−
θ
\log{f}是凹函数\rightarrow f是log-concave函数:\theta\isin[0,1],f(\theta x+(1-\theta)y)\geq f(x)^{\theta}f(y)^{1-\theta}
logf是凹函数→f是log−concave函数:θ∈[0,1],f(θx+(1−θ)y)≥f(x)θf(y)1−θ
公式理解:
log
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
log
f
(
x
)
+
(
1
−
θ
)
log
f
(
y
)
\log{f(\theta x+(1-\theta)y)}\leq \theta\log{f(x)}+(1-\theta)\log{f(y)}
logf(θx+(1−θ)y)≤θlogf(x)+(1−θ)logf(y)
=
log
f
(
x
)
θ
+
log
f
(
y
)
1
−
θ
=\log{f(x)^{\theta}}+\log{f(y)^{1-\theta}}
=logf(x)θ+logf(y)1−θ
=
log
f
(
x
)
θ
f
(
y
)
1
−
θ
=\log{f(x)^{\theta}f(y)^{1-\theta}}
=logf(x)θf(y)1−θ
例子:
(
次
凹
函
数
)
高
斯
函
数
f
(
x
)
=
e
−
x
2
→
(
凹
函
数
)
log
f
(
x
)
=
−
x
2
(次凹函数)高斯函数f(x)=e^{-x^2}\rightarrow (凹函数)\log{f(x)}=-x^2
(次凹函数)高斯函数f(x)=e−x2→(凹函数)logf(x)=−x2
(
l
o
g
−
c
o
n
c
a
v
e
函
数
)
高
斯
分
布
:
Φ
(
x
)
=
∫
−
∞
x
1
2
π
e
−
u
2
2
d
x
(log-concave函数)高斯分布:\Phi(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}dx
(log−concave函数)高斯分布:Φ(x)=∫−∞x2π1e−2u2dx
f
(
x
)
=
x
α
,
x
∈
R
+
+
,
(
1
)
α
≤
0
,
f
(
x
)
是
l
o
g
−
c
o
n
v
e
x
;
(
2
)
α
≥
0
,
f
(
x
)
是
l
o
g
−
c
o
n
c
a
v
e
f(x)=x^{\alpha},x\isin R_{++},(1)\alpha\leq 0,f(x)是log-convex;(2)\alpha\geq 0,f(x)是log-concave
f(x)=xα,x∈R++,(1)α≤0,f(x)是log−convex;(2)α≥0,f(x)是log−concave
性质&特殊log操作:
f
二
阶
可
导
,
d
o
m
f
是
凸
集
f二阶可导,domf是凸集
f二阶可导,domf是凸集
- f 是 l o g − c o n c a v e ( c o n v e x ) ⟺ ▽ 2 f ( x ) ≤ ( ≥ ) ▽ f ( x ) ▽ f ( x ) T f ( x ) f是log-concave(convex)\iff \triangledown^2f(x)\leq(\geq)\frac{\triangledown f(x)\triangledown f(x)^T}{f(x)} f是log−concave(convex)⟺▽2f(x)≤(≥)f(x)▽f(x)▽f(x)T
- Product of log-concave functions is also log-concave: f ( x ) , g ( x ) 都 是 l o g − c o n c a v e , 那 么 log f ( x ) 和 log g ( x ) 就 是 c o n c a v e , 所 以 log f ( x ) + log g ( x ) = log ( f ( x ) g ( x ) ) 是 c o n c a v e , f ( x ) g ( x ) 是 l o g − c o n c a v e f(x),g(x)都是log-concave,那么\log{f(x)}和\log{g(x)}就是concave,所以\log{f(x)}+\log{g(x)}=\log{(f(x)g(x))}是concave,f(x)g(x)是log-concave f(x),g(x)都是log−concave,那么logf(x)和logg(x)就是concave,所以logf(x)+logg(x)=log(f(x)g(x))是concave,f(x)g(x)是log−concave
- Sum of log-concave functions is not always log-concave: log ( f ( x ) + g ( x ) ) \log{(f(x)+g(x))} log(f(x)+g(x))
- Integration积分意义下保凸: f : R n × R m → R 是 l o g − c o n c a v e → g ( x ) = ∫ f ( x , y ) d y 是 l o g − c o n c a v e f:R^n\times R^m\rightarrow R是log-concave\rightarrow g(x)=\int f(x,y)dy是log-concave f:Rn×Rm→R是log−concave→g(x)=∫f(x,y)dy是log−concave
- Convolution卷积意义下: f ( x ) , g ( x ) 都 是 l o g − c o n c a v e → ( f ∗ g ) ( x ) = ∫ f ( x − y ) g ( y ) d y 是 l o g − c o n c a v e f(x),g(x)都是log-concave\rightarrow (f*g)(x)=\int f(x-y)g(y)dy是log-concave f(x),g(x)都是log−concave→(f∗g)(x)=∫f(x−y)g(y)dy是log−concave
广义不等关系的凸性
定义:
recall:
x
−
y
∈
K
⟺
y
≤
K
x
x-y\isin K\iff y\leq_K x
x−y∈K⟺y≤Kx
f
:
R
n
→
R
m
是
K
−
c
o
n
v
e
x
(
K
锥
型
)
,
d
o
m
f
是
凸
集
,
θ
∈
[
0
,
1
]
,
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
K
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
f:R^n\rightarrow R^m是K-convex(K锥型),domf是凸集,\theta\isin[0,1],f(\theta x+(1-\theta)y)\leq_K \theta f(x)+(1-\theta)f(y)
f:Rn→Rm是K−convex(K锥型),domf是凸集,θ∈[0,1],f(θx+(1−θ)y)≤Kθf(x)+(1−θ)f(y)
举例:
f
:
S
m
→
S
m
,
f
(
x
)
=
X
2
是
S
+
m
−
c
o
n
v
e
x
(
对
称
半
正
定
凸
函
数
)
f:S^m\rightarrow S^m,f(x)=X^2是S_+^m-convex(对称半正定凸函数)
f:Sm→Sm,f(x)=X2是S+m−convex(对称半正定凸函数)
证 明 部 分 1. 对 称 半 正 定 阵 : 找 一 个 向 量 v , 使 得 v T A v ≥ 0 : ∀ z , z T X 2 z = z T X T X z = ( X z ) T X z = ∣ ∣ X z ∣ ∣ 2 2 ( 2 类 范 数 ) 是 凸 集 ( 成 立 ) 证明部分1. 对称半正定阵:找一个向量v,使得v^TAv\geq 0:\forall z,z^TX^2z=z^TX^TXz=(Xz)^TXz=||Xz||_2^2(2类范数)是凸集(成立) 证明部分1.对称半正定阵:找一个向量v,使得vTAv≥0:∀z,zTX2z=zTXTXz=(Xz)TXz=∣∣Xz∣∣22(2类范数)是凸集(成立)
证 明 部 分 2. c o n v e x : z T ( θ X + ( 1 − θ ) Y ) 2 z ≤ θ z T X 2 z + ( 1 − θ ) z T Y 2 z ⟹ z T ( θ X 2 + ( 1 − θ ) Y 2 − ( θ X + ( 1 − θ ) Y ) 2 ) z ≥ 0 , 所 以 需 要 条 件 ( θ X + ( 1 − θ ) Y ) 2 ≤ θ X 2 + ( 1 − θ ) Y 2 ( 一 般 意 义 下 的 凸 关 系 成 立 ) 证明部分2. convex:z^T(\theta X+(1-\theta)Y)^2z\leq \theta z^TX^2z+(1-\theta)z^TY^2z\implies z^T(\theta X^2+(1-\theta)Y^2-(\theta X+(1-\theta)Y)^2)z\geq 0,所以需要条件(\theta X+(1-\theta)Y)^2\leq \theta X^2+(1-\theta)Y^2(一般意义下的凸关系成立) 证明部分2.convex:zT(θX+(1−θ)Y)2z≤θzTX2z+(1−θ)zTY2z⟹zT(θX2+(1−θ)Y2−(θX+(1−θ)Y)2)z≥0,所以需要条件(θX+(1−θ)Y)2≤θX2+(1−θ)Y2(一般意义下的凸关系成立)
总结
-
判定一个凸函数的3种方法:
- 定义法
- 凸函数符合Jensen不等式, ∀ x , y ∈ d o m f , ∀ θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) \forall x,y\isin domf,\forall \theta\isin[0,1],f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) ∀x,y∈domf,∀θ∈[0,1],f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
- 凸函数等价定义:(高维限制)
∃
g
(
t
)
=
f
(
x
+
t
v
)
,
f
是
凸
函
数
,
d
o
m
g
=
{
t
∣
x
+
t
v
∈
d
o
m
f
}
\exists g(t)=f(x+tv),f是凸函数,dom g=\{t|x+tv\isin domf\}
∃g(t)=f(x+tv),f是凸函数,domg={t∣x+tv∈domf}
凸函数可以延拓到 R n R^n Rn上,保持凸性,并且区分不同定义域的取值方式。 - 一次微分函数,
f
(
y
)
≥
f
(
x
)
+
▽
f
(
x
)
T
(
y
−
x
)
f(y)\geq f(x)+\triangledown{f(x)^T}(y-x)
f(y)≥f(x)+▽f(x)T(y−x)
就是函数图像在某个点切线之上,高维情况要运用凸函数等价定义(高维限制)。 - epi图判定,epi函数是凸的
sublevel set 和 epigraph都是判定凸函数的充分条件
- 二次微分函数,
▽
2
f
(
x
)
≥
0
\triangledown^2{f(x)}\geq 0
▽2f(x)≥0
高维情况,就是函数二阶导的矩阵是半正定的 - 保凸运算(该部分的小结)
- 非负权和nonegative weight sum
1. α i ≥ 0 , f i 是 凸 函 数 → f ( x ) = ∑ i = 1 k α i f i 是 凸 函 数 1.\alpha_i\geq 0,f_i是凸函数\rightarrow f(x)=\sum\limits_{i=1}^k\alpha_if_i是凸函数 1.αi≥0,fi是凸函数→f(x)=i=1∑kαifi是凸函数(线性变换保凸)
2. f ( x ) 是 凸 函 数 , ∀ y , w ( y ) ≥ 0 → g ( x ) = ∫ Ω f ( x , y ) w ( y ) d y 是 凸 函 数 2.f(x)是凸函数,\forall y,w(y)\geq 0\rightarrow g(x)=\int_\Omega f(x,y)w(y)dy是凸函数 2.f(x)是凸函数,∀y,w(y)≥0→g(x)=∫Ωf(x,y)w(y)dy是凸函数 - 仿射函数复合composition with affine function
f ( x ) 是 凸 函 数 → f ( A x + b ) 是 凸 函 数 f(x)是凸函数\rightarrow f(Ax+b)是凸函数 f(x)是凸函数→f(Ax+b)是凸函数 - 逐点最大pointwise maximum and 逐点上界pointwise supremum
有 限 个 f 1 ( x ) , . . . , f m ( x ) 是 凸 函 数 → f ( x ) = m a x { f 1 ( x ) , . . . , f m ( x ) } 是 凸 函 数 有限个f_1(x),...,f_m(x)是凸函数\rightarrow f(x)=max\{f_1(x),...,f_m(x)\}是凸函数 有限个f1(x),...,fm(x)是凸函数→f(x)=max{f1(x),...,fm(x)}是凸函数
对 无 穷 个 点 , ∀ y ∈ A , f ( x , y ) 对 x 是 凸 函 数 → g ( x ) = sup y ∈ A f ( x , y ) 是 凸 函 数 ( g 是 f 关 于 y 求 极 值 的 函 数 ) 对无穷个点,\forall y\isin A,f(x,y)对x是凸函数\rightarrow g(x)=\sup\limits_{y\isin A}f(x,y)是凸函数(g是f关于y求极值的函数) 对无穷个点,∀y∈A,f(x,y)对x是凸函数→g(x)=y∈Asupf(x,y)是凸函数(g是f关于y求极值的函数) - composition耦合(复合)
标量函数的耦合: g : R n → R , h : R → R , f ( x ) = h ( g ( x ) ) 是 凸 函 数 ( f ′ ′ ( x ) ≥ 0 ) g:R^n\rightarrow R,h:R\rightarrow R,f(x)=h(g(x))是凸函数(f''(x)\geq 0) g:Rn→R,h:R→R,f(x)=h(g(x))是凸函数(f′′(x)≥0)
[ 1 ] . g 是 凸 函 数 ( g ′ ′ ≥ 0 ) , h 的 延 拓 h ~ 是 非 递 减 的 ( h ′ ≥ 0 ) , h 是 凸 函 数 ( f ′ ′ ≥ 0 ) [1].g是凸函数(g''\geq 0),h的延拓\tilde{h}是非递减的(h'\geq 0),h是凸函数(f''\geq 0) [1].g是凸函数(g′′≥0),h的延拓h~是非递减的(h′≥0),h是凸函数(f′′≥0)
[ 2 ] . g 是 凹 函 数 ( g ′ ′ ≤ 0 ) , h 的 延 拓 h ~ 是 非 递 增 的 ( h ′ ≤ 0 ) , h 是 凸 函 数 ( f ′ ′ ≥ 0 ) [2].g是凹函数(g''\leq 0),h的延拓\tilde{h}是非递增的(h'\leq 0),h是凸函数(f''\geq 0) [2].g是凹函数(g′′≤0),h的延拓h~是非递增的(h′≤0),h是凸函数(f′′≥0)
向量的耦合: g : R n → R k , h : R k → R , f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , g 2 ( x ) , . . . , g k ( x ) ) 是 凸 函 数 g:R^n\rightarrow R^k,h:R^k\rightarrow R,f(x)=h(g(x))=h(g_1(x),g_2(x),...,g_k(x))是凸函数 g:Rn→Rk,h:Rk→R,f(x)=h(g(x))=h(g1(x),g2(x),...,gk(x))是凸函数
[ 1 ] . g i 是 凸 函 数 , h 的 延 拓 h ~ 是 非 递 减 的 , h 是 凸 函 数 [1].g_i是凸函数,h的延拓\tilde{h}是非递减的,h是凸函数 [1].gi是凸函数,h的延拓h~是非递减的,h是凸函数
[ 2 ] . g i 是 凹 函 数 , h 的 延 拓 h ~ 是 非 递 增 的 , h 是 凸 函 数 [2].g_i是凹函数,h的延拓\tilde{h}是非递增的,h是凸函数 [2].gi是凹函数,h的延拓h~是非递增的,h是凸函数 - 最小值minimization
f ( x , y ) 对 ( x , y ) 都 满 足 凸 函 数 , C 是 凸 集 → g ( x ) = inf y ∈ C f ( x , y ) 是 凸 函 数 f(x,y)对(x,y)都满足凸函数,C是凸集\rightarrow g(x)=\inf\limits_{y\isin C}f(x,y)是凸函数 f(x,y)对(x,y)都满足凸函数,C是凸集→g(x)=y∈Cinff(x,y)是凸函数
和上界pointwise supremum的差别就是: f ( x , y ) 对 ( x , y ) 都 满 足 凸 函 数 f(x,y)对(x,y)都满足凸函数 f(x,y)对(x,y)都满足凸函数 - 透射函数perspective
f : R n → R , f 是 凸 函 数 , g : R n × R → R , d o m g = { ( x , t ) ∣ x t ∈ d o m f , t > 0 } → g ( x , t ) = t f ( x t ) 是 凸 函 数 f:R^n\rightarrow R,f是凸函数,g:R^n\times R\rightarrow R,domg=\{(x,t)|\frac{x}{t}\isin domf,t>0\}\rightarrow g(x,t)=tf(\frac{x}{t})是凸函数 f:Rn→R,f是凸函数,g:Rn×R→R,domg={(x,t)∣tx∈domf,t>0}→g(x,t)=tf(tx)是凸函数
- 非负权和nonegative weight sum
- 定义法
-
共轭函数Conjugate function
共轭函数(截距的相反数): x = x 0 ∈ d o m f , 自 变 量 y = ∂ f ∂ x , f ∗ ( y ) = sup x ∈ d o m f ( y T x − f ( x ) ) 是 凸 函 数 x=x_0\isin domf,自变量y=\frac{\partial f}{\partial x},f^*(y)=\sup\limits_{x\isin domf}(y^Tx-f(x))是凸函数 x=x0∈domf,自变量y=∂x∂f,f∗(y)=x∈domfsup(yTx−f(x))是凸函数
原函数是以x为自变量,求y值
共轭函数是以斜率为自变量,求y轴上截距值 -
次凸函数Quasiconvex|次凹函数Quasiconcave|次线性Quasilinear
f : R n → R , d o m f 是 凸 集 , ∀ α , ( s u b l e v e l s e t ) S α = { x ∣ f ( x ) ≤ α } 是 凸 集 → f 是 次 凸 函 数 f:R^n\rightarrow R,domf是凸集,\forall\alpha,(sublevel\space set)S_\alpha=\{x|f(x)\leq\alpha\}是凸集\rightarrow f是次凸函数 f:Rn→R,domf是凸集,∀α,(sublevel set)Sα={x∣f(x)≤α}是凸集→f是次凸函数
性质:
1. f 是 次 凸 函 数 θ ∈ [ 0 , 1 ] → f ( θ x + ( 1 − θ ) y ) ≤ max ( f ( x ) , f ( y ) ) 1.f是次凸函数\theta\isin [0,1]\rightarrow f(\theta x+(1-\theta)y)\leq\max{(f(x),f(y))} 1.f是次凸函数θ∈[0,1]→f(θx+(1−θ)y)≤max(f(x),f(y))
2. f 定 义 域 是 凸 集 , f 可 微 是 次 凸 函 数 ⟺ f ( y ) ≤ f ( x ) ⟹ ▽ f ( x ) T ( y − x ) ≤ 0 2.f定义域是凸集,f可微是次凸函数\iff f(y)\leq f(x)\implies \triangledown f(x)^T(y-x)\leq 0 2.f定义域是凸集,f可微是次凸函数⟺f(y)≤f(x)⟹▽f(x)T(y−x)≤0
3. 次 凸 函 数 的 累 加 , 不 一 定 仍 是 次 凸 函 数 3.次凸函数的累加,不一定仍是次凸函数 3.次凸函数的累加,不一定仍是次凸函数 -
log意义下的凹函数log-concave和凸函数log-convex
-
log
f
是
凸
(
凹
)
函
数
⟺
f
是
l
o
g
−
c
o
n
v
e
x
(
c
o
n
c
a
v
e
)
函
数
\log{f}是凸(凹)函数\iff f是log-convex(concave)函数
logf是凸(凹)函数⟺f是log−convex(concave)函数
d o m f 是 凸 集 , f 是 l o g − c o n v e x 函 数 ⟺ θ ∈ [ 0 , 1 ] , x , y ∈ d o m f , f ( θ x + ( 1 − θ ) y ) ≤ f ( x ) θ f ( y ) 1 − θ domf是凸集,f是log-convex函数\iff \theta\isin[0,1],x,y\isin domf,f(\theta x+(1-\theta)y)\leq f(x)^{\theta}f(y)^{1-\theta} domf是凸集,f是log−convex函数⟺θ∈[0,1],x,y∈domf,f(θx+(1−θ)y)≤f(x)θf(y)1−θ
d o m f 是 凸 集 , f 是 l o g − c o n c a v e 函 数 ⟺ θ ∈ [ 0 , 1 ] , x , y ∈ d o m f , f ( θ x + ( 1 − θ ) y ) ≥ f ( x ) θ f ( y ) 1 − θ domf是凸集,f是log-concave函数\iff \theta\isin[0,1],x,y\isin domf,f(\theta x+(1-\theta)y)\geq f(x)^{\theta}f(y)^{1-\theta} domf是凸集,f是log−concave函数⟺θ∈[0,1],x,y∈domf,f(θx+(1−θ)y)≥f(x)θf(y)1−θ - 性质:
f 是 l o g − c o n c a v e ( c o n v e x ) ⟺ ▽ 2 f ( x ) ≤ ( ≥ ) ▽ f ( x ) ▽ f ( x ) T f ( x ) f是log-concave(convex)\iff \triangledown^2f(x)\leq(\geq)\frac{\triangledown f(x)\triangledown f(x)^T}{f(x)} f是log−concave(convex)⟺▽2f(x)≤(≥)f(x)▽f(x)▽f(x)T - 保凸操作:Product,Integration,Convolution
-
log
f
是
凸
(
凹
)
函
数
⟺
f
是
l
o
g
−
c
o
n
v
e
x
(
c
o
n
c
a
v
e
)
函
数
\log{f}是凸(凹)函数\iff f是log-convex(concave)函数
logf是凸(凹)函数⟺f是log−convex(concave)函数
-
广义不等关系的凸性
f : R n → R m 是 K − c o n v e x ( K 锥 型 ) , d o m f 是 凸 集 , θ ∈ [ 0 , 1 ] , f ( θ x + ( 1 − θ ) y ) ≤ K θ f ( x ) + ( 1 − θ ) f ( y ) f:R^n\rightarrow R^m是K-convex(K锥型),domf是凸集,\theta\isin[0,1],f(\theta x+(1-\theta)y)\leq_K \theta f(x)+(1-\theta)f(y) f:Rn→Rm是K−convex(K锥型),domf是凸集,θ∈[0,1],f(θx+(1−θ)y)≤Kθf(x)+(1−θ)f(y)
Reference