非负加权求和
1.如果函数 f f f是凸函数且 a ≥ 0 a≥0 a≥0,则函数 a f af af也为凸函数。如果函数 f 1 f1 f1和 f 2 f2 f2都是凸函数,则它们的和 f 1 + f 2 f1+ f2 f1+f2也是凸函数。
将非负伸缩以及求和运算结合起来,函数 f = w 1 f 1 + ⋯ + w m f m f=w_{1} f_{1}+\dots+w_{m} f_{m} f=w1f1+⋯+wmfm是凸函数。
这个性质可以扩展至无限项的求和以及积分的情形。例如,如果固定任意
y
∈
A
y∈\mathcal{A}
y∈A,函数
f
(
x
,
y
)
f(x,y)
f(x,y)关于
x
x
x是凸函数,且对任意
y
∈
A
y∈\mathcal{A}
y∈A,有
w
(
y
)
≥
0
w(y)≥0
w(y)≥0,则
函数
g
g
g:
g
(
x
)
=
∫
A
w
(
y
)
f
(
x
,
y
)
d
y
g(x)=\int_{\mathcal{A}} w(y) f(x, y) d y
g(x)=∫Aw(y)f(x,y)dy关于
x
x
x是凸函数。
复合仿射映射
假设函数
f
:
R
"
→
R
,
A
∈
R
n
×
m
f:R"→R, A∈R_{n×m}
f:R"→R,A∈Rn×m以及
b
∈
R
n
b∈R^n
b∈Rn,定义
g
:
R
m
→
R
g:R^m→R
g:Rm→R为
g
(
x
)
=
f
(
A
x
+
b
)
g(x)= f(Ax +b)
g(x)=f(Ax+b),
其中
dom
g
=
{
x
∣
A
x
+
b
∈
dom
f
}
\operatorname{dom} g=\{x | A x+b \in \operatorname{dom} f\}
domg={x∣Ax+b∈domf}.若函数
f
f
f是凸函数,则函数
g
g
g是凸函数。
逐点最大和逐点上确界
如果函数 f 1 f1 f1和 f 2 f2 f2均为凸函数,则二者的逐点最大函数 f f f: f ( x ) = max { f 1 ( x ) , f 2 ( x ) } f(x)=\max \left\{f_{1}(x), f_{2}(x)\right\} f(x)=max{f1(x),f2(x)},其定义域为 dom f = dom f 1 ∩ dom f 2 \operatorname{dom} f=\operatorname{dom} f_{1} \cap \operatorname{dom} f_{2} domf=domf1∩domf2,仍然是凸函数。
例题1:以权为变量的最小二乘费用函数。
令
a
1
,
⋯
,
a
n
∈
R
m
a_{1}, \cdots, a_{n} \in \mathbf{R}^{m}
a1,⋯,an∈Rm,在加权最小二乘问题中,
我们对所有的
x
∈
R
m
x∈R^m
x∈Rm极小化目标函数
∑
i
=
1
n
w
i
(
a
i
T
x
−
b
i
)
2
\sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2}
∑i=1nwi(aiTx−bi)2。 我们称
w
i
w_i
wi为权,并允许负的
w
i
w_i
wi(则目标函数有可能无下界)。
我们定义(最优)加权最小二乘费用函数为
g
(
w
)
=
inf
x
∑
i
=
1
n
w
i
(
a
i
T
x
−
b
i
)
2
g(w)=\inf _{x} \sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2}
g(w)=infx∑i=1nwi(aiTx−bi)2,
其定义域为
dom
g
=
{
w
∣
inf
x
∑
i
=
1
n
w
i
(
a
i
T
x
−
b
i
)
2
>
−
∞
}
\operatorname{dom} g=\left\{w | \inf _{x} \sum_{i=1}^{n} w_{i}\left(a_{i}^{T} x-b_{i}\right)^{2}>-\infty\right\}
domg={w∣infx∑i=1nwi(aiTx−bi)2>−∞},
因为函数
g
g
g是一族关于
w
w
w的线性函数的下确界(对应于不同的
x
∈
R
n
x∈R^n
x∈Rn),它是
w
w
w的凹函数。
例题2:对称矩阵的最大特征值。
定义函数
f
(
X
)
=
λ
max
(
X
)
f(X)=\lambda_{\max }(X)
f(X)=λmax(X),其定义域为
d
o
m
f
=
S
m
dom f= S^m
domf=Sm,它是凸函数。为了说明这一点, 我们将
f
f
f表述为
f
(
X
)
=
sup
{
y
T
X
y
∣
∥
y
∥
2
=
1
}
f(X)=\sup \left\{y^{T} X y |\|y\|_{2}=1\right\}
f(X)=sup{yTXy∣∥y∥2=1},
即针对不同的
y
∈
R
n
y∈R^n
y∈Rn关于
X
X
X的一族线性函数(即
y
T
X
y
y^T Xy
yTXy)的逐点上确界。
例题3:矩阵范数。
考虑函数
f
(
X
)
=
∥
X
∥
2
f(X)=\|X\|_{2}
f(X)=∥X∥2,其定义域为
d
o
m
f
=
R
p
×
q
domf= R^{p×q}
domf=Rp×q,其中
∥
⋅
∥
2
\|\cdot\|_{2}
∥⋅∥2表示谱范数或者最大奇异值。函数
f
f
f可以表述为
f
(
X
)
=
sup
{
u
T
X
v
∣
∥
u
∥
2
=
1
,
∥
v
∥
2
=
1
}
f(X)=\sup \left\{u^{T} X v |\|u\|_{2}=1,\|v\|_{2}=1\right\}
f(X)=sup{uTXv∣∥u∥2=1,∥v∥2=1},
由于它是
X
X
X的一族线性函数的逐点上确界,所以是凸函数。
复合函数保凸或保凹
给定函数
h
:
R
k
→
R
h: \mathbf{R}^{k} \rightarrow \mathbf{R}
h:Rk→R以及
g
:
R
n
→
R
k
g: \mathbf{R}^{n} \rightarrow \mathbf{R}^{k}
g:Rn→Rk,定义复合函数
f
=
h
∘
g
:
R
n
→
R
f=h \circ g: \mathbf{R}^{n} \rightarrow \mathbf{R}
f=h∘g:Rn→R为
f
(
x
)
=
h
(
g
(
x
)
)
,
dom
f
=
{
x
∈
dom
g
∣
g
(
x
)
∈
dom
h
}
f(x)=h(g(x)), \quad \operatorname{dom} f=\{x \in \operatorname{dom} g | g(x) \in \operatorname{dom} h\}
f(x)=h(g(x)),domf={x∈domg∣g(x)∈domh},
我们考虑当函数
f
f
f保凸或者保凹时,函数
h
h
h和
g
g
g必须满足的条件。
1.标量复合
当
k
=
1
\mathbf{k=1}
k=1时,即
h
:
R
→
R
,
g
:
R
n
→
R
h: \mathbf{R} \rightarrow \mathbf{R}, g: \mathbf{R}^{n} \rightarrow \mathbf{R}
h:R→R,g:Rn→R,仅考虑当
n
=
1
\mathbf{n=1}
n=1的情况。
为了找出复合规律,假设函数
h
h
h和
g
g
g是二次可微的,并且
dom
g
=
dom
h
=
R
\operatorname{dom} g=\operatorname{dom} h=R
domg=domh=R,在此假设下,函数
f
f
f是凸的等价于
f
′
′
≥
0
f''≥0
f′′≥0.
复合函数
f
=
h
∘
g
f=h \circ g
f=h∘g的二阶导为:
f
′
′
(
x
)
=
h
′
′
(
g
(
x
)
)
g
′
(
x
)
2
+
h
′
(
g
(
x
)
)
g
′
′
(
x
)
f^{\prime \prime}(x)=h^{\prime \prime}(g(x)) g^{\prime}(x)^{2}+h^{\prime}(g(x)) g^{\prime \prime}(x)
f′′(x)=h′′(g(x))g′(x)2+h′(g(x))g′′(x),
由此式子,可得到:
如果
h
h
h是凸函数且非减(
h
′
′
⩾
0
h^{\prime \prime} \geqslant 0
h′′⩾0且
h
′
⩾
0
h^{\prime} \geqslant 0
h′⩾0),
g
g
g是凸函数(
g
′
′
⩾
0
g^{\prime \prime} \geqslant 0
g′′⩾0),则
f
f
f是凸函数(
f
′
′
≥
0
f''≥0
f′′≥0);
如果
h
h
h是凸函数且非增,
g
g
g是凹函数,则
f
f
f是凸函数;
如果
h
h
h是凹函数且非减,
g
g
g是凹函数,则
f
f
f是凹函数;
如果
h
h
h是凹函数且非增,
g
g
g是凸函数,则
f
f
f是凹函数。
上述在函数
h
h
h和
g
g
g是二次可微,并且
dom
g
=
dom
h
=
R
\operatorname{dom} g=\operatorname{dom} h=\mathbf{R}
domg=domh=R时成立。(1)
对于更一般的情况,如 n > 1 \mathbf{n>1} n>1,不再假设函数 h h h和 g g g可微或者 dom g = R n , dom h = R \operatorname{dom} g=\mathbf{R}^{n}, \operatorname{dom} h=\mathbf{R} domg=Rn,domh=R,仍有:
如果
h
h
h是凸函数且
h
~
\tilde{h}
h~非减,
g
g
g是凸函数,则
f
f
f是凸函数;
如果
h
h
h是凸函数且
h
~
\tilde{h}
h~非增,
g
g
g是凹函数,则
f
f
f是凸函数;
如果
h
h
h是凹函数且
h
~
\tilde{h}
h~非减,
g
g
g是凹函数,则
f
f
f是凹函数;
如果
h
h
h是凹函数且
h
~
\tilde{h}
h~非增,
g
g
g是凸函数,则
f
f
f是凹函数。(2)
其中,
h
~
\tilde{h}
h~表示函数
h
h
h的扩展值延伸,若点不在
d
o
m
h
domh
domh内,对其赋值
∞
∞
∞(若
h
h
h是凸函数)或者
−
∞
-∞
−∞(若
h
h
h是凹函数。)
(2)和(1)的不同是我们要求扩展值延伸
h
~
\tilde{h}
h~在整个
R
R
R上非增或者非减。
h
~
\tilde{h}
h~非减意味着对于任意
x
,
y
∈
R
,
x
<
y
x, y \in \mathbf{R}, x<y
x,y∈R,x<y,有
h
~
(
x
)
⩽
h
~
(
y
)
\tilde{h}(x) \leqslant \tilde{h}(y)
h~(x)⩽h~(y)。
举个小例子来理解以下:
函数
h
(
x
)
=
x
1
/
2
h(x)=x^{1 / 2}
h(x)=x1/2,定义域为
dom
h
=
R
+
\operatorname{dom} h=\mathbf{R}_{+}
domh=R+,显然为凹函数,若
h
~
\tilde{h}
h~不在
d
o
m
h
domh
domh内,则为
−
∞
-∞
−∞,取
x
=
−
1
,
y
=
1
x=-1,y=1
x=−1,y=1,则
h
(
x
)
=
−
∞
,
h
(
y
)
=
1
,
h
(
x
)
<
h
(
y
)
h(x)=-∞,h(y)=1,h(x)<h(y)
h(x)=−∞,h(y)=1,h(x)<h(y),所以
h
~
\tilde{h}
h~非减(非减就是增加的意思呀)
几个简单的复合结论(直接带上述(1)的结论就可以)
●如果
g
g
g是凸函数则
e
g
(
x
)
e^{g(x)}
eg(x)是凸函数。
依据:如果
h
h
h是凸函数且非减,
g
g
g是凸函数,则
f
f
f是凸函数。
●如果
g
g
g是凹函数且大于零,则
l
o
g
g
(
x
)
log g(x)
logg(x)是凹函数。
依据:如果
h
h
h是凹函数且非减,
g
g
g是凹函数,则
f
f
f是凹函数.
●如果
g
g
g是凹函数且大于零,则
1
/
g
(
x
)
1/g(x)
1/g(x)是凸函数。
依据:如果
h
h
h是凸函数且非增,
g
g
g是凹函数,则
f
f
f是凸函数.
●如果 g g g是凸函数且不小于零, p ≥ 1 p≥1 p≥1,则 g ( x ) p g(x)^p g(x)p是凸函数。
●如果 g g g是凸函数,则 − l o g ( − g ( x ) ) -log(-g(x)) −log(−g(x))在 { x ∣ g ( x ) < 0 } \{x | g(x)<0\} {x∣g(x)<0}上是凸函数。
矢量复合
考虑
k
≥
1
k≥1
k≥1的情况,此时更复杂一些。设
f
(
x
)
=
h
(
g
(
x
)
)
=
h
(
g
1
(
x
)
,
⋯
,
g
k
(
x
)
)
f(x)=h(g(x))=h\left(g_{1}(x), \cdots, g_{k}(x)\right)
f(x)=h(g(x))=h(g1(x),⋯,gk(x)),
其中,
h
:
R
k
→
R
,
g
i
:
R
n
→
R
h: \mathbf{R}^{k} \rightarrow \mathbf{R}, \quad g_{i}: \mathbf{R}^{n} \rightarrow \mathbf{R}
h:Rk→R,gi:Rn→R,为了一般性,假设
n
=
1
\mathbf{n=1}
n=1,先对函数求二阶导为:
f
′
′
(
x
)
=
g
′
(
x
)
T
∇
2
h
(
g
(
x
)
)
g
′
(
x
)
+
∇
h
(
g
(
x
)
)
T
g
′
′
(
x
)
f^{\prime \prime}(x)=g^{\prime}(x)^{T} \nabla^{2} h(g(x)) g^{\prime}(x)+\nabla h(g(x))^{T} g^{\prime \prime}(x)
f′′(x)=g′(x)T∇2h(g(x))g′(x)+∇h(g(x))Tg′′(x),
可以得到:
如果
h
h
h是凸函数且在每维分量上
h
h
h非减,
g
i
g_i
gi是凸函数,则
f
f
f是凸函数;
如果
h
h
h是凸函数且在每维分量上
h
h
h非增,
g
i
g_i
gi是凹函数,则
f
f
f是凸函数;
如果
h
h
h是凹函数且在每维分量上
h
h
h非减,
g
i
g_i
gi是凹函数,则
f
f
f是凹函数。
和标量的情形类似,对于 n > 1 n> 1 n>1,类似的复合结论仍然成立,不仅 h h h需要满足单调性条件,其扩展值延伸 h ~ \tilde{h} h~同样必须满足。
几个矢量复合的例子
●令 h ( z ) = z [ 1 ] + ⋯ + z [ r ] h(z)=z_{[1]}+\cdots+z_{[r]} h(z)=z[1]+⋯+z[r],即对 z ∈ R k z∈R^k z∈Rk的前 r r r大分量进行求和.则 h h h是凸函数且在每一维分量上非减。假设 g 1 , ⋯ , g k g_{1}, \cdots, g_{k} g1,⋯,gk是 R n R^n Rn上的凸函数,则复合函数 f = h ∘ g f=h \circ g f=h∘g,即最大 r r r个 g i g_{i} gi函数的逐点和,是凸函数。
●函数 h ( z ) = log ( ∑ i = 1 k e z i ) h(z)=\log \left(\sum_{i=1}^{k} \mathrm{e}^{z_{i}}\right) h(z)=log(∑i=1kezi)是凸函数且在每一维分量上非减,因此只要 g i g_{i} gi是凸函数, log ( ∑ i = 1 k e z i ) \log \left(\sum_{i=1}^{k} \mathrm{e}^{z_{i}}\right) log(∑i=1kezi)就是凸函数。
●对 0 < p ≤ 1 0<p≤1 0<p≤1,定义在 R + k \mathbf{R}_{+}^{k} R+k上的函数 h ( z ) = ( ∑ i = 1 k z i p ) 1 / p h(z)=\left(\sum_{i=1}^{k} z_{i}^{p}\right)^{1 / p} h(z)=(∑i=1kzip)1/p是凹的,且其扩展值延伸在每维分量上非减,则若 g i g_{i} gi是凹函数且非负, h ( z ) = ( ∑ i = 1 k g i ( x ) p ) 1 / p h(z)=\left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p} h(z)=(∑i=1kgi(x)p)1/p是凹函数。
●设
p
⩾
1
,
g
1
,
⋯
,
g
k
p \geqslant 1, g_{1}, \cdots, g_{k}
p⩾1,g1,⋯,gk是凸函数且非负。则函数
(
∑
i
=
1
k
g
i
(
x
)
p
)
1
/
p
\left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p}
(∑i=1kgi(x)p)1/p是凸函数。
证明:考虑函数
h
:
R
k
→
R
h: \mathbf{R}^{k} \rightarrow \mathbf{R}
h:Rk→R,
h
(
z
)
=
(
∑
i
=
1
k
max
{
z
i
,
0
}
p
)
1
/
p
h(z)=\left(\sum_{i=1}^{k} \max \left\{z_{i}, 0\right\}^{p}\right)^{1 / p}
h(z)=(∑i=1kmax{zi,0}p)1/p,
其中
dom
h
=
R
k
\operatorname{dom} h=\mathbf{R}^{k}
domh=Rk,因此
h
=
h
~
h=\tilde{h}
h=h~.由函数
h
h
h是凸函数且非减可知
h
(
g
(
x
)
)
h(g(x))
h(g(x))关于
x
x
x是凸函数。对
z
≥
0
z≥0
z≥0,我们有
h
(
z
)
=
(
∑
i
=
1
k
z
i
p
)
1
/
p
h(z)=\left(\sum_{i=1}^{k} z_{i}^{p}\right)^{1 / p}
h(z)=(∑i=1kzip)1/p,所以
(
∑
i
=
1
k
g
i
(
x
)
p
)
1
/
p
\left(\sum_{i=1}^{k} g_{i}(x)^{p}\right)^{1 / p}
(∑i=1kgi(x)p)1/p是凸函数。
●几何平均函数 h ( z ) = ( ∏ i = 1 k z i ) 1 / k h(z)=\left(\prod_{i=1}^{k} z_{i}\right)^{1 / k} h(z)=(∏i=1kzi)1/k ,定义域为$ \mathbf{R}_{+}^{k}$ ,它是凹函数,且其扩展值延伸在每维分量上非减。因此若 g 1 , ⋯ , g k g_{1}, \cdots, g_{k} g1,⋯,gk是非负凹函数,它们的几何平均 ( ∏ i = 1 k g i ) 1 / k \left(\prod_{i=1}^{k} g_{i}\right)^{1 / k} (∏i=1kgi)1/k也是非负凹函数。