第三章: 次梯度 (Part I)
1. 定义与典型例子
定义1 (次梯度 (subgradient)) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为一正常函数,
x
∈
d
o
m
(
f
)
\mathbf{x}\in\mathrm{dom}(f)
x∈dom(f). 我们称向量
g
∈
E
∗
\mathbf{g}\in\mathbb{E}^*
g∈E∗为
f
f
f在
x
\mathbf{x}
x处的次梯度, 若
f
(
y
)
≥
f
(
x
)
+
⟨
g
,
y
−
x
⟩
,
∀
y
∈
E
.
f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g},\mathbf{y-x}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}.
f(y)≥f(x)+⟨g,y−x⟩,∀y∈E.在第一章中, 我们提到在
E
\mathbb{E}
E是内积空间时,
E
∗
\mathbb{E}^*
E∗与
E
\mathbb{E}
E的元素可以看做是相同的 (或一一对应的). 它们唯一的不同只可能是在范数的定义上. 而这一点在欧式空间中也可以不用考虑.
我们也称上述定义次梯度的不等式为次梯度不等式 (subgradient inequality). 这个不等式实际上说明了这样一件事: 每个次梯度都对应原
f
f
f的一个下界估计函数, 而此函数与原
f
f
f在
x
\mathbf{x}
x处是曲面相切的. 由于次梯度不等式对
y
∉
d
o
m
(
f
)
\mathbf{y}\notin\mathrm{dom}(f)
y∈/dom(f)是显然成立的, 因此我们一般将
y
\mathbf{y}
y限制在
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)中, 从而不等式变成
f
(
y
)
≥
f
(
x
)
+
⟨
g
,
y
−
x
⟩
,
∀
y
∈
d
o
m
(
f
)
.
f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle,\quad\forall\mathbf{y}\in\mathrm{dom}(f).
f(y)≥f(x)+⟨g,y−x⟩,∀y∈dom(f).给定某一
x
∈
d
o
m
(
f
)
\mathbf{x}\in\mathrm{dom}(f)
x∈dom(f),
f
f
f在
x
\mathbf{x}
x处可能有不只一个次梯度, 即满足上述次梯度不等式的
g
∈
E
∗
g\in\mathbb{E}^*
g∈E∗不唯一. 我们称
f
f
f在
x
\mathbf{x}
x处所有的次梯度构成的集合为
f
f
f在
x
\mathbf{x}
x处的次微分 (subdifferential).
定义2 (次微分) 我们称 f f f在 x \mathbf{x} x处所有的次梯度构成的集合为 f f f在 x \mathbf{x} x处的次微分, 记作 ∂ f ( x ) \partial f(\mathbf{x}) ∂f(x): ∂ f ( x ) ≡ { g ∈ E ∗ : f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ , ∀ y ∈ E } . \partial f(\mathbf{x})\equiv\{\mathbf{g}\in\mathbb{E}^*:f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle,\forall\mathbf{y}\in\mathbb{E}\}. ∂f(x)≡{g∈E∗:f(y)≥f(x)+⟨g,y−x⟩,∀y∈E}.当 x ∉ d o m ( f ) \mathbf{x}\notin\mathrm{dom}(f) x∈/dom(f), 我们规定 ∂ f ( x ) = ∅ \partial f(\mathbf{x})=\emptyset ∂f(x)=∅. 这一规定是合理的. 事实上, 对于正常函数, 对 ∀ x ∉ d o m ( f ) , y ∈ d o m ( f ) \forall\mathbf{x}\notin\mathrm{dom}(f),\mathbf{y}\in\mathrm{dom}(f) ∀x∈/dom(f),y∈dom(f), 次梯度不等式都不可能成立.
例1 (范数在 0 \mathbf{0} 0处的次微分) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:E→R定义为 f ( x ) = ∥ x ∥ f(\mathbf{x})=\Vert\mathbf{x}\Vert f(x)=∥x∥, 其中 ∥ ⋅ ∥ \Vert\cdot\Vert ∥⋅∥为 E \mathbb{E} E上所赋的范数. 下面我们证明 f f f在 x = 0 \mathbf{x=0} x=0处的次微分是对偶范数下的单位球: ∂ f ( 0 ) = B ∥ ⋅ ∥ ∗ [ 0 , 1 ] = { g ∈ E ∗ : ∥ g ∥ ∗ ≤ 1 } . \boxed{\partial f(\mathbf{0})=B_{\Vert\cdot\Vert_*}[\mathbf{0},1]=\{\mathbf{g}\in\mathbb{E}^*:\Vert\mathbf{g}\Vert_*\le1\}.} ∂f(0)=B∥⋅∥∗[0,1]={g∈E∗:∥g∥∗≤1}.为此, 我们按定义证明. 注意到 g ∈ ∂ f ( 0 ) \mathbf{g}\in\partial f(\mathbf{0}) g∈∂f(0)当且仅当 f ( y ) ≥ f ( 0 ) + ⟨ g , y − 0 ⟩ , ∀ y ∈ E , f(\mathbf{y})\ge f(\mathbf{0})+\langle\mathbf{g,y-0}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}, f(y)≥f(0)+⟨g,y−0⟩,∀y∈E,这等价于 ∥ y ∥ ≥ ⟨ g , y ⟩ , ∀ y ∈ E . \Vert\mathbf{y}\Vert\ge\langle\mathbf{g,y}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}. ∥y∥≥⟨g,y⟩,∀y∈E.下证上式成立当且仅当 ∥ g ∥ ∗ ≤ 1 \Vert\mathbf{g}\Vert_*\le1 ∥g∥∗≤1. 事实上, 若 ∥ g ∥ ∗ ≤ 1 \Vert\mathbf{g}\Vert_*\le1 ∥g∥∗≤1, 则由广义Cauchy-Schwarz不等式可得 ⟨ g , y ⟩ ≤ ∥ g ∥ ∗ ∥ y ∥ ≤ ∥ y ∥ , ∀ y ∈ E . \langle\mathbf{g},\mathbf{y}\rangle\le\Vert\mathbf{g}\Vert_*\Vert\mathbf{y}\Vert\le\Vert\mathbf{y}\Vert,\quad\forall\mathbf{y}\in\mathbb{E}. ⟨g,y⟩≤∥g∥∗∥y∥≤∥y∥,∀y∈E.反过来, 假设有不等式成立, 则有 ∥ g ∥ ∗ = max y : ∥ y ∥ ≤ 1 ⟨ g , y ⟩ ≤ max y : ∥ y ∥ ≤ 1 ∥ y ∥ = 1. \Vert\mathbf{g}\Vert_*=\max_{\mathbf{y}:\Vert\mathbf{y}\Vert\le1}\langle\mathbf{g,y}\rangle\le\max_{\mathbf{y:\Vert y\Vert\le}1}\Vert\mathbf{y}\Vert=1. ∥g∥∗=y:∥y∥≤1max⟨g,y⟩≤y:∥y∥≤1max∥y∥=1.得证.
例2 (
ℓ
1
\ell_1
ℓ1-范数在
0
\mathbf{0}
0处的次微分) 设
f
:
R
n
→
R
f:\mathbb{R}^n\to\mathbb{R}
f:Rn→R定义为
f
(
x
)
=
∥
x
∥
1
f(\mathbf{x})=\Vert\mathbf{x}\Vert_1
f(x)=∥x∥1. 由例1以及
ℓ
1
\ell_1
ℓ1-范数的对偶范数为
ℓ
∞
\ell_{\infty}
ℓ∞-范数, 于是我们有
∂
f
(
0
)
=
B
∥
⋅
∥
∞
[
0
,
1
]
=
[
−
1
,
1
]
n
.
\partial f(\mathbf{0})=B_{\Vert\cdot\Vert_{\infty}}[\mathbf{0},1]=[-1,1]^n.
∂f(0)=B∥⋅∥∞[0,1]=[−1,1]n.特别地, 当
n
=
1
n=1
n=1, 则
f
(
x
)
=
∣
x
∣
f(x)=|x|
f(x)=∣x∣, 于是我们有
∂
f
(
0
)
=
[
−
1
,
1
]
.
\partial f(0)=[-1,1].
∂f(0)=[−1,1].此时, 对应于
−
0.8
,
−
0.3
,
0.7
∈
∂
f
(
0
)
-0.8,-0.3,0.7\in\partial f(0)
−0.8,−0.3,0.7∈∂f(0)的线性下界估计为
−
0.8
x
,
−
0.3
x
,
0.7
x
-0.8x,-0.3x,0.7x
−0.8x,−0.3x,0.7x. 见下图.
下面我们讨论指示函数的次微分. 为此, 我们定义集合的法锥 (normal cone). 给定集合 S ⊂ E , x ∈ S S\subset\mathbb{E},\mathbf{x}\in S S⊂E,x∈S, S S S在 x \mathbf{x} x处的法锥定义为 N S ( x ) = { y ∈ E ∗ : ⟨ y , z − x ⟩ ≤ 0 , ∀ z ∈ S } . N_S(\mathbf{x})=\{\mathbf{y}\in\mathbb{E}^*:\langle\mathbf{y,z-x}\rangle\le0,\forall\mathbf{z}\in S\}. NS(x)={y∈E∗:⟨y,z−x⟩≤0,∀z∈S}.固定 z \mathbf{z} z时, N S N_S NS为一闭凸的半空间. 由此可见, S S S在某点 x \mathbf{x} x处的法锥为若干个闭凸半空间的交, 从而也是闭凸集. 当 x ∉ S \mathbf{x}\notin S x∈/S, 我们规定 N S ( x ) = ∅ N_S(\mathbf{x})=\emptyset NS(x)=∅.
例3 (指示函数的次微分) 设 S ⊂ E S\subset\mathbb{E} S⊂E非空, 考虑其指示函数 δ S \delta_S δS. 于是对 ∀ x ∈ S \forall\mathbf{x}\in S ∀x∈S, 我们有 y ∈ ∂ δ S ( x ) \mathbf{y}\in\partial\delta_S(\mathbf{x}) y∈∂δS(x)当且仅当 δ S ( z ) ≥ δ S ( x ) + ⟨ y , z − x ⟩ , ∀ z ∈ S , \delta_S(\mathbf{z})\ge\delta_S(\mathbf{x})+\langle\mathbf{y,z-x}\rangle,\quad\forall\mathbf{z}\in S, δS(z)≥δS(x)+⟨y,z−x⟩,∀z∈S,这等价于 ⟨ y , z − x ⟩ ≤ 0 , ∀ z ∈ S . \langle\mathbf{y,z-x}\rangle\le0,\quad\forall\mathbf{z}\in S. ⟨y,z−x⟩≤0,∀z∈S.于是依法锥的定义, 我们有 ∂ δ S ( x ) = N S ( x ) , ∀ x ∈ S . \boxed{\partial\delta_S(\mathbf{x})=N_S(\mathbf{x}),\quad\forall\mathbf{x}\in S.} ∂δS(x)=NS(x),∀x∈S.对 x ∉ S \mathbf{x}\notin S x∈/S, ∂ δ S ( x ) = N S ( x ) = ∅ \partial\delta_S(\mathbf{x})=N_S(\mathbf{x})=\emptyset ∂δS(x)=NS(x)=∅. 这表明之前对 N S N_S NS的规定是合理的. 因此上式对 x ∉ S \mathbf{x}\notin S x∈/S也是成立的.
例4 (单位球的指示函数的次微分) 作为例3的特殊情形, 我们令例3中的 S = B [ 0 , 1 ] = { x ∈ E : ∥ x ∥ ≤ 1 } . S=B[\mathbf{0},1]=\{\mathbf{x}\in\mathbb{E}:\Vert\mathbf{x}\Vert\le1\}. S=B[0,1]={x∈E:∥x∥≤1}.于是 ∂ δ S ( x ) = N S ( x ) \partial\delta_S(\mathbf{x})=N_S(\mathbf{x}) ∂δS(x)=NS(x). 下面我们给出 N S N_S NS的解析表示. 若 x ∉ S \mathbf{x}\notin S x∈/S, 则 N S ( x ) = ∅ N_S(\mathbf{x})=\emptyset NS(x)=∅. 设 ∥ x ∥ ≤ 1 \Vert\mathbf{x}\Vert\le1 ∥x∥≤1. 于是 y ∈ E ∗ : y ∈ N S ( x ) \mathbf{y}\in\mathbb{E}^*:\mathbf{y}\in N_S(\mathbf{x}) y∈E∗:y∈NS(x)当且仅当 ⟨ y , z − x ⟩ ≤ 0 , ∀ z : ∥ z ∥ ≤ 1 , \langle\mathbf{y,z-x}\rangle\le0,\quad\forall\mathbf{z}:\Vert\mathbf{z}\Vert\le1, ⟨y,z−x⟩≤0,∀z:∥z∥≤1,这等价于 ∥ y ∥ ∗ = max z : ∥ z ∥ ≤ 1 ⟨ y , z ⟩ ≤ ⟨ y , x ⟩ . \Vert\mathbf{y}\Vert_*=\max_{\mathbf{z}:\Vert\mathbf{z}\Vert\le1}\langle\mathbf{y,z}\rangle\le\langle\mathbf{y,x}\rangle. ∥y∥∗=z:∥z∥≤1max⟨y,z⟩≤⟨y,x⟩.因此, ∂ δ B [ 0 , 1 ] ( x ) = N B [ 0 , 1 ] ( x ) = { { y ∈ E ∗ : ∥ y ∥ ∗ ≤ ⟨ y , x ⟩ } , x ∈ B [ 0 , 1 ] , ∅ , x ∉ B [ 0 , 1 ] . \boxed{\partial\delta_{B[\mathbf{0},1]}(\mathbf{x})=N_{B[\mathbf{0},1]}(\mathbf{x})=\left\{\begin{array}{ll}\{\mathbf{y}\in\mathbb{E}^*:\Vert\mathbf{y}\Vert_*\le\langle\mathbf{y,x}\rangle\}, & \mathbf{x}\in B[\mathbf{0},1],\\\emptyset, & \mathbf{x}\notin B[\mathbf{0},1].\end{array}\right.} ∂δB[0,1](x)=NB[0,1](x)={{y∈E∗:∥y∥∗≤⟨y,x⟩},∅,x∈B[0,1],x∈/B[0,1].
例5 (对偶函数的次梯度) 考虑极小化问题 min { f ( x ) : g ( x ) ≤ 0 , x ∈ X } , \min\{f(\mathbf{x}):\mathbf{g}(\mathbf{x})\le\mathbf{0},\mathbf{x}\in X\}, min{f(x):g(x)≤0,x∈X},其中 ∅ ≠ X ⊂ E \emptyset\ne X\subset\mathbb{E} ∅=X⊂E, f : E → R f:\mathbb{E}\to\mathbb{R} f:E→R以及向量值函数 g : E → R m \mathbf{g}:\mathbb{E}\to\mathbb{R}^m g:E→Rm. 此时Lagrange对偶问题的目标函数为 q ( λ ) = min x ∈ X { L ( x ; λ ) ≡ f ( x ) + λ T g ( x ) } . q(\mathbf{\lambda})=\min_{\mathbf{x}\in X}\left\{L(\mathbf{x};\mathbf{\lambda})\equiv f(\mathbf{x})+\lambda^T\mathbf{g}(\mathbf{x})\right\}. q(λ)=x∈Xmin{L(x;λ)≡f(x)+λTg(x)}.求解对偶问题就是要在 q q q的有效域上求 q q q的极大, 其有效域定义为 d o m ( − q ) = { λ ∈ R + m : q ( λ ) > − ∞ } . \mathrm{dom}(-q)=\{\lambda\in\mathbb{R}_+^m:q(\lambda)>-\infty\}. dom(−q)={λ∈R+m:q(λ)>−∞}.不论原始问题是凸问题与否, 对偶问题 max λ ∈ R m { q ( λ ) : λ ∈ d o m ( − q ) } \max_{\lambda\in\mathbb{R}^m}\{q(\lambda):\lambda\in\mathrm{dom}(-q)\} λ∈Rmmax{q(λ):λ∈dom(−q)}总是凸的, 即 q q q是凹函数且 d o m ( − q ) \mathrm{dom}(-q) dom(−q)是一凸集. 设 λ 0 ∈ d o m ( − q ) \lambda_0\in\mathrm{dom}(-q) λ0∈dom(−q), 并设问题 q ( λ 0 ) = min x ∈ X { f ( x ) + λ 0 T g ( x ) } q(\lambda_0)=\min_{\mathbf{x}\in X}\left\{f(\mathbf{x})+\lambda_0^T\mathbf{g(x)}\right\} q(λ0)=x∈Xmin{f(x)+λ0Tg(x)}的最优值在 x 0 ∈ X \mathbf{x}_0\in X x0∈X处取得, 即 L ( x 0 ; λ 0 ) = f ( x 0 ) + λ 0 T g ( x 0 ) = q ( λ 0 ) . L(\mathbf{x}_0;\lambda_0)=f(\mathbf{x}_0)+\lambda_0^T\mathbf{g}(\mathbf{x}_0)=q(\lambda_0). L(x0;λ0)=f(x0)+λ0Tg(x0)=q(λ0).下面我们来求凸函数 − q -q −q在 λ 0 \lambda_0 λ0处的一个次梯度. 为此, 注意到对 ∀ λ ∈ d o m ( − q ) \forall\lambda\in\mathrm{dom}(-q) ∀λ∈dom(−q), q ( λ ) = min x ∈ X { f ( x ) + λ T g ( x ) } ≤ f ( x 0 ) + λ T g ( x 0 ) = f ( x 0 ) + λ 0 T g ( x 0 ) + ( λ − λ 0 ) T g ( x 0 ) = q ( λ 0 ) + g ( x 0 ) T ( λ − λ 0 ) . \begin{aligned}q(\lambda)&=\min_{\mathbf{x}\in X}\left\{ f(\mathbf{x})+\lambda^T\mathbf{g}(\mathbf{x})\right\}\\&\le f(\mathbf{x}_0)+\lambda^T\mathbf{g}(\mathbf{x}_0)\\&=f(\mathbf{x}_0)+\lambda_0^T\mathbf{g(x}_0)+(\lambda-\lambda_0)^T\mathbf{g(x}_0)\\&=q(\lambda_0)+\mathbf{g(x}_0)^T(\lambda-\lambda_0).\end{aligned} q(λ)=x∈Xmin{f(x)+λTg(x)}≤f(x0)+λTg(x0)=f(x0)+λ0Tg(x0)+(λ−λ0)Tg(x0)=q(λ0)+g(x0)T(λ−λ0).从而由 − q ( λ ) ≥ − q ( λ 0 ) + ( − g ( x 0 ) ) T ( λ − λ 0 ) , ∀ λ ∈ d o m ( − q ) , -q(\lambda)\ge-q(\lambda_0)+\left(-\mathbf{g(x}_0)\right)^T(\lambda-\lambda_0),\quad\forall\lambda\in\mathrm{dom}(-q), −q(λ)≥−q(λ0)+(−g(x0))T(λ−λ0),∀λ∈dom(−q),这就推出 − g ( x 0 ) ∈ ∂ ( − q ) ( λ 0 ) . \boxed{-\mathbf{g(x}_0)\in\partial(-q)(\lambda_0).} −g(x0)∈∂(−q)(λ0).
例6 (取最大特征值函数的次梯度) 考虑函数
f
:
S
n
→
R
f:\mathbb{S}^n\to\mathbb{R}
f:Sn→R定义为
f
(
X
)
=
λ
max
(
X
)
.
f(\mathbf{X})=\lambda_{\max}(\mathbf{X}).
f(X)=λmax(X).设
X
∈
S
n
\mathbf{X}\in\mathbb{S}^n
X∈Sn,
v
\mathbf{v}
v为
X
\mathbf{X}
X对应于最大特征值的单位特征向量 (即
∥
v
∥
2
=
1
\Vert\mathbf{v}\Vert_2=1
∥v∥2=1). 下面我们证明
v
v
T
∈
∂
f
(
X
)
.
\boxed{\mathbf{vv}^T\in\partial f(\mathbf{X}).}
vvT∈∂f(X).为此, 注意对
∀
Y
∈
S
n
\forall\mathbf{Y}\in\mathbb{S}^n
∀Y∈Sn, 我们有
λ
max
(
Y
)
=
max
u
{
u
T
Y
u
:
∥
u
∥
2
=
1
}
≥
v
T
Y
v
=
v
T
X
v
+
v
T
(
Y
−
X
)
v
=
λ
max
(
X
)
+
T
r
(
v
T
(
Y
−
X
)
v
)
=
λ
max
(
X
)
+
T
r
(
v
v
T
(
Y
−
X
)
)
=
λ
max
(
X
)
+
⟨
v
v
T
,
Y
−
X
⟩
,
\begin{aligned}\lambda_{\max}(\mathbf{Y})&=\max_{\mathbf{u}}\{\mathbf{u}^T\mathbf{Yu}:\Vert\mathbf{u}\Vert_2=1\}\\&\ge\mathbf{v}^T\mathbf{Yv}\\&=\mathbf{v}^T\mathbf{Xv}+\mathbf{v}^T\mathbf{(Y-X)v}\\&=\lambda_{\max}(\mathbf{X})+\mathrm{Tr}\left(\mathbf{v}^T\mathbf{(Y-X)v}\right)\\&=\lambda_{\max}(\mathbf{X})+\mathrm{Tr}\left(\mathbf{vv}^T\mathbf{(Y-X)}\right)\\&=\lambda_{\max}(\mathbf{X})+\left\langle\mathbf{vv}^T,\mathbf{Y-X}\right\rangle,\end{aligned}
λmax(Y)=umax{uTYu:∥u∥2=1}≥vTYv=vTXv+vT(Y−X)v=λmax(X)+Tr(vT(Y−X)v)=λmax(X)+Tr(vvT(Y−X))=λmax(X)+⟨vvT,Y−X⟩,
这里需要指出, 例1-例4与例5-例6的结论是存在本质的差别的: 前者我们给出了次微分的完整刻画, 我们称这样的结论为强结论 (strong results); 后者我们仅给出了次微分中的某一个元, 我们称这样的结论为弱结论 (weak results).
2. 次微分的性质
细心的读者可能会发现, 前一小节内我们所列举的次微分集合都是闭凸集. 这不是巧合.
定理1 (次微分集合的闭凸性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]为一正常函数. 则对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} ∀x∈E, 次微分集合 ∂ f ( x ) \partial f(\mathbf{x}) ∂f(x)都是闭凸集.
证明: 对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} ∀x∈E, 次微分集合可以表示成 ∂ f ( x ) = ⋂ y ∈ E H y , \partial f(\mathbf{x})=\bigcap_{\mathbf{y}\in\mathbb{E}}H_{\mathbf{y}}, ∂f(x)=y∈E⋂Hy,其中 H y = { g ∈ E ∗ : f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ } . H_{\mathbf{y}}=\{\mathbf{g}\in\mathbb{E}^*:f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g},\mathbf{y-x}\rangle\}. Hy={g∈E∗:f(y)≥f(x)+⟨g,y−x⟩}.由于 H y H_{\mathbf{y}} Hy都是半空间 (从而是闭凸的), 因此 ∂ f ( x ) \partial f(\mathbf{x}) ∂f(x)也是闭凸的. 证毕.
次微分 ∂ f ( x ) \partial f(\mathbf{x}) ∂f(x)可能是空集. 当其在 x ∈ E \mathbf{x}\in\mathbb{E} x∈E是非空时, 我们称 f f f在 x \mathbf{x} x处次可微 (subdifferentiable).
定义3 (次可微) 我们称一正常函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]在 x ∈ d o m ( f ) \mathbf{x}\in\mathrm{dom}(f) x∈dom(f)是次可微的, 若 ∂ f ( x ) ≠ ∅ \partial f(\mathbf{x})\ne\emptyset ∂f(x)=∅.
我们记所有次可微的点构成的集合为 d o m ( ∂ f ) \mathrm{dom}(\partial f) dom(∂f): d o m ( ∂ f ) = { x ∈ E : ∂ f ( x ) ≠ ∅ } . \mathrm{dom}(\partial f)=\{\mathbf{x}\in\mathbb{E}:\partial f(\mathbf{x})\ne\emptyset\}. dom(∂f)={x∈E:∂f(x)=∅}.下面我们说明若一函数在其凸有效域内任一点处均次可微, 则这个函数也是凸函数.
引理1 (次微分集合非空, 有效域为凸集
⇒
\Rightarrow
⇒函数的凸性) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为一正常函数,
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集. 假设对
∀
x
∈
d
o
m
(
f
)
\forall\mathbf{x}\in\mathrm{dom}(f)
∀x∈dom(f), 集合
∂
f
(
x
)
\partial f(\mathbf{x})
∂f(x)是非空的, 则
f
f
f是凸函数.
证明: 设
x
,
y
∈
d
o
m
(
f
)
\mathbf{x,y}\in\mathrm{dom}(f)
x,y∈dom(f),
α
∈
[
0
,
1
]
\alpha\in[0,1]
α∈[0,1]. 定义
z
α
=
(
1
−
α
)
x
+
α
y
\mathbf{z}_{\alpha}=(1-\alpha)\mathbf{x}+\alpha\mathbf{y}
zα=(1−α)x+αy. 由
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)的凸性, 我们有
z
α
∈
d
o
m
(
f
)
\mathbf{z}_{\alpha}\in\mathrm{dom}(f)
zα∈dom(f). 因此
∃
g
∈
∂
f
(
z
α
)
\exists\mathbf{g}\in\partial f(\mathbf{z}_{\alpha})
∃g∈∂f(zα). 这就推出两个不等式:
f
(
y
)
≥
f
(
z
α
)
+
⟨
g
,
y
−
z
α
⟩
=
f
(
z
α
)
+
(
1
−
α
)
⟨
g
,
y
−
x
⟩
,
f
(
x
)
≥
f
(
z
α
)
+
⟨
g
,
x
−
z
α
⟩
=
f
(
z
α
)
−
α
⟨
g
,
y
−
x
⟩
.
\begin{aligned}f(\mathbf{y})&\ge f(\mathbf{z}_{\alpha})+\langle\mathbf{g,y-z}_{\alpha}\rangle=f(\mathbf{z}_{\alpha})+(1-\alpha)\langle\mathbf{g,y-x}\rangle,\\f(\mathbf{x})&\ge f(\mathbf{z}_{\alpha})+\langle\mathbf{g,x-z}_{\alpha}\rangle=f(\mathbf{z}_{\alpha})-\alpha\langle\mathbf{g,y-x}\rangle.\end{aligned}
f(y)f(x)≥f(zα)+⟨g,y−zα⟩=f(zα)+(1−α)⟨g,y−x⟩,≥f(zα)+⟨g,x−zα⟩=f(zα)−α⟨g,y−x⟩.第一个不等式两边乘
α
\alpha
α, 第二个不等式两边乘
(
1
−
α
)
(1-\alpha)
(1−α), 加起来就得到
f
(
(
1
−
α
)
x
+
α
y
)
=
f
(
z
α
)
≤
(
1
−
α
)
f
(
x
)
+
α
f
(
y
)
.
f\left((1-\alpha)\mathbf{x}+\alpha\mathbf{y}\right)=f(\mathbf{z}_{\alpha})\le(1-\alpha)f(\mathbf{x})+\alpha f(\mathbf{y}).
f((1−α)x+αy)=f(zα)≤(1−α)f(x)+αf(y).因上式对
∀
x
,
y
∈
d
o
m
(
f
)
\forall\mathbf{x,y}\in\mathrm{dom}(f)
∀x,y∈dom(f)成立, 再加上
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集, 由第二章的命题1我们就知道
f
f
f是凸函数. 证毕.
上述引理1的逆命题不真. 即凸函数的有效域中并不一定是点点次可微的.
例7 考虑凸函数
f
:
R
→
(
−
∞
,
∞
]
f:\mathbb{R}\to(-\infty,\infty]
f:R→(−∞,∞]定义为
f
(
x
)
=
{
−
x
,
x
≥
0
,
∞
,
其它
.
f(x)=\left\{\begin{array}{ll}-\sqrt{x}, & x\ge0,\\\infty, & 其它.\end{array}\right.
f(x)={−x,∞,x≥0,其它.此函数的图像见下图.
下面说明 f f f在 x = 0 x=0 x=0处是不次可微的. 为此我们用反证法证明. 假设存在 g ∈ R g\in\mathbb{R} g∈R使得 g ∈ ∂ f ( 0 ) g\in\partial f(0) g∈∂f(0). 则 f ( y ) ≥ f ( 0 ) + g ( y − 0 ) , ∀ y ≥ 0. f(y)\ge f(0)+g(y-0),\quad\forall y\ge0. f(y)≥f(0)+g(y−0),∀y≥0.这等价于 − y ≥ g y , ∀ y ≥ 0. -\sqrt{y}\ge gy,\quad\forall y\ge0. −y≥gy,∀y≥0.当 y > 0 y>0 y>0时, 令 y y y从正实轴趋近于 0 + 0^+ 0+, 就可得 g → − ∞ g\to-\infty g→−∞. 矛盾!
尽管凸函数在有效域不一定次可微, 但它们在各自有效域的内部是一定次可微的. 我们还将证明, 有效域内点处的次微分一定是个有界集. 为此, 我们不加证明地叙述支撑超平面定理 (supporting hyperplane theorem). 它的证明可见泛函分析中关于Hahn-Banach延拓定理的第一几何形式的论述.
定理2 (支撑超平面定理) 设 ∅ ≠ C ⊂ E \emptyset\ne C\subset\mathbb{E} ∅=C⊂E为一凸集, y ∉ i n t ( C ) \mathbf{y}\notin\mathrm{int}(C) y∈/int(C). 于是 ∃ 0 ≠ p ∈ E ∗ \exists\mathbf{0}\ne\mathbf{p}\in\mathbb{E}^* ∃0=p∈E∗使得 ⟨ p , x ⟩ ≤ ⟨ p , y ⟩ , ∀ x ∈ C . \langle\mathbf{p,x}\rangle\le\langle\mathbf{p,y}\rangle,\quad\forall\mathbf{x}\in C. ⟨p,x⟩≤⟨p,y⟩,∀x∈C.
定理3 (有效域内点次微分非空且有界) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]为一正常凸函数, x ~ ∈ i n t ( d o m ( f ) ) \tilde{\mathbf{x}}\in\mathrm{int}(\mathrm{dom}(f)) x~∈int(dom(f)). 于是 ∂ f ( x ~ ) \partial f(\tilde{\mathbf{x}}) ∂f(x~)非空且有界.
证明: 由于 ( x ~ , f ( x ~ ) ) (\tilde{\mathbf{x}},f(\tilde{\mathbf{x}})) (x~,f(x~))位于 e p i ( f ) ⊂ E × R \mathrm{epi}(f)\subset\mathbb{E}\times\mathbb{R} epi(f)⊂E×R的边界, 于是由支撑超平面定理可知存在点 ( x ~ , f ( x ~ ) ) (\tilde{\mathbf{x}},f(\tilde{\mathbf{x}})) (x~,f(x~))和 e p i ( f ) \mathrm{epi}(f) epi(f)之间的分离超平面, 即 ∃ ( 0 , 0 ) ≠ ( p , − α ) ∈ E ∗ × R \exists(\mathbf{0},0)\ne(\mathbf{p},-\alpha)\in\mathbb{E}^*\times\mathbb{R} ∃(0,0)=(p,−α)∈E∗×R使得 ⟨ p , x ~ ⟩ − α f ( x ~ ) ≥ ⟨ p , x ⟩ − α t , ∀ ( x , t ) ∈ e p i ( f ) . \langle\mathbf{p,\tilde x}\rangle-\alpha f(\tilde{\mathbf{x}})\ge\langle\mathbf{p,x}\rangle-\alpha t,\quad\forall(\mathbf{x},t)\in\mathrm{epi}(f). ⟨p,x~⟩−αf(x~)≥⟨p,x⟩−αt,∀(x,t)∈epi(f).因为 ( x ~ , f ( x ~ ) + 1 ) ∈ e p i ( f ) (\tilde{\mathbf{x}},f(\tilde{\mathbf{x}})+1)\in\mathrm{epi}(f) (x~,f(x~)+1)∈epi(f), 因此将 x = x ~ \mathbf{x}=\tilde{\mathbf{x}} x=x~和 t = f ( x ~ ) + 1 t=f(\tilde{\mathbf{x}})+1 t=f(x~)+1代入上述不等式即可知 α ≥ 0 \alpha\ge0 α≥0. 又因为 x ~ ∈ i n t ( d o m ( f ) ) \tilde{\mathbf{x}}\in\mathrm{int}(\mathrm{dom}(f)) x~∈int(dom(f)), 于是由第二章的定理9——凸函数的局部Lipschitz连续性——可知 ∃ ϵ > 0 \exists\epsilon>0 ∃ϵ>0, L > 0 L>0 L>0使得 B ∥ ⋅ ∥ [ x ~ , ϵ ] ⊂ d o m ( f ) B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]\subset\mathrm{dom}(f) B∥⋅∥[x~,ϵ]⊂dom(f)且 ∣ f ( x ) − f ( x ~ ) ∣ ≤ L ∥ x − x ~ ∥ , ∀ x ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] . |f(\mathbf{x})-f(\tilde{\mathbf{x}})|\le L\Vert\mathbf{x-\tilde x}\Vert,\quad\forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]. ∣f(x)−f(x~)∣≤L∥x−x~∥,∀x∈B∥⋅∥[x~,ϵ].因 B ∥ ⋅ ∥ [ x ~ , ϵ ] ⊂ d o m ( f ) B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]\subset\mathrm{dom}(f) B∥⋅∥[x~,ϵ]⊂dom(f), 于是对 ∀ x ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] \forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon] ∀x∈B∥⋅∥[x~,ϵ], ( x , f ( x ) ) ∈ e p i ( f ) (\mathbf{x},f(\mathbf{x}))\in\mathrm{epi}(f) (x,f(x))∈epi(f). 令 t = f ( x ) t=f(\mathbf{x}) t=f(x), 我们有 ⟨ p , x − x ~ ⟩ ≤ α ( f ( x ) − f ( x ~ ) ) ≤ α L ∥ x − x ~ ∥ , ∀ x ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] . \langle\mathbf{p,x-\tilde x}\rangle\le\alpha(f(\mathbf{x})-f(\tilde{\mathbf{x}}))\le\alpha L\Vert\mathbf{x-\tilde x}\Vert,\quad\forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]. ⟨p,x−x~⟩≤α(f(x)−f(x~))≤αL∥x−x~∥,∀x∈B∥⋅∥[x~,ϵ].由Hahn-Banach定理1的推论以及欧式空间的自反性2, 取 p † ∈ E : ⟨ p , p † ⟩ = ∥ p ∥ ∗ , ∥ p † ∥ = 1 \mathbf{p}^{\dagger}\in\mathbb{E}:\langle\mathbf{p,p}^{\dagger}\rangle=\Vert\mathbf{p}\Vert_*,\Vert\mathbf{p}^{\dagger}\Vert=1 p†∈E:⟨p,p†⟩=∥p∥∗,∥p†∥=1. 因为 x ~ + ϵ p † ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] \tilde{\mathbf{x}}+\epsilon\mathbf{p}^{\dagger}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon] x~+ϵp†∈B∥⋅∥[x~,ϵ], 将 x = x ~ + ϵ p † \mathbf{x}=\tilde{\mathbf{x}}+\epsilon\mathbf{p}^{\dagger} x=x~+ϵp†代入上述不等式即可得 ϵ ∥ p ∥ ∗ = ϵ ⟨ p , p † ⟩ ≤ α L ϵ ∥ p † ∥ = α L ϵ . \epsilon\Vert\mathbf{p}\Vert_*=\epsilon\langle\mathbf{p,p}^{\dagger}\rangle\le\alpha L\epsilon\Vert\mathbf{p}^{\dagger}\Vert=\alpha L\epsilon. ϵ∥p∥∗=ϵ⟨p,p†⟩≤αLϵ∥p†∥=αLϵ.因此 α > 0 \alpha>0 α>0. 如若不然, 则有 α = 0 ⇒ p = 0 \alpha=0\Rightarrow\mathbf{p}=\mathbf{0} α=0⇒p=0. 这与 ( p , α ) (\mathbf{p},\alpha) (p,α)不是零向量矛盾. 因此 α \alpha α就可作分母, 得到 f ( x ) ≥ f ( x ~ ) + ⟨ g , x − x ~ ⟩ , ∀ x ∈ d o m ( f ) , f(\mathbf{x})\ge f(\tilde{\mathbf{x}})+\langle\mathbf{g,x-\tilde x}\rangle,\quad\forall\mathbf{x}\in\mathrm{dom}(f), f(x)≥f(x~)+⟨g,x−x~⟩,∀x∈dom(f),其中 g = p / α \mathbf{g}=\mathbf{p}/\alpha g=p/α. 于是 g ∈ ∂ f ( x ~ ) ⇒ ∂ f ( x ~ ) ≠ ∅ \mathbf{g}\in\partial f(\tilde{\mathbf{x}})\Rightarrow\partial f(\tilde{\mathbf{x}})\ne\emptyset g∈∂f(x~)⇒∂f(x~)=∅. 为证明 ∂ f ( x ~ ) \partial f(\tilde{\mathbf{x}}) ∂f(x~)的有界性, 任取 g ∈ ∂ f ( x ~ ) \mathbf{g}\in\partial f(\tilde{\mathbf{x}}) g∈∂f(x~). 取 g † ∈ E : ∥ g ∥ ∗ = ⟨ g , g † ⟩ , ∥ g † ∥ = 1 \mathbf{g}^{\dagger}\in\mathbb{E}:\Vert\mathbf{g}\Vert_*=\langle\mathbf{g,g}^{\dagger}\rangle,\Vert\mathbf{g}^{\dagger}\Vert=1 g†∈E:∥g∥∗=⟨g,g†⟩,∥g†∥=1. 于是代入 x = x ~ + ϵ g † \mathbf{x}=\tilde{\mathbf{x}}+\epsilon\mathbf{g}^{\dagger} x=x~+ϵg†就有 ϵ ∥ g ∥ ∗ = ϵ ⟨ g , g † ⟩ = ⟨ g , x − x ~ ⟩ ≤ f ( x ) − f ( x ~ ) ≤ L ∥ x − x ~ ∥ = L ϵ , \epsilon\Vert\mathbf{g}\Vert_*=\epsilon\langle\mathbf{g,g}^{\dagger}\rangle=\langle\mathbf{g,x-\tilde x}\rangle\le f(\mathbf{x})-f(\tilde{\mathbf{x}})\le L\Vert\mathbf{x-\tilde x}\Vert= L\epsilon, ϵ∥g∥∗=ϵ⟨g,g†⟩=⟨g,x−x~⟩≤f(x)−f(x~)≤L∥x−x~∥=Lϵ,这表明 ∂ f ( x ~ ) ⊂ B ∥ ⋅ ∥ ∗ [ 0 , L ] \partial f(\tilde{\mathbf{x}})\subset B_{\Vert\cdot\Vert_*}[\mathbf{0},L] ∂f(x~)⊂B∥⋅∥∗[0,L]. 证毕.
定理3的结论告诉了我们如下包含关系: i n t ( d o m ( f ) ) ⊂ d o m ( ∂ f ) . \mathrm{int}(\mathrm{dom}(f))\subset\mathrm{dom}(\partial f). int(dom(f))⊂dom(∂f).定理3的一个直接推论是, 实值凸函数 (即 f : d o m ( f ) = E f:\mathrm{dom}(f)=\mathbb{E} f:dom(f)=E) 在任何点处都次可微.
推论1 (实值凸函数的次可微性) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:E→R为一凸函数, 则 f f f在 E \mathbb{E} E上次可微.
我们也可以推广定理3的结论, 将次微分集合的有界性推广至有效域内部的任一给定紧集上.
定理4 (次微分集合在紧集上的有界性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]为一正常凸函数, X ⊂ i n t ( d o m ( f ) ) X\subset\mathrm{int}(\mathrm{dom}(f)) X⊂int(dom(f))为非空紧集. 则 Y = ⋃ x ∈ X ∂ f ( x ) Y=\bigcup_{\mathbf{x}\in X}\partial f(\mathbf{x}) Y=⋃x∈X∂f(x)非空有界.
证明: 由定理3可知对 ∀ x ∈ X \forall\mathbf{x}\in X ∀x∈X, 有 ∂ f ( x ) ≠ ∅ \partial f(\mathbf{x})\ne\emptyset ∂f(x)=∅, 于是 Y Y Y是非空集. 下面我们用反证法证明 Y Y Y的有界性. 假设不然, 存在序列 { x k } k ≥ 1 ⊂ X \{\mathbf{x}_k\}_{k\ge1}\subset X {xk}k≥1⊂X, g k ∈ ∂ f ( x k ) \mathbf{g}_k\in\partial f(\mathbf{x}_k) gk∈∂f(xk)使得 ∥ g k ∥ ∗ → ∞ \Vert\mathbf{g}_k\Vert_*\to\infty ∥gk∥∗→∞. 对 ∀ k \forall k ∀k, 类似于前面定理3的证明, 令 g k † \mathbf{g}_k^{\dagger} gk†为满足 ⟨ g k , g k † ⟩ = ∥ g k ∥ ∗ , ∥ g k † ∥ = 1 \langle\mathbf{g}_k,\mathbf{g}_k^{\dagger}\rangle=\Vert\mathbf{g}_k\Vert_*,\Vert\mathbf{g}_k^{\dagger}\Vert=1 ⟨gk,gk†⟩=∥gk∥∗,∥gk†∥=1的 E \mathbb{E} E中的向量. 因 X X X是紧集 (从而是有界闭集), ( i n t ( d o m ( f ) ) ) c (\mathrm{int}(\mathrm{dom}(f)))^c (int(dom(f)))c是闭集, 且 X ⋂ ( i n t ( d o m ( f ) ) ) c = ∅ X\bigcap(\mathrm{int}(\mathrm{dom}(f)))^c=\emptyset X⋂(int(dom(f)))c=∅, 于是 ∃ ϵ > 0 \exists\epsilon>0 ∃ϵ>0使得 ∥ x − y ∥ ≥ ϵ , ∀ x ∈ X , y ∉ i n t ( d o m ( f ) ) . \Vert\mathbf{x}-\mathbf{y}\Vert\ge\epsilon,\quad\forall\mathbf{x}\in X,\mathbf{y}\notin\mathrm{int}(\mathrm{dom}(f)). ∥x−y∥≥ϵ,∀x∈X,y∈/int(dom(f)).由 g k ∈ ∂ f ( x k ) \mathbf{g}_k\in\partial f(\mathbf{x}_k) gk∈∂f(xk)就推出 f ( x k + ϵ 2 g k † ) − f ( x k ) ≥ ϵ 2 ⟨ g k , g k † ⟩ = ϵ 2 ∥ g k ∥ ∗ , f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\ge\frac{\epsilon}{2}\langle\mathbf{g}_k,\mathbf{g}_k^{\dagger}\rangle=\frac{\epsilon}{2}\Vert\mathbf{g}_k\Vert_*, f(xk+2ϵgk†)−f(xk)≥2ϵ⟨gk,gk†⟩=2ϵ∥gk∥∗,这里注意 x k + ϵ 2 g k † ∈ i n t ( d o m ( f ) ) \mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\in\mathrm{int}(\mathrm{dom}(f)) xk+2ϵgk†∈int(dom(f)). 由于 ∥ g k ∥ ∗ → ∞ \Vert\mathbf{g}_k\Vert_*\to\infty ∥gk∥∗→∞, 于是由上式就存在子列 { x k } k ∈ T , { g k † } k ∈ T \{\mathbf{x}_k\}_{k\in T},\{\mathbf{g}_k^{\dagger}\}_{k\in T} {xk}k∈T,{gk†}k∈T使得在指标集 T T T中有以下极限式 f ( x k + ϵ 2 g k † ) − f ( x k ) → ∞ . f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\to\infty. f(xk+2ϵgk†)−f(xk)→∞.由 { x k } k ∈ T , { g k † } k ∈ T \{\mathbf{x}_k\}_{k\in T},\{\mathbf{g}_k^{\dagger}\}_{k\in T} {xk}k∈T,{gk†}k∈T都是有界的, 因此存在收敛子列 { x k } k ∈ S , { g k † } k ∈ S ( S ⊂ T ) \{\mathbf{x}_k\}_{k\in S},\{\mathbf{g}_k^{\dagger}\}_{k\in S} (S\subset T) {xk}k∈S,{gk†}k∈S(S⊂T), 记收敛点分别为 x ˉ , g ˉ \bar{\mathbf{x}},\bar{\mathbf{g}} xˉ,gˉ. 因此在指标集 S S S中, x k + ϵ 2 g k † → x ˉ + ϵ 2 g ˉ \mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\to\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}} xk+2ϵgk†→xˉ+2ϵgˉ. 因 x k ∈ X \mathbf{x}_k\in X xk∈X, X X X为紧集, 于是 x ˉ ∈ X \bar{\mathbf{x}}\in X xˉ∈X. 再由 ∥ g ˉ ∥ = 1 \Vert\bar{\mathbf{g}}\Vert=1 ∥gˉ∥=1, 可知 x k , x k + ϵ 2 g k † , x ˉ + ϵ 2 g ˉ ∈ i n t ( d o m ( f ) ) \mathbf{x}_k,\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger},\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}}\in\mathrm{int}(\mathrm{dom}(f)) xk,xk+2ϵgk†,xˉ+2ϵgˉ∈int(dom(f)). 从 f f f在 i n t ( d o m ( f ) ) \mathrm{int}(\mathrm{dom}(f)) int(dom(f))上的局部Lipschitz连续性, 就可得到在指标集 S S S中有以下极限式成立 f ( x k + ϵ 2 g k † ) − f ( x k ) → f ( x ˉ + ϵ 2 g ˉ ) − f ( x ˉ ) , f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\to f\left(\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}}\right)-f(\bar{\mathbf{x}}), f(xk+2ϵgk†)−f(xk)→f(xˉ+2ϵgˉ)−f(xˉ),这与 T T T中的极限式矛盾! 证毕.
次可微性并不是在有效域的内部才有. 事实上, 它可以推广至有效域仿射包的内部. 下面我们引入相对内部 (relative interior) 的概念: r i ( S ) = { x ∈ a f f ( S ) : B [ x , ϵ ] ∩ a f f ( S ) ⊂ S , ∃ ϵ > 0 } . \mathrm{ri}(S)=\{\mathbf{x}\in\mathrm{aff}(S):B[\mathbf{x},\epsilon]\cap\mathrm{aff}(S)\subset S,\exists\epsilon>0\}. ri(S)={x∈aff(S):B[x,ϵ]∩aff(S)⊂S,∃ϵ>0}.相对内部的一个重要性质是, 凸集的相对内部一定是非空的.
定理5 (凸集相对内部非空) 设 C ⊂ E C\subset\mathbb{E} C⊂E为一非空凸集. 则 r i ( C ) \mathrm{ri}(C) ri(C)非空.
证明: 我们仅需考虑
a
f
f
(
C
)
=
R
n
,
∃
n
\mathrm{aff}(C)=\mathbb{R}^n,\exists n
aff(C)=Rn,∃n的情形. 事实上, 通过对
C
C
C做平移变换, 我们不妨假设
a
f
f
(
C
)
\mathrm{aff}(C)
aff(C)包含原点
0
\mathbf{0}
0. 从而
a
f
f
(
C
)
\mathrm{aff}(C)
aff(C)是一线性子空间. 因此在下面的证明过程中, 我们都假设
a
f
f
(
C
)
=
R
n
\mathrm{aff}(C)=\mathbb{R}^n
aff(C)=Rn, 因此我们仅需
C
C
C的内部是非空的.
现设
a
f
f
(
C
)
=
R
n
\mathrm{aff}(C)=\mathbb{R}^n
aff(C)=Rn有一仿射基
a
0
,
…
,
a
n
∈
C
\mathbf{a}_0,\ldots,\mathbf{a}_n\in C
a0,…,an∈C. 因
C
C
C是凸集, 所以这些向量的凸包——以
a
0
,
…
,
a
n
\mathbf{a}_0,\ldots,\mathbf{a}_n
a0,…,an为顶点的单纯形
Δ
\Delta
Δ——包含在
C
C
C中. 因此为证明
i
n
t
(
C
)
≠
∅
\mathrm{int}(C)\ne\emptyset
int(C)=∅, 我们只需证明
i
n
t
(
Δ
)
≠
∅
\mathrm{int}(\Delta)\ne\emptyset
int(Δ)=∅. 这点在几何上看起来是很直观的. 下面我们给出其严格证明.
因
a
0
,
…
,
a
n
\mathbf{a}_0,\ldots,\mathbf{a}_n
a0,…,an为仿射基, 因此
∀
x
∈
R
n
\forall\mathbf{x}\in\mathbb{R}^n
∀x∈Rn都是这一基的仿射组合. 而组合系数
λ
i
=
λ
i
(
x
)
\lambda_i=\lambda_i(\mathbf{x})
λi=λi(x)为以下线性系统的解:
∑
i
=
1
n
λ
i
a
i
=
x
,
∑
i
=
0
n
λ
i
=
1
,
\sum_{i=1}^n\lambda_i\mathbf{a}_i=\mathbf{x},\quad\sum_{i=0}^n\lambda_i=1,
i=1∑nλiai=x,i=0∑nλi=1,或者以分量形式, 有
a
01
λ
0
+
a
11
λ
1
+
⋯
+
a
n
1
λ
n
=
x
1
,
a
02
λ
0
+
a
12
λ
1
+
⋯
+
a
n
2
λ
n
=
x
2
,
⋯
⋯
a
0
n
λ
0
+
a
1
n
λ
1
+
⋯
+
a
n
n
λ
n
=
x
n
,
λ
0
+
λ
2
+
⋯
+
λ
n
=
1.
\begin{aligned}a_{01}\lambda_0+a_{11}\lambda_1+\cdots+a_{n1}\lambda_n&=x_1,\\a_{02}\lambda_0+a_{12}\lambda_1+\cdots+a_{n2}\lambda_n&=x_2,\\\cdots&\cdots\\a_{0n}\lambda_0+a_{1n}\lambda_1+\cdots+a_{nn}\lambda_n&=x_n,\\\lambda_0+\lambda_2+\cdots+\lambda_n&=1.\end{aligned}
a01λ0+a11λ1+⋯+an1λna02λ0+a12λ1+⋯+an2λn⋯a0nλ0+a1nλ1+⋯+annλnλ0+λ2+⋯+λn=x1,=x2,⋯=xn,=1.这里
a
p
q
a_{pq}
apq为
a
p
\mathbf{a}_p
ap的第
q
q
q项. 这是一个带
n
+
1
n+1
n+1个未知数的
n
+
1
n+1
n+1阶方程组. 我们断言其对应的齐次系统只有平凡零解. 事实上, 若存在非平凡的解, 则其就对应了
a
i
\mathbf{a}_i
ai的一个非平凡等于
0
\mathbf{0}
0的一个线性组合. 除此之外, 其分量和也是0. 这就与
a
0
,
…
,
a
n
\mathbf{a}_0,\ldots,\mathbf{a}_n
a0,…,an的仿射无关性矛盾! 于是等价地, 我们知道这一线性系统的系数矩阵
A
A
A是非奇异的. 从而解
λ
(
x
)
\lambda(\mathbf{x})
λ(x)由
x
\mathbf{x}
x唯一确定且线性依赖于
x
\mathbf{x}
x.
现取
∀
x
=
x
0
:
λ
i
(
x
0
)
>
0
\forall\mathbf{x}=\mathbf{x}^0:\lambda_i(\mathbf{x}^0)>0
∀x=x0:λi(x0)>0 (从而
x
0
∈
Δ
\mathbf{x}^0\in\Delta
x0∈Δ), 例如
x
0
=
(
n
+
1
)
−
1
∑
i
=
0
n
a
i
\mathbf{x}^0=(n+1)^{-1}\sum_{i=0}^n\mathbf{a}_i
x0=(n+1)−1∑i=0nai. 下面我们证明
x
0
\mathbf{x}^0
x0为
Δ
\Delta
Δ内点. 由
λ
i
(
⋅
)
\lambda_i(\cdot)
λi(⋅)的连续性, 我们推出存在
x
0
\mathbf{x}^0
x0的邻域
B
r
(
x
0
)
B_r(\mathbf{x}^0)
Br(x0)使得
λ
i
(
x
)
≥
0
,
i
=
0
,
…
,
n
,
∀
x
∈
B
r
(
x
0
)
.
\lambda_i(\mathbf{x})\ge0,\quad i=0,\ldots,n,\forall\mathbf{x}\in B_r(\mathbf{x}^0).
λi(x)≥0,i=0,…,n,∀x∈Br(x0).这表明
∀
x
∈
B
r
(
x
0
)
\forall\mathbf{x}\in B_r(\mathbf{x}^0)
∀x∈Br(x0)都是仿射基的凸组合, 因此
x
∈
Δ
\mathbf{x}\in\Delta
x∈Δ. 于是我们证明了
Δ
\Delta
Δ包含了
x
0
\mathbf{x}^0
x0的一个邻域, 所以
x
0
\mathbf{x}^0
x0为
Δ
\Delta
Δ的内点.
正常凸函数在有效域的相对内部总是次可微的. 这就是下面的定理6. 我们仅叙述, 不证明.
定理6 (相对内部点的次可微性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]为一正常凸函数, x ˉ ∈ r i ( d o m ( f ) ) \bar{\mathbf{x}}\in\mathrm{ri}(\mathrm{dom}(f)) xˉ∈ri(dom(f)). 则 ∂ f ( x ˉ ) \partial f(\bar{\mathbf{x}}) ∂f(xˉ)非空.
以上定理6的结论可写成以下形式: r i ( d o m ( f ) ) ⊂ d o m ( ∂ f ) . \mathrm{ri}(\mathrm{dom}(f))\subset\mathrm{dom}(\partial f). ri(dom(f))⊂dom(∂f).若 f f f为凸函数, 则 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集, 因此由定理5, r i ( d o m ( f ) ) ≠ ∅ \mathrm{ri}(\mathrm{dom}(f))\ne\emptyset ri(dom(f))=∅. 于是我们可推出有效域内总有一点次可微.
推论2 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]为一正常凸函数. 于是 ∃ x ∈ d o m ( f ) : ∂ f ( x ) ≠ ∅ \exists\mathbf{x}\in\mathrm{dom}(f):\partial f(\mathbf{x})\ne\emptyset ∃x∈dom(f):∂f(x)=∅.
次微分集合无界的一种情形是, 当有效域的维数严格小于 E \mathbb{E} E的维数.
定理7 (当
dim
(
d
o
m
(
f
)
)
<
dim
(
E
)
\dim(\mathrm{dom}(f))<\dim(\mathbb{E})
dim(dom(f))<dim(E)时次微分集合的无界性) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为一正常凸函数. 假设
dim
(
d
o
m
(
f
)
)
<
dim
(
E
)
\dim(\mathrm{dom}(f))<\dim(\mathbb{E})
dim(dom(f))<dim(E),
x
∈
d
o
m
(
f
)
\mathbf{x}\in\mathrm{dom}(f)
x∈dom(f). 若
∂
f
(
x
)
≠
∅
\partial f(\mathbf{x})\ne\emptyset
∂f(x)=∅, 则
∂
f
(
x
)
\partial f(\mathbf{x})
∂f(x)是无界集.
证明: 令
η
\eta
η为
∂
f
(
x
)
\partial f(\mathbf{x})
∂f(x)中的任一向量. 集合
V
≡
a
f
f
(
d
o
m
(
f
)
)
−
{
x
}
\mathbb{V}\equiv\mathrm{aff}(\mathrm{dom}(f))-\{\mathbf{x}\}
V≡aff(dom(f))−{x}3为一向量空间. 于是
dim
(
V
)
<
dim
(
E
)
\dim(\mathbb{V})<\dim(\mathbb{E})
dim(V)<dim(E). 这表明存在非零
v
∈
E
:
⟨
v
,
w
⟩
=
0
,
∀
w
∈
V
\mathbf{v}\in\mathbb{E}:\langle\mathbf{v,w}\rangle=0,\forall\mathbf{w}\in\mathbb{V}
v∈E:⟨v,w⟩=0,∀w∈V. 对
∀
β
∈
R
\forall\beta\in\mathbb{R}
∀β∈R,
y
∈
d
o
m
(
f
)
\mathbf{y}\in\mathrm{dom}(f)
y∈dom(f),
f
(
y
)
≥
f
(
x
)
+
⟨
η
,
y
−
x
⟩
=
f
(
x
)
=
⟨
η
+
β
v
,
y
−
x
⟩
.
f(\mathbf{y})\ge f(\mathbf{x})+\langle\eta,\mathbf{y-x}\rangle=f(\mathbf{x})=\langle\eta+\beta\mathbf{v,y-x}\rangle.
f(y)≥f(x)+⟨η,y−x⟩=f(x)=⟨η+βv,y−x⟩.于是就有
η
+
β
v
∈
∂
f
(
x
)
,
∀
β
\eta+\beta\mathbf{v}\in\partial f(\mathbf{x}),\forall\beta
η+βv∈∂f(x),∀β.
注1: 定理7与之前的定理4并不冲突. 当 dim ( d o m ( f ) ) < dim ( E ) \dim(\mathrm{dom}(f))<\dim(\mathbb{E}) dim(dom(f))<dim(E)时, 我们有 i n t ( d o m ( f ) ) = ∅ \mathrm{int}(\mathrm{dom}(f))=\emptyset int(dom(f))=∅.
此定理为泛函分析中的重要定理. 可参考Hahn-Banach Theoem. ↩︎
可参考Reflexive Space. ↩︎
此处为Minkowski差. ↩︎