First Order Methods in Optimization Ch3. Subgradients (Part I)

第三章: 次梯度 (Part I)

1. 定义与典型例子

定义1 (次梯度 (subgradient)) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常函数, x ∈ d o m ( f ) \mathbf{x}\in\mathrm{dom}(f) xdom(f). 我们称向量 g ∈ E ∗ \mathbf{g}\in\mathbb{E}^* gE f f f x \mathbf{x} x处的次梯度, 若 f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ , ∀ y ∈ E . f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g},\mathbf{y-x}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}. f(y)f(x)+g,yx,yE.第一章中, 我们提到在 E \mathbb{E} E是内积空间时, E ∗ \mathbb{E}^* E E \mathbb{E} E的元素可以看做是相同的 (或一一对应的). 它们唯一的不同只可能是在范数的定义上. 而这一点在欧式空间中也可以不用考虑.
我们也称上述定义次梯度的不等式为次梯度不等式 (subgradient inequality). 这个不等式实际上说明了这样一件事: 每个次梯度都对应原 f f f的一个下界估计函数, 而此函数与原 f f f x \mathbf{x} x处是曲面相切的. 由于次梯度不等式对 y ∉ d o m ( f ) \mathbf{y}\notin\mathrm{dom}(f) y/dom(f)是显然成立的, 因此我们一般将 y \mathbf{y} y限制在 d o m ( f ) \mathrm{dom}(f) dom(f)中, 从而不等式变成 f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ , ∀ y ∈ d o m ( f ) . f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle,\quad\forall\mathbf{y}\in\mathrm{dom}(f). f(y)f(x)+g,yx,ydom(f).给定某一 x ∈ d o m ( f ) \mathbf{x}\in\mathrm{dom}(f) xdom(f), f f f x \mathbf{x} x处可能有不只一个次梯度, 即满足上述次梯度不等式的 g ∈ E ∗ g\in\mathbb{E}^* gE不唯一. 我们称 f f f x \mathbf{x} x处所有的次梯度构成的集合为 f f f x \mathbf{x} x处的次微分 (subdifferential).

定义2 (次微分) 我们称 f f f x \mathbf{x} x处所有的次梯度构成的集合为 f f f x \mathbf{x} x处的次微分, 记作 ∂ f ( x ) \partial f(\mathbf{x}) f(x): ∂ f ( x ) ≡ { g ∈ E ∗ : f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ , ∀ y ∈ E } . \partial f(\mathbf{x})\equiv\{\mathbf{g}\in\mathbb{E}^*:f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle,\forall\mathbf{y}\in\mathbb{E}\}. f(x){gE:f(y)f(x)+g,yx,yE}. x ∉ d o m ( f ) \mathbf{x}\notin\mathrm{dom}(f) x/dom(f), 我们规定 ∂ f ( x ) = ∅ \partial f(\mathbf{x})=\emptyset f(x)=. 这一规定是合理的. 事实上, 对于正常函数, 对 ∀ x ∉ d o m ( f ) , y ∈ d o m ( f ) \forall\mathbf{x}\notin\mathrm{dom}(f),\mathbf{y}\in\mathrm{dom}(f) x/dom(f),ydom(f), 次梯度不等式都不可能成立.

例1 (范数在 0 \mathbf{0} 0处的次微分) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER定义为 f ( x ) = ∥ x ∥ f(\mathbf{x})=\Vert\mathbf{x}\Vert f(x)=x, 其中 ∥ ⋅ ∥ \Vert\cdot\Vert E \mathbb{E} E上所赋的范数. 下面我们证明 f f f x = 0 \mathbf{x=0} x=0处的次微分是对偶范数下的单位球: ∂ f ( 0 ) = B ∥ ⋅ ∥ ∗ [ 0 , 1 ] = { g ∈ E ∗ : ∥ g ∥ ∗ ≤ 1 } . \boxed{\partial f(\mathbf{0})=B_{\Vert\cdot\Vert_*}[\mathbf{0},1]=\{\mathbf{g}\in\mathbb{E}^*:\Vert\mathbf{g}\Vert_*\le1\}.} f(0)=B[0,1]={gE:g1}.为此, 我们按定义证明. 注意到 g ∈ ∂ f ( 0 ) \mathbf{g}\in\partial f(\mathbf{0}) gf(0)当且仅当 f ( y ) ≥ f ( 0 ) + ⟨ g , y − 0 ⟩ , ∀ y ∈ E , f(\mathbf{y})\ge f(\mathbf{0})+\langle\mathbf{g,y-0}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}, f(y)f(0)+g,y0,yE,这等价于 ∥ y ∥ ≥ ⟨ g , y ⟩ , ∀ y ∈ E . \Vert\mathbf{y}\Vert\ge\langle\mathbf{g,y}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}. yg,y,yE.下证上式成立当且仅当 ∥ g ∥ ∗ ≤ 1 \Vert\mathbf{g}\Vert_*\le1 g1. 事实上, 若 ∥ g ∥ ∗ ≤ 1 \Vert\mathbf{g}\Vert_*\le1 g1, 则由广义Cauchy-Schwarz不等式可得 ⟨ g , y ⟩ ≤ ∥ g ∥ ∗ ∥ y ∥ ≤ ∥ y ∥ , ∀ y ∈ E . \langle\mathbf{g},\mathbf{y}\rangle\le\Vert\mathbf{g}\Vert_*\Vert\mathbf{y}\Vert\le\Vert\mathbf{y}\Vert,\quad\forall\mathbf{y}\in\mathbb{E}. g,ygyy,yE.反过来, 假设有不等式成立, 则有 ∥ g ∥ ∗ = max ⁡ y : ∥ y ∥ ≤ 1 ⟨ g , y ⟩ ≤ max ⁡ y : ∥ y ∥ ≤ 1 ∥ y ∥ = 1. \Vert\mathbf{g}\Vert_*=\max_{\mathbf{y}:\Vert\mathbf{y}\Vert\le1}\langle\mathbf{g,y}\rangle\le\max_{\mathbf{y:\Vert y\Vert\le}1}\Vert\mathbf{y}\Vert=1. g=y:y1maxg,yy:∥y∥1maxy=1.得证.

例2 ( ℓ 1 \ell_1 1-范数在 0 \mathbf{0} 0处的次微分) 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = ∥ x ∥ 1 f(\mathbf{x})=\Vert\mathbf{x}\Vert_1 f(x)=x1. 由例1以及 ℓ 1 \ell_1 1-范数的对偶范数为 ℓ ∞ \ell_{\infty} -范数, 于是我们有 ∂ f ( 0 ) = B ∥ ⋅ ∥ ∞ [ 0 , 1 ] = [ − 1 , 1 ] n . \partial f(\mathbf{0})=B_{\Vert\cdot\Vert_{\infty}}[\mathbf{0},1]=[-1,1]^n. f(0)=B[0,1]=[1,1]n.特别地, 当 n = 1 n=1 n=1, 则 f ( x ) = ∣ x ∣ f(x)=|x| f(x)=x, 于是我们有 ∂ f ( 0 ) = [ − 1 , 1 ] . \partial f(0)=[-1,1]. f(0)=[1,1].此时, 对应于 − 0.8 , − 0.3 , 0.7 ∈ ∂ f ( 0 ) -0.8,-0.3,0.7\in\partial f(0) 0.8,0.3,0.7f(0)的线性下界估计为 − 0.8 x , − 0.3 x , 0.7 x -0.8x,-0.3x,0.7x 0.8x,0.3x,0.7x. 见下图.
在这里插入图片描述

下面我们讨论指示函数的次微分. 为此, 我们定义集合的法锥 (normal cone). 给定集合 S ⊂ E , x ∈ S S\subset\mathbb{E},\mathbf{x}\in S SE,xS, S S S x \mathbf{x} x处的法锥定义为 N S ( x ) = { y ∈ E ∗ : ⟨ y , z − x ⟩ ≤ 0 , ∀ z ∈ S } . N_S(\mathbf{x})=\{\mathbf{y}\in\mathbb{E}^*:\langle\mathbf{y,z-x}\rangle\le0,\forall\mathbf{z}\in S\}. NS(x)={yE:y,zx0,zS}.固定 z \mathbf{z} z时, N S N_S NS为一闭凸的半空间. 由此可见, S S S在某点 x \mathbf{x} x处的法锥为若干个闭凸半空间的交, 从而也是闭凸集. 当 x ∉ S \mathbf{x}\notin S x/S, 我们规定 N S ( x ) = ∅ N_S(\mathbf{x})=\emptyset NS(x)=.

例3 (指示函数的次微分) 设 S ⊂ E S\subset\mathbb{E} SE非空, 考虑其指示函数 δ S \delta_S δS. 于是对 ∀ x ∈ S \forall\mathbf{x}\in S xS, 我们有 y ∈ ∂ δ S ( x ) \mathbf{y}\in\partial\delta_S(\mathbf{x}) yδS(x)当且仅当 δ S ( z ) ≥ δ S ( x ) + ⟨ y , z − x ⟩ , ∀ z ∈ S , \delta_S(\mathbf{z})\ge\delta_S(\mathbf{x})+\langle\mathbf{y,z-x}\rangle,\quad\forall\mathbf{z}\in S, δS(z)δS(x)+y,zx,zS,这等价于 ⟨ y , z − x ⟩ ≤ 0 , ∀ z ∈ S . \langle\mathbf{y,z-x}\rangle\le0,\quad\forall\mathbf{z}\in S. y,zx0,zS.于是依法锥的定义, 我们有 ∂ δ S ( x ) = N S ( x ) , ∀ x ∈ S . \boxed{\partial\delta_S(\mathbf{x})=N_S(\mathbf{x}),\quad\forall\mathbf{x}\in S.} δS(x)=NS(x),xS. x ∉ S \mathbf{x}\notin S x/S, ∂ δ S ( x ) = N S ( x ) = ∅ \partial\delta_S(\mathbf{x})=N_S(\mathbf{x})=\emptyset δS(x)=NS(x)=. 这表明之前对 N S N_S NS的规定是合理的. 因此上式对 x ∉ S \mathbf{x}\notin S x/S也是成立的.

例4 (单位球的指示函数的次微分) 作为例3的特殊情形, 我们令例3中的 S = B [ 0 , 1 ] = { x ∈ E : ∥ x ∥ ≤ 1 } . S=B[\mathbf{0},1]=\{\mathbf{x}\in\mathbb{E}:\Vert\mathbf{x}\Vert\le1\}. S=B[0,1]={xE:x1}.于是 ∂ δ S ( x ) = N S ( x ) \partial\delta_S(\mathbf{x})=N_S(\mathbf{x}) δS(x)=NS(x). 下面我们给出 N S N_S NS的解析表示. 若 x ∉ S \mathbf{x}\notin S x/S, 则 N S ( x ) = ∅ N_S(\mathbf{x})=\emptyset NS(x)=. 设 ∥ x ∥ ≤ 1 \Vert\mathbf{x}\Vert\le1 x1. 于是 y ∈ E ∗ : y ∈ N S ( x ) \mathbf{y}\in\mathbb{E}^*:\mathbf{y}\in N_S(\mathbf{x}) yE:yNS(x)当且仅当 ⟨ y , z − x ⟩ ≤ 0 , ∀ z : ∥ z ∥ ≤ 1 , \langle\mathbf{y,z-x}\rangle\le0,\quad\forall\mathbf{z}:\Vert\mathbf{z}\Vert\le1, y,zx0,z:z1,这等价于 ∥ y ∥ ∗ = max ⁡ z : ∥ z ∥ ≤ 1 ⟨ y , z ⟩ ≤ ⟨ y , x ⟩ . \Vert\mathbf{y}\Vert_*=\max_{\mathbf{z}:\Vert\mathbf{z}\Vert\le1}\langle\mathbf{y,z}\rangle\le\langle\mathbf{y,x}\rangle. y=z:z1maxy,zy,x.因此, ∂ δ B [ 0 , 1 ] ( x ) = N B [ 0 , 1 ] ( x ) = { { y ∈ E ∗ : ∥ y ∥ ∗ ≤ ⟨ y , x ⟩ } , x ∈ B [ 0 , 1 ] , ∅ , x ∉ B [ 0 , 1 ] . \boxed{\partial\delta_{B[\mathbf{0},1]}(\mathbf{x})=N_{B[\mathbf{0},1]}(\mathbf{x})=\left\{\begin{array}{ll}\{\mathbf{y}\in\mathbb{E}^*:\Vert\mathbf{y}\Vert_*\le\langle\mathbf{y,x}\rangle\}, & \mathbf{x}\in B[\mathbf{0},1],\\\emptyset, & \mathbf{x}\notin B[\mathbf{0},1].\end{array}\right.} δB[0,1](x)=NB[0,1](x)={{yE:yy,x⟩},,xB[0,1],x/B[0,1].

例5 (对偶函数的次梯度) 考虑极小化问题 min ⁡ { f ( x ) : g ( x ) ≤ 0 , x ∈ X } , \min\{f(\mathbf{x}):\mathbf{g}(\mathbf{x})\le\mathbf{0},\mathbf{x}\in X\}, min{f(x):g(x)0,xX},其中 ∅ ≠ X ⊂ E \emptyset\ne X\subset\mathbb{E} =XE, f : E → R f:\mathbb{E}\to\mathbb{R} f:ER以及向量值函数 g : E → R m \mathbf{g}:\mathbb{E}\to\mathbb{R}^m g:ERm. 此时Lagrange对偶问题的目标函数为 q ( λ ) = min ⁡ x ∈ X { L ( x ; λ ) ≡ f ( x ) + λ T g ( x ) } . q(\mathbf{\lambda})=\min_{\mathbf{x}\in X}\left\{L(\mathbf{x};\mathbf{\lambda})\equiv f(\mathbf{x})+\lambda^T\mathbf{g}(\mathbf{x})\right\}. q(λ)=xXmin{L(x;λ)f(x)+λTg(x)}.求解对偶问题就是要在 q q q的有效域上求 q q q的极大, 其有效域定义为 d o m ( − q ) = { λ ∈ R + m : q ( λ ) > − ∞ } . \mathrm{dom}(-q)=\{\lambda\in\mathbb{R}_+^m:q(\lambda)>-\infty\}. dom(q)={λR+m:q(λ)>}.不论原始问题是凸问题与否, 对偶问题 max ⁡ λ ∈ R m { q ( λ ) : λ ∈ d o m ( − q ) } \max_{\lambda\in\mathbb{R}^m}\{q(\lambda):\lambda\in\mathrm{dom}(-q)\} λRmmax{q(λ):λdom(q)}总是凸的, 即 q q q是凹函数且 d o m ( − q ) \mathrm{dom}(-q) dom(q)是一凸集. 设 λ 0 ∈ d o m ( − q ) \lambda_0\in\mathrm{dom}(-q) λ0dom(q), 并设问题 q ( λ 0 ) = min ⁡ x ∈ X { f ( x ) + λ 0 T g ( x ) } q(\lambda_0)=\min_{\mathbf{x}\in X}\left\{f(\mathbf{x})+\lambda_0^T\mathbf{g(x)}\right\} q(λ0)=xXmin{f(x)+λ0Tg(x)}的最优值在 x 0 ∈ X \mathbf{x}_0\in X x0X处取得, 即 L ( x 0 ; λ 0 ) = f ( x 0 ) + λ 0 T g ( x 0 ) = q ( λ 0 ) . L(\mathbf{x}_0;\lambda_0)=f(\mathbf{x}_0)+\lambda_0^T\mathbf{g}(\mathbf{x}_0)=q(\lambda_0). L(x0;λ0)=f(x0)+λ0Tg(x0)=q(λ0).下面我们来求凸函数 − q -q q λ 0 \lambda_0 λ0处的一个次梯度. 为此, 注意到对 ∀ λ ∈ d o m ( − q ) \forall\lambda\in\mathrm{dom}(-q) λdom(q), q ( λ ) = min ⁡ x ∈ X { f ( x ) + λ T g ( x ) } ≤ f ( x 0 ) + λ T g ( x 0 ) = f ( x 0 ) + λ 0 T g ( x 0 ) + ( λ − λ 0 ) T g ( x 0 ) = q ( λ 0 ) + g ( x 0 ) T ( λ − λ 0 ) . \begin{aligned}q(\lambda)&=\min_{\mathbf{x}\in X}\left\{ f(\mathbf{x})+\lambda^T\mathbf{g}(\mathbf{x})\right\}\\&\le f(\mathbf{x}_0)+\lambda^T\mathbf{g}(\mathbf{x}_0)\\&=f(\mathbf{x}_0)+\lambda_0^T\mathbf{g(x}_0)+(\lambda-\lambda_0)^T\mathbf{g(x}_0)\\&=q(\lambda_0)+\mathbf{g(x}_0)^T(\lambda-\lambda_0).\end{aligned} q(λ)=xXmin{f(x)+λTg(x)}f(x0)+λTg(x0)=f(x0)+λ0Tg(x0)+(λλ0)Tg(x0)=q(λ0)+g(x0)T(λλ0).从而由 − q ( λ ) ≥ − q ( λ 0 ) + ( − g ( x 0 ) ) T ( λ − λ 0 ) , ∀ λ ∈ d o m ( − q ) , -q(\lambda)\ge-q(\lambda_0)+\left(-\mathbf{g(x}_0)\right)^T(\lambda-\lambda_0),\quad\forall\lambda\in\mathrm{dom}(-q), q(λ)q(λ0)+(g(x0))T(λλ0),λdom(q),这就推出 − g ( x 0 ) ∈ ∂ ( − q ) ( λ 0 ) . \boxed{-\mathbf{g(x}_0)\in\partial(-q)(\lambda_0).} g(x0)(q)(λ0).

例6 (取最大特征值函数的次梯度) 考虑函数 f : S n → R f:\mathbb{S}^n\to\mathbb{R} f:SnR定义为 f ( X ) = λ max ⁡ ( X ) . f(\mathbf{X})=\lambda_{\max}(\mathbf{X}). f(X)=λmax(X). X ∈ S n \mathbf{X}\in\mathbb{S}^n XSn, v \mathbf{v} v X \mathbf{X} X对应于最大特征值的单位特征向量 (即 ∥ v ∥ 2 = 1 \Vert\mathbf{v}\Vert_2=1 v2=1). 下面我们证明 v v T ∈ ∂ f ( X ) . \boxed{\mathbf{vv}^T\in\partial f(\mathbf{X}).} vvTf(X).为此, 注意对 ∀ Y ∈ S n \forall\mathbf{Y}\in\mathbb{S}^n YSn, 我们有 λ max ⁡ ( Y ) = max ⁡ u { u T Y u : ∥ u ∥ 2 = 1 } ≥ v T Y v = v T X v + v T ( Y − X ) v = λ max ⁡ ( X ) + T r ( v T ( Y − X ) v ) = λ max ⁡ ( X ) + T r ( v v T ( Y − X ) ) = λ max ⁡ ( X ) + ⟨ v v T , Y − X ⟩ , \begin{aligned}\lambda_{\max}(\mathbf{Y})&=\max_{\mathbf{u}}\{\mathbf{u}^T\mathbf{Yu}:\Vert\mathbf{u}\Vert_2=1\}\\&\ge\mathbf{v}^T\mathbf{Yv}\\&=\mathbf{v}^T\mathbf{Xv}+\mathbf{v}^T\mathbf{(Y-X)v}\\&=\lambda_{\max}(\mathbf{X})+\mathrm{Tr}\left(\mathbf{v}^T\mathbf{(Y-X)v}\right)\\&=\lambda_{\max}(\mathbf{X})+\mathrm{Tr}\left(\mathbf{vv}^T\mathbf{(Y-X)}\right)\\&=\lambda_{\max}(\mathbf{X})+\left\langle\mathbf{vv}^T,\mathbf{Y-X}\right\rangle,\end{aligned} λmax(Y)=umax{uTYu:u2=1}vTYv=vTXv+vT(YX)v=λmax(X)+Tr(vT(YX)v)=λmax(X)+Tr(vvT(YX))=λmax(X)+vvT,YX,
这里需要指出, 例1-例4与例5-例6的结论是存在本质的差别的: 前者我们给出了次微分的完整刻画, 我们称这样的结论为强结论 (strong results); 后者我们仅给出了次微分中的某一个元, 我们称这样的结论为弱结论 (weak results).

2. 次微分的性质

细心的读者可能会发现, 前一小节内我们所列举的次微分集合都是闭凸集. 这不是巧合.

定理1 (次微分集合的闭凸性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常函数. 则对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} xE, 次微分集合 ∂ f ( x ) \partial f(\mathbf{x}) f(x)都是闭凸集.

证明: 对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} xE, 次微分集合可以表示成 ∂ f ( x ) = ⋂ y ∈ E H y , \partial f(\mathbf{x})=\bigcap_{\mathbf{y}\in\mathbb{E}}H_{\mathbf{y}}, f(x)=yEHy,其中 H y = { g ∈ E ∗ : f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ } . H_{\mathbf{y}}=\{\mathbf{g}\in\mathbb{E}^*:f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g},\mathbf{y-x}\rangle\}. Hy={gE:f(y)f(x)+g,yx⟩}.由于 H y H_{\mathbf{y}} Hy都是半空间 (从而是闭凸的), 因此 ∂ f ( x ) \partial f(\mathbf{x}) f(x)也是闭凸的. 证毕.

次微分 ∂ f ( x ) \partial f(\mathbf{x}) f(x)可能是空集. 当其在 x ∈ E \mathbf{x}\in\mathbb{E} xE是非空时, 我们称 f f f x \mathbf{x} x次可微 (subdifferentiable).

定义3 (次可微) 我们称一正常函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] x ∈ d o m ( f ) \mathbf{x}\in\mathrm{dom}(f) xdom(f)是次可微的, 若 ∂ f ( x ) ≠ ∅ \partial f(\mathbf{x})\ne\emptyset f(x)=.

我们记所有次可微的点构成的集合为 d o m ( ∂ f ) \mathrm{dom}(\partial f) dom(f): d o m ( ∂ f ) = { x ∈ E : ∂ f ( x ) ≠ ∅ } . \mathrm{dom}(\partial f)=\{\mathbf{x}\in\mathbb{E}:\partial f(\mathbf{x})\ne\emptyset\}. dom(f)={xE:f(x)=}.下面我们说明若一函数在其凸有效域内任一点处均次可微, 则这个函数也是凸函数.

引理1 (次微分集合非空, 有效域为凸集 ⇒ \Rightarrow 函数的凸性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常函数, d o m ( f ) \mathrm{dom}(f) dom(f)是凸集. 假设对 ∀ x ∈ d o m ( f ) \forall\mathbf{x}\in\mathrm{dom}(f) xdom(f), 集合 ∂ f ( x ) \partial f(\mathbf{x}) f(x)是非空的, 则 f f f是凸函数.
证明: 设 x , y ∈ d o m ( f ) \mathbf{x,y}\in\mathrm{dom}(f) x,ydom(f), α ∈ [ 0 , 1 ] \alpha\in[0,1] α[0,1]. 定义 z α = ( 1 − α ) x + α y \mathbf{z}_{\alpha}=(1-\alpha)\mathbf{x}+\alpha\mathbf{y} zα=(1α)x+αy. 由 d o m ( f ) \mathrm{dom}(f) dom(f)的凸性, 我们有 z α ∈ d o m ( f ) \mathbf{z}_{\alpha}\in\mathrm{dom}(f) zαdom(f). 因此 ∃ g ∈ ∂ f ( z α ) \exists\mathbf{g}\in\partial f(\mathbf{z}_{\alpha}) gf(zα). 这就推出两个不等式: f ( y ) ≥ f ( z α ) + ⟨ g , y − z α ⟩ = f ( z α ) + ( 1 − α ) ⟨ g , y − x ⟩ , f ( x ) ≥ f ( z α ) + ⟨ g , x − z α ⟩ = f ( z α ) − α ⟨ g , y − x ⟩ . \begin{aligned}f(\mathbf{y})&\ge f(\mathbf{z}_{\alpha})+\langle\mathbf{g,y-z}_{\alpha}\rangle=f(\mathbf{z}_{\alpha})+(1-\alpha)\langle\mathbf{g,y-x}\rangle,\\f(\mathbf{x})&\ge f(\mathbf{z}_{\alpha})+\langle\mathbf{g,x-z}_{\alpha}\rangle=f(\mathbf{z}_{\alpha})-\alpha\langle\mathbf{g,y-x}\rangle.\end{aligned} f(y)f(x)f(zα)+g,yzα=f(zα)+(1α)g,yx,f(zα)+g,xzα=f(zα)αg,yx.第一个不等式两边乘 α \alpha α, 第二个不等式两边乘 ( 1 − α ) (1-\alpha) (1α), 加起来就得到 f ( ( 1 − α ) x + α y ) = f ( z α ) ≤ ( 1 − α ) f ( x ) + α f ( y ) . f\left((1-\alpha)\mathbf{x}+\alpha\mathbf{y}\right)=f(\mathbf{z}_{\alpha})\le(1-\alpha)f(\mathbf{x})+\alpha f(\mathbf{y}). f((1α)x+αy)=f(zα)(1α)f(x)+αf(y).因上式对 ∀ x , y ∈ d o m ( f ) \forall\mathbf{x,y}\in\mathrm{dom}(f) x,ydom(f)成立, 再加上 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集, 由第二章的命题1我们就知道 f f f是凸函数. 证毕.

上述引理1的逆命题不真. 即凸函数的有效域中并不一定是点点次可微的.

例7 考虑凸函数 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]定义为 f ( x ) = { − x , x ≥ 0 , ∞ , 其它 . f(x)=\left\{\begin{array}{ll}-\sqrt{x}, & x\ge0,\\\infty, & 其它.\end{array}\right. f(x)={x ,,x0,其它.此函数的图像见下图.
在这里插入图片描述

下面说明 f f f x = 0 x=0 x=0处是不次可微的. 为此我们用反证法证明. 假设存在 g ∈ R g\in\mathbb{R} gR使得 g ∈ ∂ f ( 0 ) g\in\partial f(0) gf(0). 则 f ( y ) ≥ f ( 0 ) + g ( y − 0 ) , ∀ y ≥ 0. f(y)\ge f(0)+g(y-0),\quad\forall y\ge0. f(y)f(0)+g(y0),y0.这等价于 − y ≥ g y , ∀ y ≥ 0. -\sqrt{y}\ge gy,\quad\forall y\ge0. y gy,y0. y > 0 y>0 y>0时, 令 y y y从正实轴趋近于 0 + 0^+ 0+, 就可得 g → − ∞ g\to-\infty g. 矛盾!

尽管凸函数在有效域不一定次可微, 但它们在各自有效域的内部是一定次可微的. 我们还将证明, 有效域内点处的次微分一定是个有界集. 为此, 我们不加证明地叙述支撑超平面定理 (supporting hyperplane theorem). 它的证明可见泛函分析中关于Hahn-Banach延拓定理的第一几何形式的论述.

定理2 (支撑超平面定理) 设 ∅ ≠ C ⊂ E \emptyset\ne C\subset\mathbb{E} =CE为一凸集, y ∉ i n t ( C ) \mathbf{y}\notin\mathrm{int}(C) y/int(C). 于是 ∃ 0 ≠ p ∈ E ∗ \exists\mathbf{0}\ne\mathbf{p}\in\mathbb{E}^* 0=pE使得 ⟨ p , x ⟩ ≤ ⟨ p , y ⟩ , ∀ x ∈ C . \langle\mathbf{p,x}\rangle\le\langle\mathbf{p,y}\rangle,\quad\forall\mathbf{x}\in C. p,xp,y,xC.

定理3 (有效域内点次微分非空且有界) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常凸函数, x ~ ∈ i n t ( d o m ( f ) ) \tilde{\mathbf{x}}\in\mathrm{int}(\mathrm{dom}(f)) x~int(dom(f)). 于是 ∂ f ( x ~ ) \partial f(\tilde{\mathbf{x}}) f(x~)非空且有界.

证明: 由于 ( x ~ , f ( x ~ ) ) (\tilde{\mathbf{x}},f(\tilde{\mathbf{x}})) (x~,f(x~))位于 e p i ( f ) ⊂ E × R \mathrm{epi}(f)\subset\mathbb{E}\times\mathbb{R} epi(f)E×R的边界, 于是由支撑超平面定理可知存在点 ( x ~ , f ( x ~ ) ) (\tilde{\mathbf{x}},f(\tilde{\mathbf{x}})) (x~,f(x~)) e p i ( f ) \mathrm{epi}(f) epi(f)之间的分离超平面, 即 ∃ ( 0 , 0 ) ≠ ( p , − α ) ∈ E ∗ × R \exists(\mathbf{0},0)\ne(\mathbf{p},-\alpha)\in\mathbb{E}^*\times\mathbb{R} (0,0)=(p,α)E×R使得 ⟨ p , x ~ ⟩ − α f ( x ~ ) ≥ ⟨ p , x ⟩ − α t , ∀ ( x , t ) ∈ e p i ( f ) . \langle\mathbf{p,\tilde x}\rangle-\alpha f(\tilde{\mathbf{x}})\ge\langle\mathbf{p,x}\rangle-\alpha t,\quad\forall(\mathbf{x},t)\in\mathrm{epi}(f). p,x~αf(x~)p,xαt,(x,t)epi(f).因为 ( x ~ , f ( x ~ ) + 1 ) ∈ e p i ( f ) (\tilde{\mathbf{x}},f(\tilde{\mathbf{x}})+1)\in\mathrm{epi}(f) (x~,f(x~)+1)epi(f), 因此将 x = x ~ \mathbf{x}=\tilde{\mathbf{x}} x=x~ t = f ( x ~ ) + 1 t=f(\tilde{\mathbf{x}})+1 t=f(x~)+1代入上述不等式即可知 α ≥ 0 \alpha\ge0 α0. 又因为 x ~ ∈ i n t ( d o m ( f ) ) \tilde{\mathbf{x}}\in\mathrm{int}(\mathrm{dom}(f)) x~int(dom(f)), 于是由第二章的定理9——凸函数的局部Lipschitz连续性——可知 ∃ ϵ > 0 \exists\epsilon>0 ϵ>0, L > 0 L>0 L>0使得 B ∥ ⋅ ∥ [ x ~ , ϵ ] ⊂ d o m ( f ) B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]\subset\mathrm{dom}(f) B[x~,ϵ]dom(f) ∣ f ( x ) − f ( x ~ ) ∣ ≤ L ∥ x − x ~ ∥ , ∀ x ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] . |f(\mathbf{x})-f(\tilde{\mathbf{x}})|\le L\Vert\mathbf{x-\tilde x}\Vert,\quad\forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]. f(x)f(x~)Lxx~,xB[x~,ϵ]. B ∥ ⋅ ∥ [ x ~ , ϵ ] ⊂ d o m ( f ) B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]\subset\mathrm{dom}(f) B[x~,ϵ]dom(f), 于是对 ∀ x ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] \forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon] xB[x~,ϵ], ( x , f ( x ) ) ∈ e p i ( f ) (\mathbf{x},f(\mathbf{x}))\in\mathrm{epi}(f) (x,f(x))epi(f). 令 t = f ( x ) t=f(\mathbf{x}) t=f(x), 我们有 ⟨ p , x − x ~ ⟩ ≤ α ( f ( x ) − f ( x ~ ) ) ≤ α L ∥ x − x ~ ∥ , ∀ x ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] . \langle\mathbf{p,x-\tilde x}\rangle\le\alpha(f(\mathbf{x})-f(\tilde{\mathbf{x}}))\le\alpha L\Vert\mathbf{x-\tilde x}\Vert,\quad\forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]. p,xx~α(f(x)f(x~))αLxx~,xB[x~,ϵ].由Hahn-Banach定理1的推论以及欧式空间的自反性2, 取 p † ∈ E : ⟨ p , p † ⟩ = ∥ p ∥ ∗ , ∥ p † ∥ = 1 \mathbf{p}^{\dagger}\in\mathbb{E}:\langle\mathbf{p,p}^{\dagger}\rangle=\Vert\mathbf{p}\Vert_*,\Vert\mathbf{p}^{\dagger}\Vert=1 pE:p,p=p,p=1. 因为 x ~ + ϵ p † ∈ B ∥ ⋅ ∥ [ x ~ , ϵ ] \tilde{\mathbf{x}}+\epsilon\mathbf{p}^{\dagger}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon] x~+ϵpB[x~,ϵ], 将 x = x ~ + ϵ p † \mathbf{x}=\tilde{\mathbf{x}}+\epsilon\mathbf{p}^{\dagger} x=x~+ϵp代入上述不等式即可得 ϵ ∥ p ∥ ∗ = ϵ ⟨ p , p † ⟩ ≤ α L ϵ ∥ p † ∥ = α L ϵ . \epsilon\Vert\mathbf{p}\Vert_*=\epsilon\langle\mathbf{p,p}^{\dagger}\rangle\le\alpha L\epsilon\Vert\mathbf{p}^{\dagger}\Vert=\alpha L\epsilon. ϵp=ϵp,pαLϵp=αLϵ.因此 α > 0 \alpha>0 α>0. 如若不然, 则有 α = 0 ⇒ p = 0 \alpha=0\Rightarrow\mathbf{p}=\mathbf{0} α=0p=0. 这与 ( p , α ) (\mathbf{p},\alpha) (p,α)不是零向量矛盾. 因此 α \alpha α就可作分母, 得到 f ( x ) ≥ f ( x ~ ) + ⟨ g , x − x ~ ⟩ , ∀ x ∈ d o m ( f ) , f(\mathbf{x})\ge f(\tilde{\mathbf{x}})+\langle\mathbf{g,x-\tilde x}\rangle,\quad\forall\mathbf{x}\in\mathrm{dom}(f), f(x)f(x~+g,xx~,xdom(f),其中 g = p / α \mathbf{g}=\mathbf{p}/\alpha g=p/α. 于是 g ∈ ∂ f ( x ~ ) ⇒ ∂ f ( x ~ ) ≠ ∅ \mathbf{g}\in\partial f(\tilde{\mathbf{x}})\Rightarrow\partial f(\tilde{\mathbf{x}})\ne\emptyset gf(x~)f(x~)=. 为证明 ∂ f ( x ~ ) \partial f(\tilde{\mathbf{x}}) f(x~)的有界性, 任取 g ∈ ∂ f ( x ~ ) \mathbf{g}\in\partial f(\tilde{\mathbf{x}}) gf(x~). 取 g † ∈ E : ∥ g ∥ ∗ = ⟨ g , g † ⟩ , ∥ g † ∥ = 1 \mathbf{g}^{\dagger}\in\mathbb{E}:\Vert\mathbf{g}\Vert_*=\langle\mathbf{g,g}^{\dagger}\rangle,\Vert\mathbf{g}^{\dagger}\Vert=1 gE:g=g,g,g=1. 于是代入 x = x ~ + ϵ g † \mathbf{x}=\tilde{\mathbf{x}}+\epsilon\mathbf{g}^{\dagger} x=x~+ϵg就有 ϵ ∥ g ∥ ∗ = ϵ ⟨ g , g † ⟩ = ⟨ g , x − x ~ ⟩ ≤ f ( x ) − f ( x ~ ) ≤ L ∥ x − x ~ ∥ = L ϵ , \epsilon\Vert\mathbf{g}\Vert_*=\epsilon\langle\mathbf{g,g}^{\dagger}\rangle=\langle\mathbf{g,x-\tilde x}\rangle\le f(\mathbf{x})-f(\tilde{\mathbf{x}})\le L\Vert\mathbf{x-\tilde x}\Vert= L\epsilon, ϵg=ϵg,g=g,xx~f(x)f(x~)Lxx~=Lϵ,这表明 ∂ f ( x ~ ) ⊂ B ∥ ⋅ ∥ ∗ [ 0 , L ] \partial f(\tilde{\mathbf{x}})\subset B_{\Vert\cdot\Vert_*}[\mathbf{0},L] f(x~)B[0,L]. 证毕.

定理3的结论告诉了我们如下包含关系: i n t ( d o m ( f ) ) ⊂ d o m ( ∂ f ) . \mathrm{int}(\mathrm{dom}(f))\subset\mathrm{dom}(\partial f). int(dom(f))dom(f).定理3的一个直接推论是, 实值凸函数 (即 f : d o m ( f ) = E f:\mathrm{dom}(f)=\mathbb{E} f:dom(f)=E) 在任何点处都次可微.

推论1 (实值凸函数的次可微性) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一凸函数, 则 f f f E \mathbb{E} E上次可微.

我们也可以推广定理3的结论, 将次微分集合的有界性推广至有效域内部的任一给定紧集上.

定理4 (次微分集合在紧集上的有界性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常凸函数, X ⊂ i n t ( d o m ( f ) ) X\subset\mathrm{int}(\mathrm{dom}(f)) Xint(dom(f))为非空紧集. 则 Y = ⋃ x ∈ X ∂ f ( x ) Y=\bigcup_{\mathbf{x}\in X}\partial f(\mathbf{x}) Y=xXf(x)非空有界.

证明: 由定理3可知对 ∀ x ∈ X \forall\mathbf{x}\in X xX, 有 ∂ f ( x ) ≠ ∅ \partial f(\mathbf{x})\ne\emptyset f(x)=, 于是 Y Y Y是非空集. 下面我们用反证法证明 Y Y Y的有界性. 假设不然, 存在序列 { x k } k ≥ 1 ⊂ X \{\mathbf{x}_k\}_{k\ge1}\subset X {xk}k1X, g k ∈ ∂ f ( x k ) \mathbf{g}_k\in\partial f(\mathbf{x}_k) gkf(xk)使得 ∥ g k ∥ ∗ → ∞ \Vert\mathbf{g}_k\Vert_*\to\infty gk. 对 ∀ k \forall k k, 类似于前面定理3的证明, 令 g k † \mathbf{g}_k^{\dagger} gk为满足 ⟨ g k , g k † ⟩ = ∥ g k ∥ ∗ , ∥ g k † ∥ = 1 \langle\mathbf{g}_k,\mathbf{g}_k^{\dagger}\rangle=\Vert\mathbf{g}_k\Vert_*,\Vert\mathbf{g}_k^{\dagger}\Vert=1 gk,gk=gk,gk=1 E \mathbb{E} E中的向量. 因 X X X是紧集 (从而是有界闭集), ( i n t ( d o m ( f ) ) ) c (\mathrm{int}(\mathrm{dom}(f)))^c (int(dom(f)))c是闭集, 且 X ⋂ ( i n t ( d o m ( f ) ) ) c = ∅ X\bigcap(\mathrm{int}(\mathrm{dom}(f)))^c=\emptyset X(int(dom(f)))c=, 于是 ∃ ϵ > 0 \exists\epsilon>0 ϵ>0使得 ∥ x − y ∥ ≥ ϵ , ∀ x ∈ X , y ∉ i n t ( d o m ( f ) ) . \Vert\mathbf{x}-\mathbf{y}\Vert\ge\epsilon,\quad\forall\mathbf{x}\in X,\mathbf{y}\notin\mathrm{int}(\mathrm{dom}(f)). xyϵ,xX,y/int(dom(f)). g k ∈ ∂ f ( x k ) \mathbf{g}_k\in\partial f(\mathbf{x}_k) gkf(xk)就推出 f ( x k + ϵ 2 g k † ) − f ( x k ) ≥ ϵ 2 ⟨ g k , g k † ⟩ = ϵ 2 ∥ g k ∥ ∗ , f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\ge\frac{\epsilon}{2}\langle\mathbf{g}_k,\mathbf{g}_k^{\dagger}\rangle=\frac{\epsilon}{2}\Vert\mathbf{g}_k\Vert_*, f(xk+2ϵgk)f(xk)2ϵgk,gk=2ϵgk,这里注意 x k + ϵ 2 g k † ∈ i n t ( d o m ( f ) ) \mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\in\mathrm{int}(\mathrm{dom}(f)) xk+2ϵgkint(dom(f)). 由于 ∥ g k ∥ ∗ → ∞ \Vert\mathbf{g}_k\Vert_*\to\infty gk, 于是由上式就存在子列 { x k } k ∈ T , { g k † } k ∈ T \{\mathbf{x}_k\}_{k\in T},\{\mathbf{g}_k^{\dagger}\}_{k\in T} {xk}kT,{gk}kT使得在指标集 T T T中有以下极限式 f ( x k + ϵ 2 g k † ) − f ( x k ) → ∞ . f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\to\infty. f(xk+2ϵgk)f(xk)∞. { x k } k ∈ T , { g k † } k ∈ T \{\mathbf{x}_k\}_{k\in T},\{\mathbf{g}_k^{\dagger}\}_{k\in T} {xk}kT,{gk}kT都是有界的, 因此存在收敛子列 { x k } k ∈ S , { g k † } k ∈ S ( S ⊂ T ) \{\mathbf{x}_k\}_{k\in S},\{\mathbf{g}_k^{\dagger}\}_{k\in S} (S\subset T) {xk}kS,{gk}kS(ST), 记收敛点分别为 x ˉ , g ˉ \bar{\mathbf{x}},\bar{\mathbf{g}} xˉ,gˉ. 因此在指标集 S S S中, x k + ϵ 2 g k † → x ˉ + ϵ 2 g ˉ \mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\to\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}} xk+2ϵgkxˉ+2ϵgˉ. 因 x k ∈ X \mathbf{x}_k\in X xkX, X X X为紧集, 于是 x ˉ ∈ X \bar{\mathbf{x}}\in X xˉX. 再由 ∥ g ˉ ∥ = 1 \Vert\bar{\mathbf{g}}\Vert=1 gˉ=1, 可知 x k , x k + ϵ 2 g k † , x ˉ + ϵ 2 g ˉ ∈ i n t ( d o m ( f ) ) \mathbf{x}_k,\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger},\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}}\in\mathrm{int}(\mathrm{dom}(f)) xk,xk+2ϵgk,xˉ+2ϵgˉint(dom(f)). 从 f f f i n t ( d o m ( f ) ) \mathrm{int}(\mathrm{dom}(f)) int(dom(f))上的局部Lipschitz连续性, 就可得到在指标集 S S S中有以下极限式成立 f ( x k + ϵ 2 g k † ) − f ( x k ) → f ( x ˉ + ϵ 2 g ˉ ) − f ( x ˉ ) , f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\to f\left(\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}}\right)-f(\bar{\mathbf{x}}), f(xk+2ϵgk)f(xk)f(xˉ+2ϵgˉ)f(xˉ),这与 T T T中的极限式矛盾! 证毕.

次可微性并不是在有效域的内部才有. 事实上, 它可以推广至有效域仿射包的内部. 下面我们引入相对内部 (relative interior) 的概念: r i ( S ) = { x ∈ a f f ( S ) : B [ x , ϵ ] ∩ a f f ( S ) ⊂ S , ∃ ϵ > 0 } . \mathrm{ri}(S)=\{\mathbf{x}\in\mathrm{aff}(S):B[\mathbf{x},\epsilon]\cap\mathrm{aff}(S)\subset S,\exists\epsilon>0\}. ri(S)={xaff(S):B[x,ϵ]aff(S)S,ϵ>0}.相对内部的一个重要性质是, 凸集的相对内部一定是非空的.

定理5 (凸集相对内部非空) 设 C ⊂ E C\subset\mathbb{E} CE为一非空凸集. 则 r i ( C ) \mathrm{ri}(C) ri(C)非空.

证明: 我们仅需考虑 a f f ( C ) = R n , ∃ n \mathrm{aff}(C)=\mathbb{R}^n,\exists n aff(C)=Rn,n的情形. 事实上, 通过对 C C C做平移变换, 我们不妨假设 a f f ( C ) \mathrm{aff}(C) aff(C)包含原点 0 \mathbf{0} 0. 从而 a f f ( C ) \mathrm{aff}(C) aff(C)是一线性子空间. 因此在下面的证明过程中, 我们都假设 a f f ( C ) = R n \mathrm{aff}(C)=\mathbb{R}^n aff(C)=Rn, 因此我们仅需 C C C的内部是非空的.
现设 a f f ( C ) = R n \mathrm{aff}(C)=\mathbb{R}^n aff(C)=Rn有一仿射基 a 0 , … , a n ∈ C \mathbf{a}_0,\ldots,\mathbf{a}_n\in C a0,,anC. 因 C C C是凸集, 所以这些向量的凸包——以 a 0 , … , a n \mathbf{a}_0,\ldots,\mathbf{a}_n a0,,an为顶点的单纯形 Δ \Delta Δ——包含在 C C C中. 因此为证明 i n t ( C ) ≠ ∅ \mathrm{int}(C)\ne\emptyset int(C)=, 我们只需证明 i n t ( Δ ) ≠ ∅ \mathrm{int}(\Delta)\ne\emptyset int(Δ)=. 这点在几何上看起来是很直观的. 下面我们给出其严格证明.
a 0 , … , a n \mathbf{a}_0,\ldots,\mathbf{a}_n a0,,an为仿射基, 因此 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn都是这一基的仿射组合. 而组合系数 λ i = λ i ( x ) \lambda_i=\lambda_i(\mathbf{x}) λi=λi(x)为以下线性系统的解: ∑ i = 1 n λ i a i = x , ∑ i = 0 n λ i = 1 , \sum_{i=1}^n\lambda_i\mathbf{a}_i=\mathbf{x},\quad\sum_{i=0}^n\lambda_i=1, i=1nλiai=x,i=0nλi=1,或者以分量形式, 有 a 01 λ 0 + a 11 λ 1 + ⋯ + a n 1 λ n = x 1 , a 02 λ 0 + a 12 λ 1 + ⋯ + a n 2 λ n = x 2 , ⋯ ⋯ a 0 n λ 0 + a 1 n λ 1 + ⋯ + a n n λ n = x n , λ 0 + λ 2 + ⋯ + λ n = 1. \begin{aligned}a_{01}\lambda_0+a_{11}\lambda_1+\cdots+a_{n1}\lambda_n&=x_1,\\a_{02}\lambda_0+a_{12}\lambda_1+\cdots+a_{n2}\lambda_n&=x_2,\\\cdots&\cdots\\a_{0n}\lambda_0+a_{1n}\lambda_1+\cdots+a_{nn}\lambda_n&=x_n,\\\lambda_0+\lambda_2+\cdots+\lambda_n&=1.\end{aligned} a01λ0+a11λ1++an1λna02λ0+a12λ1++an2λna0nλ0+a1nλ1++annλnλ0+λ2++λn=x1,=x2,=xn,=1.这里 a p q a_{pq} apq a p \mathbf{a}_p ap的第 q q q项. 这是一个带 n + 1 n+1 n+1个未知数的 n + 1 n+1 n+1阶方程组. 我们断言其对应的齐次系统只有平凡零解. 事实上, 若存在非平凡的解, 则其就对应了 a i \mathbf{a}_i ai的一个非平凡等于 0 \mathbf{0} 0的一个线性组合. 除此之外, 其分量和也是0. 这就与 a 0 , … , a n \mathbf{a}_0,\ldots,\mathbf{a}_n a0,,an仿射无关性矛盾! 于是等价地, 我们知道这一线性系统的系数矩阵 A A A是非奇异的. 从而解 λ ( x ) \lambda(\mathbf{x}) λ(x) x \mathbf{x} x唯一确定且线性依赖于 x \mathbf{x} x.
现取 ∀ x = x 0 : λ i ( x 0 ) > 0 \forall\mathbf{x}=\mathbf{x}^0:\lambda_i(\mathbf{x}^0)>0 x=x0:λi(x0)>0 (从而 x 0 ∈ Δ \mathbf{x}^0\in\Delta x0Δ), 例如 x 0 = ( n + 1 ) − 1 ∑ i = 0 n a i \mathbf{x}^0=(n+1)^{-1}\sum_{i=0}^n\mathbf{a}_i x0=(n+1)1i=0nai. 下面我们证明 x 0 \mathbf{x}^0 x0 Δ \Delta Δ内点. 由 λ i ( ⋅ ) \lambda_i(\cdot) λi()的连续性, 我们推出存在 x 0 \mathbf{x}^0 x0的邻域 B r ( x 0 ) B_r(\mathbf{x}^0) Br(x0)使得 λ i ( x ) ≥ 0 , i = 0 , … , n , ∀ x ∈ B r ( x 0 ) . \lambda_i(\mathbf{x})\ge0,\quad i=0,\ldots,n,\forall\mathbf{x}\in B_r(\mathbf{x}^0). λi(x)0,i=0,,n,xBr(x0).这表明 ∀ x ∈ B r ( x 0 ) \forall\mathbf{x}\in B_r(\mathbf{x}^0) xBr(x0)都是仿射基的凸组合, 因此 x ∈ Δ \mathbf{x}\in\Delta xΔ. 于是我们证明了 Δ \Delta Δ包含了 x 0 \mathbf{x}^0 x0的一个邻域, 所以 x 0 \mathbf{x}^0 x0 Δ \Delta Δ的内点.

正常凸函数在有效域的相对内部总是次可微的. 这就是下面的定理6. 我们仅叙述, 不证明.

定理6 (相对内部点的次可微性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常凸函数, x ˉ ∈ r i ( d o m ( f ) ) \bar{\mathbf{x}}\in\mathrm{ri}(\mathrm{dom}(f)) xˉri(dom(f)). 则 ∂ f ( x ˉ ) \partial f(\bar{\mathbf{x}}) f(xˉ)非空.

以上定理6的结论可写成以下形式: r i ( d o m ( f ) ) ⊂ d o m ( ∂ f ) . \mathrm{ri}(\mathrm{dom}(f))\subset\mathrm{dom}(\partial f). ri(dom(f))dom(f). f f f为凸函数, 则 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集, 因此由定理5, r i ( d o m ( f ) ) ≠ ∅ \mathrm{ri}(\mathrm{dom}(f))\ne\emptyset ri(dom(f))=. 于是我们可推出有效域内总有一点次可微.

推论2 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常凸函数. 于是 ∃ x ∈ d o m ( f ) : ∂ f ( x ) ≠ ∅ \exists\mathbf{x}\in\mathrm{dom}(f):\partial f(\mathbf{x})\ne\emptyset xdom(f):f(x)=.

次微分集合无界的一种情形是, 当有效域的维数严格小于 E \mathbb{E} E的维数.

定理7 ( dim ⁡ ( d o m ( f ) ) < dim ⁡ ( E ) \dim(\mathrm{dom}(f))<\dim(\mathbb{E}) dim(dom(f))<dim(E)时次微分集合的无界性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常凸函数. 假设 dim ⁡ ( d o m ( f ) ) < dim ⁡ ( E ) \dim(\mathrm{dom}(f))<\dim(\mathbb{E}) dim(dom(f))<dim(E), x ∈ d o m ( f ) \mathbf{x}\in\mathrm{dom}(f) xdom(f). 若 ∂ f ( x ) ≠ ∅ \partial f(\mathbf{x})\ne\emptyset f(x)=, 则 ∂ f ( x ) \partial f(\mathbf{x}) f(x)是无界集.
证明: 令 η \eta η ∂ f ( x ) \partial f(\mathbf{x}) f(x)中的任一向量. 集合 V ≡ a f f ( d o m ( f ) ) − { x } \mathbb{V}\equiv\mathrm{aff}(\mathrm{dom}(f))-\{\mathbf{x}\} Vaff(dom(f)){x}3为一向量空间. 于是 dim ⁡ ( V ) < dim ⁡ ( E ) \dim(\mathbb{V})<\dim(\mathbb{E}) dim(V)<dim(E). 这表明存在非零 v ∈ E : ⟨ v , w ⟩ = 0 , ∀ w ∈ V \mathbf{v}\in\mathbb{E}:\langle\mathbf{v,w}\rangle=0,\forall\mathbf{w}\in\mathbb{V} vE:v,w=0,wV. 对 ∀ β ∈ R \forall\beta\in\mathbb{R} βR, y ∈ d o m ( f ) \mathbf{y}\in\mathrm{dom}(f) ydom(f), f ( y ) ≥ f ( x ) + ⟨ η , y − x ⟩ = f ( x ) = ⟨ η + β v , y − x ⟩ . f(\mathbf{y})\ge f(\mathbf{x})+\langle\eta,\mathbf{y-x}\rangle=f(\mathbf{x})=\langle\eta+\beta\mathbf{v,y-x}\rangle. f(y)f(x)+η,yx=f(x)=η+βv,yx.于是就有 η + β v ∈ ∂ f ( x ) , ∀ β \eta+\beta\mathbf{v}\in\partial f(\mathbf{x}),\forall\beta η+βvf(x),β.

注1: 定理7与之前的定理4并不冲突. 当 dim ⁡ ( d o m ( f ) ) < dim ⁡ ( E ) \dim(\mathrm{dom}(f))<\dim(\mathbb{E}) dim(dom(f))<dim(E)时, 我们有 i n t ( d o m ( f ) ) = ∅ \mathrm{int}(\mathrm{dom}(f))=\emptyset int(dom(f))=.


  1. 此定理为泛函分析中的重要定理. 可参考Hahn-Banach Theoem. ↩︎

  2. 可参考Reflexive Space. ↩︎

  3. 此处为Minkowski差. ↩︎

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值