First Order Methods in Optimization Ch5. Smoothness and Strong Convexity

第五章: 光滑性与强凸性

1. L L L-光滑性

定义1 ( L L L-光滑性) 设 L ≥ 0 L\ge0 L0. 我们称函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] D ⊂ E D\subset\mathbb{E} DE上是 L L L-光滑的, 若它在 D D D上可微且满足 ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ ≤ L ∥ x − y ∥ , ∀ x , y ∈ D . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\le L\Vert\mathbf{x-y}\Vert,\quad\forall\mathbf{x,y}\in D. f(x)f(y)Lxy,x,yD.常数 L L L称作是光滑参数 (smoothness parameter). 从定义我们看出 L L L与所选的范数有关的. 因此我们有时会刻意地说成, 在范数 ∥ ⋅ ∥ \Vert\cdot\Vert 下的光滑参数.

显然由可微的定义, 若 f f f在集合 D ⊂ E D\subset\mathbb{E} DE L L L-光滑, 则必有 D ⊂ i n t ( d o m f ) D\subset\mathrm{int(dom}f) Dint(domf); 若函数在全空间 E \mathbb{E} E L L L-光滑, 则我们就直接称其为 L L L-光滑函数. 在许多其他的文献中, D D D上的 L L L-光滑函数也常被称作“Lipschitz常数为 L L L的梯度Lipschitz连续函数”. 我们记 D D D上的 L L L-光滑函数全体为 C L 1 , 1 ( D ) C_L^{1,1}(D) CL1,1(D). 当 D = E D=\mathbb{E} D=E, 就简写为 C L 1 , 1 C_L^{1,1} CL1,1. 进一步, 记 C 1 , 1 = { f : ∃ L ≥ 0 ,   s.t.  f ∈ C L 1 , 1 } . C^{1,1}=\left\{f:\exists L\ge0,\,\text{s.t. }f\in C_L^{1,1}\right\}. C1,1={f:L0,s.t. fCL1,1}. L L L-光滑性的定义, 显然有 C L 1 1 , 1 ⊂ C L 2 1 , 1 ,   L 2 ≥ L 1 C_{L_1}^{1,1}\subset C_{L_2}^{1,1},\,L_2\ge L_1 CL11,1CL21,1,L2L1. 因此对某一给定函数, 使其 L L L-光滑的参数 L L L不止一个. 这些 L L L的全体组成的集合显然有下界 0 0 0, 从而必定有下确界. 但是定出这一给定函数的最小光滑参数则是一件不平凡的事, 也是一件有趣的事.

例1 (二次函数的光滑性) 考虑函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 x T A x + b T x + c f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c f(x)=21xTAx+bTx+c, 其中 A ∈ S n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} ASn,bRn,cR. 假定 R n \mathbb{R}^n Rn上赋以了 ℓ p \ell_p p-范数( 1 ≤ p ≤ ∞ 1\le p\le\infty 1p). 则对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n x,yRn, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ q = ∥ A x − A y ∥ q ≤ ∥ A ∥ p , q ∥ x − y ∥ p , \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_q=\Vert\mathbf{Ax-Ay}\Vert_q\le\Vert A\Vert_{p,q}\Vert\mathbf{x-y}\Vert_p, f(x)f(y)q=AxAyqAp,qxyp,1这里 q ∈ [ 1 , ∞ ] : 1 p + 1 q = 1 q\in[1,\infty]: \frac{1}{p}+\frac{1}{q}=1 q[1,]:p1+q1=1. 于是我们得到 f f f ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} Ap,q-光滑的. 下面我们证明 ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} Ap,q f f f的最小光滑参数. 为此只需证明对任一使 f f f L L L-光滑的 L L L都有 ∥ A ∥ p , q ≤ L \Vert\mathbf{A}\Vert_{p,q}\le L Ap,qL. 取向量 x ~ : ∥ x ~ ∥ p = 1 ,   ∥ A x ~ ∥ q = ∥ A ∥ p , q \tilde\mathbf{x}:\Vert\tilde\mathbf{x}\Vert_p=1,\,\Vert\mathbf{A\tilde x}\Vert_q=\Vert\mathbf{A}\Vert_{p,q} x~:x~p=1,Ax~q=Ap,q2. 于是 ∥ A ∥ p , q = ∥ A x ~ ∥ q = ∥ ∇ f ( x ~ ) − ∇ f ( 0 ) ∥ q ≤ L ∥ x ~ − 0 ∥ p = L . \Vert\mathbf{A}\Vert_{p,q}=\Vert\mathbf{A\tilde x}\Vert_q=\Vert\nabla f(\tilde\mathbf{x})-\nabla f(\mathbf{0})\Vert_q\le L\Vert\mathbf{\tilde x-0}\Vert_p=L. Ap,q=Ax~q=f(x~)f(0)qLx~0p=L.

例2 (线性函数的 0 0 0-光滑性) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER定义为 f ( x ) = ⟨ b , x ⟩ + c f(\mathbf{x})=\langle\mathbf{b,x}\rangle+c f(x)=b,x+c, 其中 b ∈ E ∗ ,   c ∈ R \mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R} bE,cR. 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ = ∥ b − b ∥ ∗ = 0 ≤ 0 ∥ x − y ∥ . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*=\Vert\mathbf{b-b}\Vert_*=0\le0\Vert\mathbf{x-y}\Vert. f(x)f(y)=bb=00xy.从而线性函数都是 0 0 0-光滑的. 0 0 0显然也是它们的最小光滑参数. 注意这一结论对任何范数都成立.

下面的例3与例4要用到正交投影算子的严格非增大性质(firm nonexpansiveness)与非增大性质(nonexpansiveness). 我们在此仅将其列出. 在下一章中我们将证明更一般化的结论.

定理1 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 于是
(i) (严格非增大性) 对 ∀ v , w ∈ E \forall\mathbf{v,w}\in\mathbb{E} v,wE, ⟨ P C ( v ) − P C ( w ) , v − w ⟩ ≥ ∥ P C ( v ) − P C ( w ) ∥ 2 . \langle P_C(\mathbf{v})-P_C(\mathbf{w}),\mathbf{v-w}\rangle\ge\Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert^2. PC(v)PC(w),vwPC(v)PC(w)2.(ii) (非增大性) 对 ∀ v , w ∈ E \forall\mathbf{v,w}\in\mathbb{E} v,wE, ∥ P C ( v ) − P C ( w ) ∥ ≤ ∥ v − w ∥ . \Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert\le\Vert\mathbf{v-w}\Vert. PC(v)PC(w)vw.

例3 ( 1 2 d C 2 \frac{1}{2}d_C^2 21dC2 1 1 1-光滑性) 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 考虑函数 φ C ( x ) = 1 2 d C 2 ( x ) \varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x}) φC(x)=21dC2(x). 由第三章例9, φ C \varphi_C φC在全空间上可微且 ∇ φ C ( x ) = x − P C ( x ) \nabla\varphi_C(\mathbf{x})=\mathbf{x}-P_C(\mathbf{x}) φC(x)=xPC(x). 下面证明 φ C \varphi_C φC 1 1 1-光滑的. 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ φ C ( x ) − ∇ φ C ( y ) ∥ 2 = ∥ x − y − P C ( x ) + P C ( y ) ∥ 2 = ∥ x − y ∥ 2 − 2 ⟨ P C ( x ) − P C ( y ) , x − y ⟩ + ∥ P C ( x ) − P C ( y ) ∥ 2 ≤ ∥ x − y ∥ 2 − 2 ∥ P C ( x ) − P C ( y ) ∥ 2 + ∥ P C ( x ) − P C ( y ) ∥ 2   ( ∵ 严 格 非 增 大 性 ) = ∥ x − y ∥ 2 − ∥ P C ( x ) − P C ( y ) ∥ 2 = ∥ x − y ∥ 2 . \begin{aligned}\Vert\nabla\varphi_C(\mathbf{x})-\nabla\varphi_C(\mathbf{y})\Vert^2&=\Vert\mathbf{x-y}-P_C(\mathbf{x})+P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2-2\langle P_C(\mathbf{x})-P_C(\mathbf{y}),\mathbf{x-y}\rangle+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&\le\Vert\mathbf{x-y}\Vert^2-2\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\:(\because 严格非增大性)\\&=\Vert\mathbf{x-y}\Vert^2-\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2.\end{aligned} φC(x)φC(y)2=xyPC(x)+PC(y)2=xy22PC(x)PC(y),xy+PC(x)PC(y)2xy22PC(x)PC(y)2+PC(x)PC(y)2()=xy2PC(x)PC(y)2=xy2.

例4 ( 1 2 ∥ ⋅ ∥ 2 − 1 2 d C 2 \frac{1}{2}\Vert\cdot\Vert^2-\frac{1}{2}d_C^2 21221dC2 1 1 1-光滑性) 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 考虑函数 ψ C ( x ) = 1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x ) \psi_C(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x}) ψC(x)=21x221dC2(x). 由第二章的例5, ψ C \psi_C ψC是凸函数3. 由上例, 1 2 d C 2 ( x ) \frac{1}{2}d_C^2(\mathbf{x}) 21dC2(x)可微, 且梯度为 x − P C ( x ) \mathbf{x}-P_C(\mathbf{x}) xPC(x). 因此 ∇ ψ C ( x ) = x − ( x − P C ( x ) ) = P C ( x ) . \nabla\psi_C(\mathbf{x})=\mathbf{x}-(\mathbf{x}-P_C(\mathbf{x}))=P_C(\mathbf{x}). ψC(x)=x(xPC(x))=PC(x).于是由投影算子的非增大性, 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ ψ C ( x ) − ∇ ψ C ( y ) ∥ = ∥ P C ( x ) − P C ( y ) ∥ ≤ ∥ x − y ∥ . \Vert\nabla\psi_C(\mathbf{x})-\nabla\psi_C(\mathbf{y})\Vert=\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert\le\Vert\mathbf{x-y}\Vert. ψC(x)ψC(y)=PC(x)PC(y)xy.

1.1 下降引理

下面的下降引理告诉我们, L L L-光滑函数以某一二次函数为上界.

引理1 (下降引理) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为在一给定凸集 D D D上的 L L L-光滑函数 ( L ≥ 0 ) (L\ge0) (L0). 则对 ∀ x , y ∈ D \forall\mathbf{x,y}\in D x,yD, f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + L 2 ∥ x − y ∥ 2 . f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2. f(y)f(x)+f(x),yx+2Lxy2.4
证明: 根据微积分基本定理, f ( y ) − f ( x ) = ∫ 0 1 ⟨ ∇ f ( x + t ( y − x ) ) , y − x ⟩   d t . f(\mathbf{y})-f(\mathbf{x})=\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x})),\mathbf{y-x}\rangle\,\mathrm{d}t. f(y)f(x)=01f(x+t(yx)),yxdt.因此, f ( y ) − f ( x ) = ⟨ ∇ f ( x ) , y − x ⟩ + ∫ 0 1 ⟨ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) , y − x ⟩   d t . f(\mathbf{y})-f(\mathbf{x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t. f(y)f(x)=f(x),yx+01f(x+t(yx))f(x),yxdt.取模可得 ∣ f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ ∣ = ∣ ∫ 0 1 ⟨ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) , y − x ⟩   d t ∣ ≤ ∫ 0 1 ∣ ⟨ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) , y − x ⟩ ∣   d t ≤ ∫ 0 1 ∥ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) ∥ ∗ ⋅ ∥ y − x ∥   d t ≤ ∫ 0 1 t L ∥ y − x ∥ 2   d t = L 2 ∥ y − x ∥ 2 . \begin{aligned}|f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|&=\left|\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t\right|\\&\le\int_0^1|\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|\,\mathrm{d}t\\&\le\int_0^1\Vert\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x})\Vert_*\cdot\Vert\mathbf{y-x}\Vert\,\mathrm{d}t\\&\le\int_0^1tL\Vert\mathbf{y-x}\Vert^2\,\mathrm{d}t\\&=\frac{L}{2}\Vert\mathbf{y-x}\Vert^2.\end{aligned} f(y)f(x)f(x),yx=01f(x+t(yx))f(x),yxdt01f(x+t(yx))f(x),yxdt01f(x+t(yx))f(x)yxdt01tLyx2dt=2Lyx2.

1.2 L L L-光滑函数的一阶等价刻画

f f f为凸函数5时, 下面的定理2给出了全空间上6 L L L-光滑函数的几种不同的一阶等价刻画. 值得注意的是, 在这种情形下, 1.1节中的下降引理同时也是使 f f f成为 L L L-光滑函数的充分条件.

定理2 ( L L L-光滑函数的一阶等价刻画) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一可微凸函数. 设 L > 0 L>0 L>0. 于是下面的四件事是等价的:
(i) f f f L L L-光滑的;
(ii) f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + L 2 ∥ x − y ∥ 2 ,   ∀ x , y ∈ E f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E} f(y)f(x)+f(x),yx+2Lxy2,x,yE; (此即下降引理)
(iii) f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 ,   ∀ x , y ∈ E f(\mathbf{y})\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E} f(y)f(x)+f(x),yx+2L1f(x)f(y)2,x,yE;
(iv) ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≥ 1 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 ,   ∀ x , y ∈ E \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E} f(x)f(y),xyL1f(x)f(y)2,x,yE;
(v) f ( λ x + ( 1 − λ ) y ) ≥ λ f ( x ) + ( 1 − λ ) f ( y ) − L 2 λ ( 1 − λ ) ∥ x − y ∥ 2 ,   ∀ x , y ∈ E ,   λ ∈ [ 0 , 1 ] f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\ge\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{L}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1] f(λx+(1λ)y)λf(x)+(1λ)f(y)2Lλ(1λ)xy2,x,yE,λ[0,1].

证明: (i) ⇒ \Rightarrow (ii): 由下降引理即可得.
(ii) ⇒ \Rightarrow (iii): 假设(ii)成立. 注意到当 ∇ f ( x ) = ∇ f ( y ) \nabla f(\mathbf{x})=\nabla f(\mathbf{y}) f(x)=f(y)时(iii)显然成立. 所以下面假设 ∇ f ( x ) ≠ ∇ f ( y ) \nabla f(\mathbf{x})\ne\nabla f(\mathbf{y}) f(x)=f(y). 固定 x ∈ E \mathbf{x}\in\mathbb{E} xE, 考虑 g x ( y ) = f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ , y ∈ E . g_{\mathbf{x}}(\mathbf{y})=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle,\quad\mathbf{y}\in\mathbb{E}. gx(y)=f(y)f(x)f(x),yx,yE.7可以验证 g x g_{\mathbf{x}} gx也满足(ii). 事实上, 对 ∀ y , z ∈ E \forall\mathbf{y,z}\in\mathbb{E} y,zE, g x ( z ) = f ( z ) − f ( x ) − ⟨ ∇ f ( x ) , z − x ⟩ ≤ f ( y ) + ⟨ ∇ f ( y ) , z − y ⟩ + L 2 ∥ z − y ∥ 2 − f ( x ) − ⟨ ∇ f ( x ) , z − x ⟩ = f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ + ⟨ ∇ f ( y ) − ∇ f ( x ) , z − y ⟩ + L 2 ∥ z − y ∥ 2 = g x ( y ) + ⟨ ∇ g x ( y ) , z − y ⟩ + L 2 ∥ z − y ∥ 2 , \begin{aligned}g_{\mathbf{x}}(\mathbf{z})&=f(\mathbf{z})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&\le f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\langle\nabla f(\mathbf{y})-\nabla f(\mathbf{x}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})+\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2,\end{aligned} gx(z)=f(z)f(x)f(x),zxf(y)+f(y),zy+2Lzy2f(x)f(x),zx=f(y)f(x)f(x),yx+f(y)f(x),zy+2Lzy2=gx(y)+gx(y),zy+2Lzy2,注意到 ∇ g x ( x ) = 0 \nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0} gx(x)=0, 再由 g x g_{\mathbf{x}} gx的凸性, 即得 x \mathbf{x} x g g g的极小点: g x ( x ) ≤ g x ( z ) , ∀ z ∈ E . g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}. gx(x)gx(z),zE. y ∈ E \mathbf{y}\in\mathbb{E} yE, 令 v ∈ E \mathbf{v}\in\mathbb{E} vE为满足 ∥ v ∥ = 1 ,   ⟨ ∇ g x ( y ) , v ⟩ = ∥ ∇ g x ( y ) ∥ ∗ \Vert\mathbf{v}\Vert=1,\,\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle=\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_* v=1,gx(y),v=gx(y)的向量. 令 z = y − ∥ ∇ g x ( y ) ∥ ∗ L v \mathbf{z}=\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v} z=yLgx(y)v就有 0 = g x ( x ) ≤ g x ( y − ∥ ∇ g x ( y ) ∥ ∗ L v ) . 0=g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}\left(\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v}\right). 0=gx(x)gx(yLgx(y)v).再利用 g x g_{\mathbf{x}} gx的性质可得 0 = g x ( x ) ≤ g x ( y ) − ∥ ∇ g x ( y ) ∥ ∗ L ⟨ ∇ g x ( y ) , v ⟩ + 1 2 L ∥ g x ( y ) ∥ ∗ 2 ⋅ ∥ v ∥ 2 = g x ( y ) − 1 2 L ∥ ∇ g x ( y ) ∥ ∗ 2 = f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ − 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 , \begin{aligned}0&=g_{\mathbf{x}}(\mathbf{x})\\&\le g_{\mathbf{x}}(\mathbf{y})-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle+\frac{1}{2L}\Vert g_{\mathbf{x}}(\mathbf{y})\Vert_*^2\cdot\Vert\mathbf{v}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})-\frac{1}{2L}\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert^2_*\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle-\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\end{aligned} 0=gx(x)gx(y)Lgx(y)gx(y),v+2L1gx(y)2v2=gx(y)2L1gx(y)2=f(y)f(x)f(x),yx2L1f(x)f(y)2,这就证明了(iii).
(iii) ⇒ \Rightarrow (iv): 假设(iii)成立, 则对 ( x , y ) (\mathbf{x,y}) (x,y)交替地有 f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 , f ( x ) ≥ f ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ + 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 . \begin{aligned}f(\mathbf{y})&\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\\f(\mathbf{x})&\ge f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*.\end{aligned} f(y)f(x)f(x)+f(x),yx+2L1f(x)f(y)2,f(y)+f(y),xy+2L1f(x)f(y)2.两式相加即得(iv).
(iv) ⇒ \Rightarrow (i): 假设(iv)成立. 不妨假设 ∇ f ( x ) ≠ ∇ f ( y ) \nabla f(\mathbf{x})\ne\nabla f(\mathbf{y}) f(x)=f(y). 由推广的Cauchy-Schwarz不等式, 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ ⋅ ∥ x − y ∥ ≥ ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≥ 1 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\cdot\Vert\mathbf{x-y}\Vert\ge\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*. f(x)f(y)xyf(x)f(y),xyL1f(x)f(y)2.两边同除 ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_* f(x)f(y)再同乘 L L L即得(i).
至此, 我们已证明了(i),(ii),(iii)和(iv)的等价性. 为证明(v)与这四条等价, 下面我们证明(ii) ⇔ \Leftrightarrow (v).
(ii) ⇒ \Rightarrow (v): 设 x , y ∈ E ,   λ ∈ [ 0 , 1 ] \mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1] x,yE,λ[0,1]. 记 x λ = λ x + ( 1 − λ ) y \mathbf{x}_{\lambda}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx+(1λ)y. 由(ii), f ( x ) ≤ f ( x λ ) + ⟨ ∇ f ( x λ ) , x − x λ ⟩ + L 2 ∥ x − x λ ∥ 2 , f ( y ) ≤ f ( x λ ) + ⟨ ∇ f ( x λ ) , y − x λ ⟩ + L 2 ∥ y − x λ ∥ 2 , \begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{x-x}_{\lambda}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{y-x}_{\lambda}\Vert^2,\end{aligned} f(x)f(y)f(xλ)+f(xλ),xxλ+2Lxxλ2,f(xλ)+f(xλ),yxλ+2Lyxλ2,这等同于 f ( x ) ≤ f ( x λ ) + ( 1 − λ ) ⟨ ∇ f ( x λ ) , x − y ⟩ + L ( 1 − λ ) 2 2 ∥ x − y ∥ 2 , f ( y ) ≤ f ( x λ ) + λ ⟨ ∇ f ( x λ ) , y − x ⟩ + L λ 2 2 ∥ x − y ∥ 2 , \begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+(1-\lambda)\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-y}\rangle+\frac{L(1-\lambda)^2}{2}\Vert\mathbf{x-y}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\lambda\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}\rangle+\frac{L\lambda^2}{2}\Vert\mathbf{x-y}\Vert^2,\end{aligned} f(x)f(y)f(xλ)+(1λ)f(xλ),xy+2L(1λ)2xy2,f(xλ)+λf(xλ),yx+2Lλ2xy2,再在第一个不等式两边同乘 λ \lambda λ, 第二个不等式两边同乘 1 − λ 1-\lambda 1λ, 二者再相加即得(v).
(v) ⇒ \Rightarrow (ii): 重新整理(v)可得 f ( y ) ≤ f ( x ) + f ( x + ( 1 − λ ) ( y − x ) ) − f ( x ) 1 − λ + L 2 λ ∥ x − y ∥ 2 . f(\mathbf{y})\le f(\mathbf{x})+\frac{f(\mathbf{x}+(1-\lambda)(\mathbf{y-x}))-f(\mathbf{x})}{1-\lambda}+\frac{L}{2}\lambda\Vert\mathbf{x-y}\Vert^2. f(y)f(x)+1λf(x+(1λ)(yx))f(x)+2Lλxy2. λ → 1 − 1 \lambda\to1^{-1} λ11, 则推出 f ( y ) ≤ f ( x ) + f ′ ( x ; y − x ) + L 2 ∥ x − y ∥ 2 . f(\mathbf{y})\le f(\mathbf{x})+f'(\mathbf{x;y-x})+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2. f(y)f(x)+f(x;yx)+2Lxy2.根据第三章定理11, f ′ ( x ; y − x ) = ⟨ ∇ f ( x ) , y − x ⟩ f'(\mathbf{x;y-x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle f(x;yx)=f(x),yx. 即得(ii).


定理3 (多元函数的微分中值定理) 设 f : U → R f:U\to\mathbb{R} f:UR为开集 U ⊂ R n U\subset\mathbb{R}^n URn上的二次连续可微函数8. 设 x ∈ U ,   r > 0 \mathbf{x}\in U,\,r>0 xU,r>0满足 B ( x , r ) ⊂ U B(\mathbf{x},r)\subset U B(x,r)U. 则对 ∀ y ∈ B ( x , r ) \forall\mathbf{y}\in B(\mathbf{x},r) yB(x,r), ∃ ξ ∈ [ x , y ] \exists\bm{\xi}\in[\mathbf{x,y}] ξ[x,y]9, 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+f(x)T(yx)+21(yx)Tf(ξ)(yx).

例5 ( ℓ p \ell_p p-范数函数平方之一半的 ( p − 1 ) (p-1) (p1)-光滑性) 考虑凸函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 ∥ x ∥ p 2 = 1 2 ( ∑ i = 1 n ∣ x i ∣ p ) 2 p , f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2=\frac{1}{2}\left(\sum_{i=1}^n|x_i|^p\right)^{\frac{2}{p}}, f(x)=21xp2=21(i=1nxip)p2,这里 p ∈ [ 2 , ∞ ) p\in[2,\infty) p[2,). 下面我们证明 f f f ℓ p \ell_p p-范数下是 ( p − 1 ) (p-1) (p1)-光滑的. 当 p = 2 p=2 p=2时, 结论成立(见例1). 因此下面假设 p > 2 p>2 p>2. 由于 f f f是凸函数, 因此我们想要利用定理2去证明结论. 为此, 先计算 f f f的偏导数与二阶偏导数: ∂ f ∂ x i ( x ) = { s g n ( x i ) ∣ x i ∣ p − 1 ∥ x ∥ p p − 2 , x ≠ 0 , 0 , x = 0 , \frac{\partial f}{\partial x_i}(\mathbf{x})=\left\{\begin{array}{ll}\mathrm{sgn}(x_i)\frac{|x_i|^{p-1}}{\Vert\mathbf{x}\Vert_p^{p-2}}, & \mathbf{x\ne0},\\0, & \mathbf{x=0},\end{array}\right. xif(x)={sgn(xi)xpp2xip1,0,x=0,x=0,注意到 f f f的偏导数在 R n \mathbb{R}^n Rn上连续, 因此 f f f R n \mathbb{R}^n Rn上可微10. 在 x ≠ 0 \mathbf{x\ne0} x=0的点处 f f f有二阶偏导数: ∂ 2 f ∂ x i ∂ x j ( x ) = { ( 2 − p ) s g n ( x j ) ∣ x i ∣ p − 1 ∣ x j ∣ p − 1 ∥ x ∥ p 2 p − 2 , i ≠ j , ( p − 1 ) ∣ x i ∣ p − 2 ∥ x ∥ p p − 2 + ( 2 − p ) ∣ x i ∣ 2 p − 2 ∥ x ∥ p 2 p − 2 , i = j . \frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}(2-p)\mathrm{sgn}(x_j)\frac{|x_i|^{p-1}|x_j|^{p-1}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i\ne j,\\(p-1)\frac{|x_i|^{p-2}}{\Vert\mathbf{x}\Vert_p^{p-2}}+(2-p)\frac{|x_i|^{2p-2}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i=j.\end{array}\right. xixj2f(x)=(2p)sgn(xj)xp2p2xip1xjp1,(p1)xpp2xip2+(2p)xp2p2xi2p2,i=j,i=j.易知 f f f的二阶偏导数在 ∀ x ≠ 0 \forall\mathbf{x\ne0} x=0处是连续的. 下面我们证明 f f f L = p − 1 L=p-1 L=p1满足定理2的(ii). 设 x , y ∈ R n : 0 ∉ [ x , y ] \mathbf{x,y}\in\mathbb{R}^n:\mathbf{0}\notin[\mathbf{x,y}] x,yRn:0/[x,y]. 于是由微分中值定理, 取 U U U为包含 [ x , y ] [\mathbf{x,y}] [x,y]但不包含 0 \mathbf{0} 0的开集, 存在 ξ ∈ [ x , y ] \bm{\xi}\in[\mathbf{x,y}] ξ[x,y], 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+f(x)T(yx)+21(yx)T2f(ξ)(yx).只需证 d T ∇ 2 f ( ξ ) d ≤ ( p − 1 ) ∥ d ∥ p 2 ,   ∀ d ∈ R n \mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2,\,\forall\mathbf{d}\in\mathbb{R}^n dT2f(ξ)d(p1)dp2,dRn. 由于 ∇ 2 f ( t ξ ) = ∇ 2 f ( ξ ) ,   ∀ t ∈ R ∖ { 0 } \nabla^2f(t\bm{\xi})=\nabla^2f(\bm{\xi}),\,\forall t\in\mathbb{R}\setminus\{0\} 2f(tξ)=2f(ξ),tR{0}, 因此我们不妨假设 ∥ ξ ∥ p = 1 \Vert\bm{\xi}\Vert_p=1 ξp=1. 现对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n dRn, d T ∇ 2 f ( ξ ) d = ( 2 − p ) ∥ ξ ∥ p 2 − 2 p ( ∑ i = 1 n ∣ ξ i ∣ p − 1 s g n ( ξ i ) d i ) 2 + ( p − 1 ) ∥ ξ ∥ p 2 − p ∑ i = 1 n ∣ ξ i ∣ p − 2 d i 2 ≤ ( p − 1 ) ∥ ξ ∥ p 2 − p ∑ i = 1 n ∣ ξ i ∣ p − 1 d i 2 , \begin{aligned}\mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}&=(2-p)\Vert\bm{\xi}\Vert_p^{2-2p}\left(\sum_{i=1}^n|\xi_i|^{p-1}\mathrm{sgn}(\xi_i)d_i\right)^2+(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-2}d_i^2\\&\le(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-1}d_i^2,\end{aligned} dT2f(ξ)d=(2p)ξp22p(i=1nξip1sgn(ξi)di)2+(p1)ξp2pi=1nξip2di2(p1)ξp2pi=1nξip1di2,这里最后一个不等式是由于 p > 2 p>2 p>2. 根据Cauchy-Schwarz不等式, ∑ i = 1 n ∣ ξ i ∣ p − 2 d i 2 ≤ ( ∑ i = 1 n ( ∣ ξ i ∣ p − 2 ) p p − 2 ) p − 2 p ( ∑ i = 1 n ( d i 2 ) p 2 ) 2 p = ( ∑ i = 1 n ∣ ξ i ∣ p ) p − 2 p ( ∑ i = 1 n ∣ d i ∣ p ) 2 p = ∥ d ∥ p 2 . \sum_{i=1}^n|\xi_i|^{p-2}d_i^2\le\left(\sum_{i=1}^n\left(|\xi_i|^{p-2}\right)^{\frac{p}{p-2}}\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n\left(d_i^2\right)^{\frac{p}{2}}\right)^{\frac{2}{p}}=\left(\sum_{i=1}^n|\xi_i|^p\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n|d_i|^p\right)^{\frac{2}{p}}=\Vert\mathbf{d}\Vert_p^2. i=1nξip2di2(i=1n(ξip2)p2p)pp2(i=1n(di2)2p)p2=(i=1nξip)pp2(i=1ndip)p2=dp2.于是, 对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n dRn, d T ∇ 2 f ( ξ ) d ≤ ( p − 1 ) ∥ d ∥ p 2 . \mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2. dT2f(ξ)d(p1)dp2. 0 ∈ [ x , y ] \mathbf{0}\in[\mathbf{x,y}] 0[x,y], 则取一列 { y k } k ≥ 0 \{\mathbf{y}_k\}_{k\ge0} {yk}k0收敛到 y \mathbf{y} y, 同时又有 0 ∉ [ x , y k ] \mathbf{0}\notin[\mathbf{x,y}_k] 0/[x,yk]. 因此由已有的结论, 对 ∀ k ≥ 0 \forall k\ge0 k0, f ( y k ) ≤ f ( x ) + ∇ f ( x ) T ( y k − x ) + p − 1 2 ∥ x − y k ∥ p 2 . f(\mathbf{y}_k)\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y}_k-\mathbf{x})+\frac{p-1}{2}\Vert\mathbf{x-y}_k\Vert_p^2. f(yk)f(x)+f(x)T(ykx)+2p1xykp2.在不等式两边令 k → ∞ k\to\infty k并利用 f f f的连续性即得证.

1.3 L L L-光滑函数的二阶等价刻画

下面考虑 E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 范数为 ℓ p \ell_p p-范数( p ≥ 1 p\ge1 p1). 对 R n \mathbb{R}^n Rn上的二次连续可微函数, 我们可通过其Hessian矩阵的范数刻画其 L L L-光滑性.

定理4 ( L L L-光滑性与Hessian矩阵范数的有界性) 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR R n \mathbb{R}^n Rn上的二次连续可微函数. 对一给定 L ≥ 0 L\ge0 L0, 下面两件事是等价的:
(i) f f f ℓ p \ell_p p-范数( p ∈ [ 1 , ∞ ] p\in[1,\infty] p[1,])下是 L L L-光滑的;
(ii) ∥ ∇ 2 f ( x ) ∥ p , q ≤ L ,   ∀ x ∈ R n \Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)p,qL,xRn, 这里 q ∈ [ 1 , ∞ ] : 1 p + 1 q = 1 q\in[1,\infty]:\frac{1}{p}+\frac{1}{q}=1 q[1,]:p1+q1=1.

证明: (ii) ⇒ \Rightarrow (i): 假设 ∥ ∇ 2 f ( x ) ∥ p , q ≤ L ,   ∀ x ∈ R n \Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)p,qL,xRn. 由微积分基本定理, 对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n x,yRn, ∇ f ( y ) = ∇ f ( x ) + ∫ 0 1 ∇ 2 f ( x + t ( y − x ) ) ( y − x )   d t = ∇ f ( x ) + ( ∫ 0 1 ∇ 2 f ( x + t ( y − x ) )   d t ) ⋅ ( y − x ) . \begin{aligned}\nabla f(\mathbf{y})&=\nabla f(\mathbf{x})+\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))(\mathbf{y-x})\,\mathrm{d}t\\&=\nabla f(\mathbf{x})+\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x}).\end{aligned} f(y)=f(x)+012f(x+t(yx))(yx)dt=f(x)+(012f(x+t(yx))dt)(yx).于是 ∥ ∇ f ( y ) − ∇ f ( x ) ∥ q = ∥ ( ∫ 0 1 ∇ 2 f ( x + t ( y − x ) )   d t ) ⋅ ( y − x ) ∥ q ≤ ∥ ∫ 0 1 ∇ 2 f ( x + t ( y − x ) )   d t ∥ p , q ⋅ ∥ y − x ∥ p ≤ ( ∫ 0 1 ∥ ∇ 2 f ( x + t ( y − x ) ) ∥ p , q   d t ) ⋅ ∥ y − x ∥ p ≤ L ∥ y − x ∥ p , \begin{aligned}\Vert\nabla f(\mathbf{y})-\nabla f(\mathbf{x})\Vert_q&=\left\Vert\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x})\right\Vert_q\\ &\le\left\Vert\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right\Vert_{p,q}\cdot\Vert\mathbf{y-x}\Vert_p\\ &\le\left(\int_0^1\left\Vert\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\right\Vert_{p,q}\,\mathrm{d}t\right)\cdot\Vert\mathbf{y-x}\Vert_p\\&\le L\Vert\mathbf{y-x}\Vert_p,\end{aligned} f(y)f(x)q=(012f(x+t(yx))dt)(yx)q012f(x+t(yx))dtp,qyxp(012f(x+t(yx))p,qdt)yxpLyxp,这就证明了(i).
(i) ⇒ \Rightarrow (ii): 假设 f f f ℓ p \ell_p p-范数下 L L L-光滑. 再次由微积分基本定理, 对 ∀ d ∈ R n ,   α > 0 \forall\mathbf{d}\in\mathbb{R}^n,\,\alpha>0 dRn,α>0, ∇ f ( x + α d ) − ∇ f ( x ) = ∫ 0 α ∇ 2 f ( x + t d ) d   d t . \nabla f(\mathbf{x}+\alpha\mathbf{d})-\nabla f(\mathbf{x})=\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\mathbf{d}\,\mathrm{d}t. f(x+αd)f(x)=0α2f(x+td)ddt.因此, ∥ ( ∫ 0 α ∇ 2 f ( x + t d )   d t ) d ∥ q ≤ α L ∥ d ∥ p . \left\Vert\left(\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\,\mathrm{d}t\right)\mathbf{d}\right\Vert_q\le\alpha L\Vert\mathbf{d}\Vert_p. (0α2f(x+td)dt)dqαLdp.同除 α \alpha α并令 α → 0 + \alpha\to0^+ α0+, 就有 ∥ ∇ 2 f ( x ) d ∥ q ≤ L ∥ d ∥ p , ∀ d ∈ R n , \Vert\nabla^2f(\mathbf{x})\mathbf{d}\Vert_q\le L\Vert\mathbf{d}\Vert_p,\quad\forall\mathbf{d}\in\mathbb{R}^n, 2f(x)dqLdp,dRn,这表明 ∥ ∇ 2 f ( x ) ∥ p , q ≤ L ,   ∀ x ∈ R n \Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)p,qL,xRn.

定理4的直接推论是, 对于二次连续可微的凸函数, 在 ℓ 2 \ell_2 2-范数下的 L L L-光滑性等价于其Hessian矩阵的最大特征值小于等于 L L L.

推论1 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR R n \mathbb{R}^n Rn上二次连续可微的凸函数. 则 f f f ℓ 2 \ell_2 2-范数下 L L L-光滑等价于 λ max ⁡ ( ∇ 2 f ( x ) ) ≤ L ,   ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le L,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(2f(x))L,xRn.

证明: 因 f f f是凸函数, 所以 ∇ 2 f ( x ) ⪰ 0 ,   ∀ x ∈ R n \nabla^2f(\mathbf{x})\succeq\mathbf{0},\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)0,xRn. 此时 ∥ ∇ 2 f ( x ) ∥ 2 , 2 = λ max ⁡ ( ( ∇ 2 f ( x ) ) 2 ) = λ max ⁡ ( ∇ 2 f ( x ) ) . \Vert\nabla^2f(\mathbf{x})\Vert_{2,2}=\sqrt{\lambda_{\max}\left((\nabla^2f(\mathbf{x}))^2\right)}=\lambda_{\max}\left(\nabla^2f(\mathbf{x})\right). 2f(x)2,2=λmax((2f(x))2) =λmax(2f(x)).再结合定理4, 就得证.

例6 ( 1 + ∥ ⋅ ∥ 2 2 \sqrt{1+\Vert\cdot\Vert_2^2} 1+22 ℓ 2 \ell_2 2-范数下的 1 1 1-光滑性) 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR为如下的凸函数 f ( x ) = 1 + ∥ x ∥ 2 2 . f(\mathbf{x})=\sqrt{1+\Vert\mathbf{x}\Vert_2^2}. f(x)=1+x22 . ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, ∇ f ( x ) = x ∥ x ∥ 2 2 + 1 ,   ∇ 2 f ( x ) = 1 ∥ x ∥ 2 2 + 1 I − x x T ( ∥ x ∥ 2 2 + 1 ) 3 / 2 ⪯ I . \nabla f(\mathbf{x})=\frac{\mathbf{x}}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}},\,\nabla^2f(\mathbf{x})=\frac{1}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}}\mathbf{I}-\frac{\mathbf{xx}^T}{\left(\Vert\mathbf{x}\Vert_2^2+1\right)^{3/2}}\preceq\mathbf{I}. f(x)=x22+1 x,2f(x)=x22+1 1I(x22+1)3/2xxTI.从而有 λ max ⁡ ( ∇ 2 f ( x ) ) ≤ 1 ,   ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(2f(x))1,xRn. 根据推论1, 可知 f f f ℓ 2 \ell_2 2-范数下 1 1 1-光滑.

例7 (对数求和指数函数在 ℓ 2 \ell_2 2-, ℓ ∞ \ell_{\infty} -范数下的 1 1 1-光滑性) 考虑对数求和指数函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR: f ( x ) = log ⁡ ( e x 1 + e x 2 + ⋯ + e x n ) . f(\mathbf{x})=\log(e^{x_1}+e^{x_2}+\cdots+e^{x_n}). f(x)=log(ex1+ex2++exn).首先考虑 ℓ 2 \ell_2 2-范数. f f f的一阶偏导数为 ∂ f ∂ x i ( x ) = e x i ∑ k = 1 n e x k , i = 1 , 2 , … , n , \frac{\partial f}{\partial x_i}(\mathbf{x})=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}},\quad i=1,2,\ldots,n, xif(x)=k=1nexkexi,i=1,2,,n,二阶偏导数为 ∂ 2 f ∂ x i ∂ x j ( x ) = { − e x i e x j ( ∑ k = 1 n e x k ) 2 , i ≠ j , − e 2 x i ( ∑ k = 1 n e x k ) 2 + e x i ∑ k = 1 n e x k , i = j . \frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}-\frac{e^{x_i}e^{x_j}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}, & i\ne j,\\-\frac{e^{2x_i}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}+\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}}, & i=j.\end{array}\right. xixj2f(x)=(k=1nexk)2exiexj,(k=1nexk)2e2xi+k=1nexkexi,i=j,i=j.于是Hessian矩阵可以写作 ∇ 2 f ( x ) = d i a g ( w ) − w w T ≻ 0 , \nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\succ\mathbf{0}, 2f(x)=diag(w)wwT0,这里 w i = e x i ∑ k = 1 n e x k w_i=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}} wi=k=1nexkexi. 注意到对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, ∇ 2 f ( x ) = d i a g ( w ) − w w T ⪯ d i a g ( w ) ⪯ I , \nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\preceq\mathrm{diag}(\mathbf{w})\preceq\mathbf{I}, 2f(x)=diag(w)wwTdiag(w)I,因此 λ max ⁡ ( ∇ 2 f ( x ) ) ≤ 1 ,   ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(2f(x))1,xRn. 再因 f f f的Hessian矩阵正定, 因此 f f f是凸函数, 由推论1即得 f f f ℓ 2 \ell_2 2-范数下是 1 1 1-光滑的.

下证 ℓ ∞ \ell_{\infty} -范数的情形. 我们首先证明对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n dRn, d T ∇ 2 f ( x ) d ≤ ∥ d ∥ ∞ 2 . \mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}\le\Vert\mathbf{d}\Vert_{\infty}^2. dT2f(x)dd2.事实上, d T ∇ 2 f ( x ) d = d T ( d i a g ( w ) − w w T ) d = d T d i a g ( w ) d − ( w T d ) 2 ≤ d T d i a g ( w ) d = ∑ i = 1 n w i d i 2 ≤ ∥ d ∥ ∞ 2 ∑ i = 1 n w i = ∥ d ∥ ∞ 2 . \begin{aligned}\mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}&=\mathbf{d}^T\left(\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\right)\mathbf{d}=\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}-\left(\mathbf{w}^T\mathbf{d}\right)^2\\&\le\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}=\sum_{i=1}^nw_id_i^2\\&\le\Vert\mathbf{d}\Vert_{\infty}^2\sum_{i=1}^nw_i=\Vert\mathbf{d}\Vert_{\infty}^2.\end{aligned} dT2f(x)d=dT(diag(w)wwT)d=dTdiag(w)d(wTd)2dTdiag(w)d=i=1nwidi2d2i=1nwi=d2. f f f R n \mathbb{R}^n Rn上二次连续可微, 于是由微分中值定理, 对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n x,yRn, ∃ ξ ∈ [ x , y ] \exists\bm{\xi}\in[\mathbf{x,y}] ξ[x,y], 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+f(x)T(yx)+21(yx)T2f(ξ)(yx).结合上面的不等式, 有 f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ∥ y − x ∥ ∞ 2 , f(\mathbf{y})\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}\Vert\mathbf{y-x}\Vert_{\infty}^2, f(y)f(x)+f(x)T(yx)+21yx2,再由定理2的(ii)即得 f f f ℓ ∞ \ell_{\infty} -范数下的 1 1 1-光滑性.

1.4 光滑参数计算小结

下表总结了本节讨论的函数在不同范数下的光滑参数. 其中最后一个函数的讨论放在下一章.

f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f)光滑参数范数例号
1 2 x T A x + b T x + c   ( A ∈ S n ,   b ∈ R n ,   c ∈ R ) \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}) 21xTAx+bTx+c(ASn,bRn,cR) R n \mathbb{R}^n Rn ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} Ap,q ℓ p \ell_p p1
⟨ b , x ⟩ + c   ( b ∈ E ∗ ,   c ∈ R ) \langle\mathbf{b,x}\rangle+c\,(\mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R}) b,x+c(bE,cR) E \mathbb{E} E 0 0 0任何范数2
1 2 ∥ x ∥ p 2 ,   p ∈ [ 2 , ∞ ) \frac{1}{2}\Vert\mathbf{x}\Vert_p^2,\,p\in[2,\infty) 21xp2,p[2,) R n \mathbb{R}^n Rn p − 1 p-1 p1 ℓ p \ell_p p5
1 + ∥ x ∥ 2 2 \sqrt{1+\Vert\mathbf{x}\Vert_2^2} 1+x22 R n \mathbb{R}^n Rn 1 1 1 ℓ 2 \ell_2 26
log ⁡ ( ∑ i = 1 n e x i ) \log(\sum_{i=1}^ne^{x_i}) log(i=1nexi) R n \mathbb{R}^n Rn 1 1 1 ℓ 2 , ℓ ∞ \ell_2,\ell_{\infty} 2,7
1 2 d C 2 ( x )   ( ∅ ≠ C ⊂ E \frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21dC2(x)(=CE闭凸 ) ) ) E \mathbb{E} E 1 1 1欧式范数3
1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x )   ( ∅ ≠ C ⊂ E \frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21x221dC2(x)(=CE闭凸 ) ) ) E \mathbb{E} E 1 1 1欧式范数4
H μ ( x )   ( μ > 0 ) H_{\mu}(\mathbf{x})\,(\mu>0) Hμ(x)(μ>0) E \mathbb{E} E 1 μ \frac{1}{\mu} μ1欧式范数第六章例28

2. σ \sigma σ-强凸性

定义2 (强凸性) 对一给定 σ > 0 \sigma>0 σ>0, 我们称函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] σ \sigma σ-强凸的, 若 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集且对 ∀ x , y ∈ d o m ( f ) ,   λ ∈ [ 0 , 1 ] \forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1] x,ydom(f),λ[0,1], 均有 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2. f(λx+(1λ)y)λf(x)+(1λ)f(y)2σλ(1λ)xy2. σ \sigma σ强凸参数. 有时我们也称 f f f对于参数 σ \sigma σ强凸.

需要说明的是, 强凸参数 σ \sigma σ也依赖于定义所用的范数. 因此我们有时也会刻意地说成, 在范数 ∥ ⋅ ∥ \Vert\cdot\Vert 下的强凸参数. 由于如上定义的强凸函数的有效域是凸的, 而且显然有Jensen不等式成立, 所以强凸函数必定是凸函数.

E \mathbb{E} E欧式空间时, 我们可给出等价于强凸性的一个简单性质.

定理5 E \mathbb{E} E为欧式空间11. 则 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0)当且仅当 f ( ⋅ ) − σ 2 ∥ ⋅ ∥ 2 f(\cdot)-\frac{\sigma}{2}\Vert\cdot\Vert^2 f()2σ2是凸函数.

证明: 函数 g ( x ) ≡ f ( x ) − σ 2 ∥ x ∥ 2 g(\mathbf{x})\equiv f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x}\Vert^2 g(x)f(x)2σx2是凸函数当且仅当其有效域 d o m ( g ) = d o m ( f ) \mathrm{dom}(g)=\mathrm{dom}(f) dom(g)=dom(f)是凸集, 且对 ∀ x , y ∈ d o m ( f ) ,   λ ∈ [ 0 , 1 ] \forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1] x,ydom(f),λ[0,1], g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) . g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}). g(λx+(1λ)y)λg(x)+(1λ)g(y).这等价于 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) + σ 2 [ ∥ λ x + ( 1 − λ ) y ∥ 2 − λ ∥ x ∥ 2 − ( 1 − λ ) ∥ y ∥ 2 ] . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})+\frac{\sigma}{2}[\Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2]. f(λx+(1λ)y)λf(x)+(1λ)f(y)+2σ[λx+(1λ)y2λx2(1λ)y2].由于 E \mathbb{E} E是欧式空间, 所以 ∥ λ x + ( 1 − λ ) y ∥ 2 − λ ∥ x ∥ 2 − ( 1 − λ ) ∥ y ∥ 2 = − λ ( 1 − λ ) ∥ x − y ∥ 2 , \Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2=-\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, λx+(1λ)y2λx2(1λ)y2=λ(1λ)xy2,代入上面的不等式即可得证.

另外, σ \sigma σ-强凸性也有类似于 L L L-光滑性的单调性, 即若函数 f f f σ 1 \sigma_1 σ1-强凸的( σ 1 > 0 \sigma_1>0 σ1>0), 则对 ∀ σ 2 ∈ ( 0 , σ 1 ) \forall\sigma_2\in(0,\sigma_1) σ2(0,σ1), 它必是 σ 2 \sigma_2 σ2-强凸的. 对应地, 定出一给定函数的最大强凸参数则也是一件不平凡的事, 也是一件有趣的事.

例8 (二次函数的强凸性) 假设 E = R n \mathbb{E}=\mathbb{R}^n E=Rn ℓ 2 \ell_2 2-范数, 考虑二次函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 x T A x + b T x + c , f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c, f(x)=21xTAx+bTx+c,其中 A ∈ S n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} ASn,bRn,cR. 由定理5, f f f σ \sigma σ-强凸函数当且仅当函数 1 2 x T ( A − σ I ) x + b T x + c \frac{1}{2}\mathbf{x}^T(\mathbf{A-\sigma I})\mathbf{x}+\mathbf{b}^T\mathbf{x}+c 21xT(AσI)x+bTx+c是凸函数, 而这等价于 A − σ I ⪰ 0 \mathbf{A-\sigma I}\succeq\mathbf{0} AσI0, 即 λ min ⁡ ( A ) ≥ σ \lambda_{\min}(\mathbf{A})\ge\sigma λmin(A)σ. 因此, f f f强凸当且仅当 A \mathbf{A} A正定, 且此时 λ min ⁡ ( A ) \lambda_{\min}(\mathbf{A}) λmin(A)就是 f f f的最大强凸参数.

强凸函数与凸函数的和仍然是强凸函数, 且不改变其强凸参数.

引理1 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] σ \sigma σ-强凸函数 ( σ > 0 (\sigma>0 (σ>0), g : E → ( − ∞ , ∞ ] g:\mathbb{E}\to(-\infty,\infty] g:E(,]是凸函数. 则 f + g f+g f+g仍然是 σ \sigma σ-强凸函数.

证明: 证明是直接的. 因 f , g f,g f,g是凸函数, 所以 d o m ( f ) , d o m ( g ) \mathrm{dom}(f),\mathrm{dom}(g) dom(f),dom(g)都是凸集, 从而 d o m ( f + g ) = d o m ( f ) ∩ d o m ( g ) \mathrm{dom}(f+g)=\mathrm{dom}(f)\cap\mathrm{dom}(g) dom(f+g)=dom(f)dom(g)是凸集. 设 x , y ∈ d o m ( f ) ∩ d o m ( g ) ,   λ ∈ [ 0 , 1 ] \mathbf{x,y}\in\mathrm{dom}(f)\cap\mathrm{dom}(g),\,\lambda\in[0,1] x,ydom(f)dom(g),λ[0,1]. 则由 f f f σ \sigma σ-强凸性, f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2. f(λx+(1λ)y)λf(x)+(1λ)f(y)2σλ(1λ)xy2.再由 g g g是凸函数, g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) . g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}). g(λx+(1λ)y)λg(x)+(1λ)g(y).两不等式相加得到 ( f + g ) ( λ x + ( 1 − λ ) y ) ≤ λ ( f + g ) ( x ) + ( 1 − λ ) ( f + g ) ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 , (f+g)(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda(f+g)(\mathbf{x})+(1-\lambda)(f+g)(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, (f+g)(λx+(1λ)y)λ(f+g)(x)+(1λ)(f+g)(y)2σλ(1λ)xy2,得证.

例9 ( 1 2 ∥ ⋅ ∥ 2 + δ C \frac{1}{2}\Vert\cdot\Vert^2+\delta_C 212+δC的强凸性) 假设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空凸集. 则由例8知 1 2 ∥ x ∥ 2 \frac{1}{2}\Vert\mathbf{x}\Vert^2 21x2 1 1 1-强凸函数, 再由 C C C是凸集, 从而 δ C \delta_C δC是凸函数. 最后根据引理1, 函数 1 2 ∥ x ∥ 2 + δ C ( x ) \frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x}) 21x2+δC(x)就是 1 1 1-强凸的.

我们之前给出了刻画 L L L-光滑函数的一阶和二阶性质. 这里我们也给出 σ \sigma σ-强凸的两个等价一阶性质. 它们的证明要用到下面的一维中值定理(引理212)与线段原理(引理313).

引理2(中值定理) 设 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]为一闭凸函数, [ a , b ] ⊂ d o m ( f ) ( a < b ) [a,b]\subset\mathrm{dom}(f)(a<b) [a,b]dom(f)(a<b). 于是 f ( b ) − f ( a ) = ∫ a b h ( t )   d t , f(b)-f(a)=\int_a^bh(t)\,\mathrm{d}t, f(b)f(a)=abh(t)dt,其中 h : ( a , b ) → R h:(a,b)\to\mathbb{R} h:(a,b)R满足 h ( t ) ∈ ∂ f ( t ) ,   ∀ t ∈ ( a , b ) h(t)\in\partial f(t),\,\forall t\in(a,b) h(t)f(t),t(a,b).

引理3(线段原理) 设 C C C为凸集. 假设 x ∈ r i ( C ) ,   y ∈ c l ( C ) ,   λ ∈ ( 0 , 1 ] \mathbf{x}\in\mathrm{ri}(C),\,\mathbf{y}\in\mathrm{cl}(C),\,\lambda\in(0,1] xri(C),ycl(C),λ(0,1]. 于是 λ x + ( 1 − λ ) y ∈ r i ( C ) \lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in\mathrm{ri}(C) λx+(1λ)yri(C).

定理6 (强凸性的一阶刻画) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭凸函数. 则对一给定 σ > 0 \sigma>0 σ>0, 下面三件事是等价的:
(i) f f f σ \sigma σ-强凸函数;
(ii) f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ + σ 2 ∥ y − x ∥ 2 ,   ∀ x ∈ d o m ( ∂ f ) ,   y ∈ d o m ( f ) ,   g ∈ ∂ f ( x ) f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle+\frac{\sigma}{2}\Vert\mathbf{y-x}\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x}) f(y)f(x)+g,yx+2σyx2,xdom(f),ydom(f),gf(x)14;
(iii) ⟨ g x − g y , x − y ⟩ ≥ σ ∥ x − y ∥ 2 ,   ∀ x , y ∈ d o m ( ∂ f ) ,   g x ∈ ∂ f ( x ) ,   g y ∈ ∂ f ( y ) \langle\mathbf{g_x-g_y,x-y}\rangle\ge\sigma\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y}) gxgy,xyσxy2,x,ydom(f),gxf(x),gyf(y)15.

证明: (ii) ⇒ \Rightarrow (i): 假设(ii)成立. 任取 x , y ∈ d o m ( f ) ,   λ ∈ ( 0 , 1 ) ,   z ∈ r i ( d o m ( f ) ) \mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in(0,1),\,\mathbf{z}\in\mathrm{ri(dom}(f)) x,ydom(f),λ(0,1),zri(dom(f)). 于是对 ∀ α ∈ ( 0 , 1 ] \forall\alpha\in(0,1] α(0,1], 由线段原理, x ~ = ( 1 − α ) x + α z ∈ r i ( d o m ( f ) ) \tilde\mathbf{x}=(1-\alpha)\mathbf{x}+\alpha\mathbf{z}\in\mathrm{ri(dom}(f)) x~=(1α)x+αzri(dom(f)). 固定 α \alpha α. 记 x λ = λ x ~ + ( 1 − λ ) y \mathbf{x_{\lambda}}=\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx~+(1λ)y, 再由线段原理, 知 x λ ∈ r i ( d o m ( f ) ) ,   ∀ λ ∈ ( 0 , 1 ) \mathbf{x_{\lambda}}\in\mathrm{ri(dom}(f)),\,\forall\lambda\in(0,1) xλri(dom(f)),λ(0,1). 因此根据第三章定理6, ∂ f ( x λ ) ≠ ∅ \partial f(\mathbf{x_{\lambda}})\ne\emptyset f(xλ)=, x λ ∈ d o m ( ∂ f ) \mathbf{x_{\lambda}}\in\mathrm{dom}(\partial f) xλdom(f). 取 g ∈ ∂ f ( x λ ) \mathbf{g}\in\partial f(\mathbf{x_{\lambda}}) gf(xλ). 由(ii), f ( x ~ ) ≥ f ( x λ ) + ⟨ g , x ~ − x λ ⟩ + σ 2 ∥ x ~ − x λ ∥ 2 , f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{x_{\lambda}}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{x}-\mathbf{x_{\lambda}}\Vert^2, f(x~)f(xλ)+g,x~xλ+2σx~xλ2,代入 x λ \mathbf{x_{\lambda}} xλ定义就有 f ( x ~ ) ≥ f ( x λ ) + ( 1 − λ ) ⟨ g , x ~ − y ⟩ + σ ( 1 − λ ) 2 2 ∥ y − x ~ ∥ 2 . f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+(1-\lambda)\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{y}\rangle+\frac{\sigma(1-\lambda)^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2. f(x~)f(xλ)+(1λ)g,x~y+2σ(1λ)2yx~2.类似地有 f ( y ) ≥ f ( x λ ) + λ ⟨ g , y − x ~ ⟩ + σ λ 2 2 ∥ y − x ~ ∥ 2 . f(\mathbf{y})\ge f(\mathbf{x_{\lambda}})+\lambda\langle\mathbf{g},\mathbf{y}-\tilde\mathbf{x}\rangle+\frac{\sigma\lambda^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2. f(y)f(xλ)+λg,yx~+2σλ2yx~2.前者两边乘以 λ \lambda λ, 后者两边乘以 1 − λ 1-\lambda 1λ, 再相加可得 f ( λ x ~ + ( 1 − λ ) y ) ≤ λ f ( x ~ ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ x ~ − y ∥ 2 . f(\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\tilde\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\tilde\mathbf{x}-\mathbf{y}\Vert^2. f(λx~+(1λ)y)λf(x~)+(1λ)f(y)2σλ(1λ)x~y2. x ~ \tilde\mathbf{x} x~的定义代入上式, 可得 g 1 ( α ) ≤ λ g 2 ( α ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ ( 1 − α ) x + α z − y ∥ 2 , g_1(\alpha)\le\lambda g_2(\alpha)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert(1-\alpha)\mathbf{x}+\alpha\mathbf{z}-\mathbf{y}\Vert^2, g1(α)λg2(α)+(1λ)f(y)2σλ(1λ)(1α)x+αzy2,其中 g 1 ( α ) ≡ f ( λ ( 1 − α ) x + ( 1 − λ ) y + λ α z ) g_1(\alpha)\equiv f(\lambda(1-\alpha)\mathbf{x}+(1-\lambda)\mathbf{y}+\lambda\alpha\mathbf{z}) g1(α)f(λ(1α)x+(1λ)y+λαz), g 2 ( α ) ≡ f ( ( 1 − α ) x + α z ) g_2(\alpha)\equiv f((1-\alpha)\mathbf{x}+\alpha\mathbf{z}) g2(α)f((1α)x+αz). 函数 g 1 , g 2 g_1,g_2 g1,g2均是一维正常闭凸函数, 从而根据第二章定理10可知, 它们都在它们的有效域上连续. 令 α → 0 + \alpha\to0^+ α0+, 推出 g 1 ( 0 ) ≤ λ g 2 ( 0 ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ x − y ∥ 2 . g_1(0)\le\lambda g_2(0)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\mathbf{x-y}\Vert^2. g1(0)λg2(0)+(1λ)f(y)2σλ(1λ)xy2.又因 g 1 ( 0 ) = f ( λ x + ( 1 − λ ) y ) ,   g 2 ( 0 ) = f ( x ) g_1(0)=f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y}),\,g_2(0)=f(\mathbf{x}) g1(0)=f(λx+(1λ)y),g2(0)=f(x), 故得 f f f σ \sigma σ-强凸性.

(i) ⇒ \Rightarrow (iii): 假设(i)成立. 设 x , y ∈ d o m ( ∂ f ) ,   g x ∈ ∂ f ( x ) ,   g y ∈ ∂ f ( y ) \mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y}) x,ydom(f),gxf(x),gyf(y). 任取 λ ∈ [ 0 , 1 ) \lambda\in[0,1) λ[0,1), 并记 x λ = λ x + ( 1 − λ ) y \mathbf{x_{\lambda}}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx+(1λ)y. 由(i), f ( x λ ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 , f(\mathbf{x_{\lambda}})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, f(xλ)λf(x)+(1λ)f(y)2σλ(1λ)xy2,进一步有 f ( x λ ) − f ( x ) 1 − λ ≤ f ( y ) − f ( x ) − σ 2 λ ∥ x − y ∥ 2 . \frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\lambda\Vert\mathbf{x-y}\Vert^2. 1λf(xλ)f(x)f(y)f(x)2σλxy2.因为 g x ∈ ∂ f ( x ) \mathbf{g_x}\in\partial f(\mathbf{x}) gxf(x), 于是 f ( x λ ) − f ( x ) 1 − λ ≥ ⟨ g x , x λ − x ⟩ 1 − λ = ⟨ g x , y − x ⟩ , \frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\ge\frac{\langle\mathbf{g_x,x_{\lambda}-x}\rangle}{1-\lambda}=\langle\mathbf{g_x,y-x}\rangle, 1λf(xλ)f(x)1λgx,xλx=gx,yx,所以 ⟨ g x , y − x ⟩ ≤ f ( y ) − f ( x ) − σ λ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma\lambda}{2}\Vert\mathbf{x-y}\Vert^2. gx,yxf(y)f(x)2σλxy2. λ → 1 − 1 \lambda\to1^{-1} λ11, 就有 ⟨ g x , y − x ⟩ ≤ f ( y ) − f ( x ) − σ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2. gx,yxf(y)f(x)2σxy2.交换 x , y \mathbf{x,y} x,y的位置又得到 ⟨ g y , x − y ⟩ ≤ f ( x ) − f ( y ) − σ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_y,x-y}\rangle\le f(\mathbf{x})-f(\mathbf{y})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2. gy,xyf(x)f(y)2σxy2.两式相加即得(iii).

(iii) ⇒ \Rightarrow (ii): 假设(iii)成立. 设 x ∈ d o m ( ∂ f ) ,   y ∈ d o m ( f ) ,   g ∈ ∂ f ( x ) \mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x}) xdom(f),ydom(f),gf(x). 令 z ∈ r i ( d o m ( f ) ) \mathbf{z}\in\mathrm{ri(dom}(f)) zri(dom(f)), 定义 y ~ = ( 1 − α ) y + α z ,   α ∈ ( 0 , 1 ) \tilde\mathbf{y}=(1-\alpha)\mathbf{y}+\alpha\mathbf{z},\,\alpha\in(0,1) y~=(1α)y+αz,α(0,1). 固定 α \alpha α. 由线段原理, y ~ ∈ r i ( d o m ( f ) ) \tilde\mathbf{y}\in\mathrm{ri(dom}(f)) y~ri(dom(f)). 考虑一元函数 φ ( λ ) = f ( x λ ) , λ ∈ [ 0 , 1 ] , \varphi(\lambda)=f(\mathbf{x_{\lambda}}),\quad\lambda\in[0,1], φ(λ)=f(xλ),λ[0,1],其中 x λ = ( 1 − λ ) x + λ y ~ \mathbf{x_{\lambda}}=(1-\lambda)\mathbf{x}+\lambda\tilde\mathbf{y} xλ=(1λ)x+λy~. 对 ∀ λ ∈ ( 0 , 1 ) \forall\lambda\in(0,1) λ(0,1), 令 g λ ∈ ∂ f ( x λ ) \mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}}) gλf(xλ)16. 于是 ⟨ g λ , y ~ − x ⟩ ∈ ∂ φ ( λ ) \langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\in\partial\varphi(\lambda) gλ,y~xφ(λ), 从而由中值定理, f ( y ~ ) − f ( x ) = φ ( 1 ) − φ ( 0 ) = ∫ 0 1 ⟨ g λ , y ~ − x ⟩   d λ . f(\tilde\mathbf{y})-f(\mathbf{x})=\varphi(1)-\varphi(0)=\int_0^1\langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\,\mathrm{d}\lambda. f(y~)f(x)=φ(1)φ(0)=01gλ,y~xdλ.因为 g ∈ ∂ f ( x ) ,   g λ ∈ ∂ f ( x λ ) \mathbf{g}\in\partial f(\mathbf{x}),\,\mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}}) gf(x),gλf(xλ), 根据(iii), ⟨ g λ − g , x λ − x ⟩ ≥ σ ∥ x λ − x ∥ 2 , \langle\mathbf{g_{\lambda}-g,x_{\lambda}-x}\rangle\ge\sigma\Vert\mathbf{x_{\lambda}-x}\Vert^2, gλg,xλxσxλx2,代入 x λ \mathbf{x_{\lambda}} xλ的定义, ⟨ g λ , y ~ − x ⟩ ≥ ⟨ g , y ~ − x ⟩ + σ λ ∥ y ~ − x ∥ 2 . \langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\ge\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2. gλ,y~xg,y~x+σλy~x2.将此代入中值定理的不等式, 就有 f ( y ~ ) − f ( x ) ≥ ∫ 0 1 [ ⟨ g , y ~ − x ⟩ + σ λ ∥ y ~ − x ∥ 2 ]   d λ = ⟨ g , y ~ − x ⟩ + σ 2 ∥ y ~ − x ∥ 2 . f(\tilde\mathbf{y})-f(\mathbf{x})\ge\int_0^1\left[\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2\right]\,\mathrm{d}\lambda=\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2. f(y~)f(x)01[g,y~x+σλy~x2]dλ=g,y~x+2σy~x2.代入 y ~ \tilde\mathbf{y} y~的定义, 我们有对 ∀ α ∈ ( 0 , 1 ) \forall\alpha\in(0,1) α(0,1), f ( ( 1 − α ) y + α z ) ≥ f ( x ) + ⟨ g , ( 1 − α ) y + α z − x ⟩ + σ 2 ∥ ( 1 − α ) y + α z − x ∥ 2 . f((1-\alpha)\mathbf{y}+\alpha\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{g},(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\Vert^2. f((1α)y+αz)f(x)+g,(1α)y+αzx+2σ(1α)y+αzx2. α → 0 + \alpha\to0^+ α0+并利用一元函数 α ↦ f ( ( 1 − α ) y + α z ) \alpha\mapsto f((1-\alpha)\mathbf{y}+\alpha\mathbf{z}) αf((1α)y+αz) [ 0 , 1 ] [0,1] [0,1]上的连续性17就得证.

下一个定理表明, 正常闭强凸函数有唯一的极小点, 且它在极小点附近满足一定的增长性质.

定理7 (闭强凸函数极小点的存在唯一性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭 σ \sigma σ-强凸函数( σ > 0 \sigma>0 σ>0). 于是
(i) f f f有唯一全局极小点;
(ii) f ( x ) − f ( x ∗ ) ≥ σ 2 ∥ x − x ∗ ∥ 2 ,   ∀ x ∈ d o m ( f ) f(\mathbf{x})-f(\mathbf{x}^*)\ge\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(f) f(x)f(x)2σxx2,xdom(f), 其中 x ∗ \mathbf{x}^* x是(i)中 f f f的唯一极小点.

证明: (i) 因为 d o m ( f ) \mathrm{dom}(f) dom(f)是非空凸集, 从而根据第三章定理5, 存在 x 0 ∈ r i ( d o m ( f ) ) \mathbf{x}_0\in\mathrm{ri(dom}(f)) x0ri(dom(f)), 从而再根据第三章定理6, ∂ f ( x 0 ) ≠ ∅ \partial f(\mathbf{x}_0)\ne\emptyset f(x0)=. 设 g ∈ ∂ f ( x 0 ) \mathbf{g}\in\partial f(\mathbf{x}_0) gf(x0). 由定理6的(ii), 推出 f ( x ) ≥ f ( x 0 ) + ⟨ g , x − x 0 ⟩ + σ 2 ∥ x − x 0 ∥ 2 , ∀ x ∈ E . f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}_0\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}. f(x)f(x0)+g,xx0+2σxx02,xE.因为有限维空间中所有的范数都等价, 所以存在常数 C > 0 C>0 C>0使得 ∥ y ∥ ≥ C ∥ y ∥ a , \Vert\mathbf{y}\Vert\ge\sqrt{C}\Vert\mathbf{y}\Vert_a, yC ya,其中 ∥ ⋅ ∥ a \Vert\cdot\Vert_a a是与空间内积对应的欧式范数. 因此 f ( x ) ≥ f ( x 0 ) + ⟨ g , x − x 0 ⟩ + C σ 2 ∥ x − x 0 ∥ a 2 , ∀ x ∈ E , f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{C\sigma}{2}\Vert\mathbf{x-x}_0\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E}, f(x)f(x0)+g,xx0+2Cσxx0a2,xE,配方后可得 f ( x ) ≥ f ( x 0 ) − 1 2 C σ ∥ g ∥ a 2 + C σ 2 ∥ x − ( x 0 − 1 C σ g ) ∥ a 2 , ∀ x ∈ E . f(\mathbf{x})\ge f(\mathbf{x}_0)-\frac{1}{2C\sigma}\Vert\mathbf{g}\Vert_a^2+\frac{C\sigma}{2}\left\Vert\mathbf{x}-\left(\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g}\right)\right\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E}. f(x)f(x0)2Cσ1ga2+2Cσx(x0Cσ1g)a2,xE.特别地, L e v ( f , f ( x 0 ) ) ⊂ B ∥ ⋅ ∥ a [ x 0 − 1 C σ g , 1 C σ ∥ g ∥ a ] . \mathrm{Lev}(f,f(\mathbf{x}_0))\subset B_{\Vert\cdot\Vert_a}\left[\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g},\frac{1}{C\sigma}\Vert\mathbf{g}\Vert_a\right]. Lev(f,f(x0))Ba[x0Cσ1g,Cσ1ga].由于 f f f是闭函数, 所以根据第二章定理1, 上述水平集是闭集(同时也是有界集). 因此 L e v ( f , f ( x 0 ) ) \mathrm{Lev}(f,f(\mathbf{x}_0)) Lev(f,f(x0))是紧集. 同时注意到 x 0 ∈ L e v ( f , f ( x 0 ) ) \mathbf{x}_0\in\mathrm{Lev}(f,f(\mathbf{x}_0)) x0Lev(f,f(x0)). 所以 f f f d o m ( f ) \mathrm{dom}(f) dom(f)上的最优点集等同于 f f f在非空紧集 L e v ( f , f ( x 0 ) ) \mathrm{Lev}(f,f(\mathbf{x}_0)) Lev(f,f(x0))上的最优点集. 由第二章定理4(闭函数的Weierstrass定理), 得知这样的全局极小点是存在的.
下面证明唯一性. 假设 x ~ , x ^ \tilde\mathbf{x},\hat\mathbf{x} x~,x^都是 f f f的全局极小点. 则 f ( x ~ ) = f ( x ^ ) = f o p t f(\tilde\mathbf{x})=f(\hat\mathbf{x})=f_{\mathrm{opt}} f(x~)=f(x^)=fopt, 这里 f o p t f_{\mathrm{opt}} fopt f f f的最小值. 由 f f f σ \sigma σ-强凸性, f o p t ≤ f ( 1 2 x ~ + 1 2 x ^ ) ≤ 1 2 f ( x ~ ) + 1 2 f ( x ^ ) − σ 8 ∥ x ~ − x ^ ∥ 2 = f o p t − σ 8 ∥ x ~ − x ^ ∥ 2 , f_{\mathrm{opt}}\le f\left(\frac{1}{2}\tilde\mathbf{x}+\frac{1}{2}\hat\mathbf{x}\right)\le\frac{1}{2}f(\tilde\mathbf{x})+\frac{1}{2}f(\hat\mathbf{x})-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2=f_{\mathrm{opt}}-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2, foptf(21x~+21x^)21f(x~)+21f(x^)8σx~x^2=fopt8σx~x^2,表明 x ~ = x ^ \tilde\mathbf{x}=\hat\mathbf{x} x~=x^.

(ii) 设 x ∗ \mathbf{x}^* x是(i)中 f f f的唯一全局极小点. 由Fermat最优性条件, 0 ∈ ∂ f ( x ∗ ) \mathbf{0}\in\partial f(\mathbf{x}^*) 0f(x). 再由定理6的(ii), f ( x ) − f ( x ∗ ) ≥ ⟨ 0 , x − x ∗ ⟩ + σ 2 ∥ x − x ∗ ∥ 2 = σ 2 ∥ x − x ∗ ∥ 2 , ∀ x ∈ E . f(\mathbf{x})-f(\mathbf{x}^*)\ge\langle\mathbf{0},\mathbf{x-x}^*\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2=\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}. f(x)f(x)0,xx+2σxx2=2σxx2,xE.证毕.

3. 光滑性与强凸性的关系

3.1 共轭关联定理

光滑性与强凸性是靠共轭运算关联起来的. 粗略地讲, f f f σ \sigma σ-强凸函数当且仅当 f ∗ f^* f 1 σ \frac{1}{\sigma} σ1-光滑函数.

定理8 (共轭关联定理) 设 σ > 0 \sigma>0 σ>0. 则
(i) 若 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一 1 σ \frac{1}{\sigma} σ1-光滑凸函数, 则 f ∗ f^* f是对偶范数 ∥ ⋅ ∥ ∗ \Vert\cdot\Vert_* 下的 σ \sigma σ-强凸函数18;
(ii) 若 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]为一正常闭 σ \sigma σ-强凸函数, 则 f ∗ : E ∗ → R f^*:\mathbb{E}^*\to\mathbb{R} f:ER是对偶范数下的 1 σ \frac{1}{\sigma} σ1-光滑函数.

证明: (i) 假设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一 1 σ \frac{1}{\sigma} σ1-光滑凸函数. 任取 y 1 , y 2 ∈ d o m ( ∂ f ∗ ) ,   v 1 ∈ ∂ f ∗ ( y 1 ) ,   v 2 ∈ ∂ f ∗ ( y 2 ) \mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2) y1,y2dom(f),v1f(y1),v2f(y2). 根据第四章的共轭次梯度定理以及 f f f的正常闭凸性, 就有 y 1 ∈ ∂ f ( v 1 ) ,   y 2 ∈ ∂ f ( v 2 ) \mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2) y1f(v1),y2f(v2), 再由 f f f的可微性, 就有 y 1 = ∇ f ( v 1 ) ,   y 2 = ∇ f ( v 2 ) \mathbf{y}_1=\nabla f(\mathbf{v}_1),\,\mathbf{y}_2=\nabla f(\mathbf{v}_2) y1=f(v1),y2=f(v2). 由定理2(i)与(iv)的等价性, 有 ⟨ y 1 − y 2 , v 1 − v 2 ⟩ ≥ σ ∥ y 1 − y 2 ∥ ∗ 2 . \langle\mathbf{y}_1-\mathbf{y}_2,\mathbf{v}_1-\mathbf{v}_2\rangle\ge\sigma\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*^2. y1y2,v1v2σy1y22.因为这一不等式对 ∀ y 1 , y 2 ∈ d o m ( ∂ f ∗ ) ,   v 1 ∈ ∂ f ∗ ( y 1 ) ,   v 2 ∈ ∂ f ∗ ( y 2 ) \forall\mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2) y1,y2dom(f),v1f(y1),v2f(y2)都成立, 由定理6(i)和(iii)的等价性, 就推出 f ∗ f^* f是对偶范数下的 σ \sigma σ-强凸函数.

(ii) 设 f f f是正常闭 σ \sigma σ-强凸函数. 再由共轭次梯度定理(或其推论), ∂ f ∗ ( y ) = arg ⁡ max ⁡ x ∈ E { ⟨ x , y ⟩ − f ( x ) } , ∀ y ∈ E ∗ . \partial f^*(\mathbf{y})=\arg\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{x})\},\quad\forall\mathbf{y}\in\mathbb{E}^*. f(y)=argxEmax{x,yf(x)},yE.根据 f f f的闭强凸性以及定理7的(i), 我们推出对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, ∂ f ∗ ( y ) \partial f^*(\mathbf{y}) f(y)都是单点集. 于是根据第三章定理12, f ∗ f^* f在整个对偶空间 E ∗ \mathbb{E}^* E上就都是可微的. 现任取 y 1 , y 2 ∈ E ∗ \mathbf{y}_1,\mathbf{y}_2\in\mathbb{E}^* y1,y2E, 并记 v 1 = ∇ f ∗ ( y 1 ) ,   v 2 = ∇ f ∗ ( y 2 ) \mathbf{v}_1=\nabla f^*(\mathbf{y}_1),\,\mathbf{v}_2=\nabla f^*(\mathbf{y}_2) v1=f(y1),v2=f(y2). 再次利用共轭次梯度定理, 这些等式等价于 y 1 ∈ ∂ f ( v 1 ) ,   y 2 ∈ ∂ f ( v 2 ) \mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2) y1f(v1),y2f(v2). 由定理6(i)与(iii)的等价性以及广义Cauchy-Schwarz不等式, ∥ y 1 − y 2 ∥ ∗ ⋅ ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ ≥ ⟨ y 1 − y 2 , ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ⟩ ≥ σ ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ 2 , \Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*\cdot\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\ge\langle\mathbf{y}_1-\mathbf{y}_2,\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\rangle\ge\sigma\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert^2, y1y2f(y1)f(y2)y1y2,f(y1)f(y2)σf(y1)f(y2)2,于是 ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ ≤ 1 σ ∥ y 1 − y 2 ∥ ∗ . \Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\le\frac{1}{\sigma}\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*. f(y1)f(y2)σ1y1y2.

3.2 强凸函数的例子

类似于在第四章我们利用共轭运算得到了一些函数的凸性, 这里我们也可以利用共轭关联定理得到许多重要函数的强凸性.

例10 (单位单纯形上的负熵函数) 考虑函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]定义为 f ( x ) = { ∑ i = 1 n x i log ⁡ x i , x ∈ Δ n , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right. f(x)={i=1nxilogxi,,xΔn,.根据第四章第4.10节我们知道, 此函数的共轭是对数求和指数函数 f ∗ ( y ) = log ⁡ ( ∑ i = 1 n e y i ) f^*(\mathbf{y})=\log\left(\sum_{i=1}^ne^{y_i}\right) f(y)=log(i=1neyi)(从而使凸函数), 而这在例7中已经证明了, 是在 ℓ ∞ \ell_{\infty} -与 ℓ 2 \ell_2 2-范数下的 1 1 1-光滑函数. 由共轭关联定理, f f f就是 ℓ 1 \ell_1 1-和 ℓ 2 \ell_2 2-范数下的 1 1 1-强凸函数.

例11 (平方 ℓ p \ell_p p-范数, p ∈ ( 1 , 2 ] p\in(1,2] p(1,2]) 考虑函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 ∥ x ∥ p 2 ( p ∈ ( 1 , 2 ] ) f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2(p\in(1,2]) f(x)=21xp2(p(1,2]). 根据第四章第4.15节, f ∗ ( y ) = 1 2 ∥ y ∥ q 2 ,   q ≥ 2 : 1 p + 1 q = 1 f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert_q^2,\,q\ge2:\frac{1}{p}+\frac{1}{q}=1 f(y)=21yq2,q2:p1+q1=1. 由例5, f ∗ f^* f ℓ p \ell_p p-范数下的 ( q − 1 ) (q-1) (q1)-光滑函数, 再由共轭关联定理, 就有 f f f ℓ p \ell_p p-范数下的 1 q − 1 = ( p − 1 ) \frac{1}{q-1}=(p-1) q11=(p1)-强凸函数.

例12 ( ℓ 2 \ell_2 2-范数下半球面函数) 考虑下半球面函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,], f ( x ) = { − 1 − ∥ x ∥ 2 2 , ∥ x ∥ 2 ≤ 1 , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{x}\Vert_2^2}, & \Vert\mathbf{x}\Vert_2\le1,\\\infty, & 其它.\end{array}\right. f(x)={1x22 ,,x21,.根据第四章第4.13节, f f f的共轭函数是 f ∗ ( y ) = ∥ y ∥ 2 2 + 1 , f^*(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_2^2+1}, f(y)=y22+1 ,而例6告诉我们 f ∗ f^* f ℓ 2 \ell_2 2-范数下的 1 1 1-光滑函数. 因此由共轭关联定理, f f f ℓ 2 \ell_2 2-范数下的 1 1 1-强凸函数.

3.3 强凸参数计算小结


f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f)强凸参数范数例号
1 2 x T A x + 2 b T x + c   ( A ∈ S + + n ,   b ∈ R n ,   c ∈ R ) \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+2\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}) 21xTAx+2bTx+c(AS++n,bRn,cR) R n \mathbb{R}^n Rn λ min ⁡ ( A ) \lambda_{\min}(\mathbf{A}) λmin(A) ℓ 2 \ell_2 28
1 2 ∥ x ∥ 2 + δ C ( x )   ( ∅ ≠ C ⊂ E \frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21x2+δC(x)(=CE ) ) ) C C C 1 1 1欧式范数9
− 1 − ∥ x ∥ 2 2 -\sqrt{1-\Vert\mathbf{x}\Vert^2_2} 1x22 B ∥ ⋅ ∥ 2 [ 0 , 1 ] B_{\Vert\cdot\Vert_2}[\mathbf{0},1] B2[0,1] 1 1 1 ℓ 2 \ell_2 212
1 2 ∥ x ∥ p 2   ( p ∈ ( 1 , 2 ] ) \frac{1}{2}\Vert\mathbf{x}\Vert_p^2\,(p\in(1,2]) 21xp2(p(1,2]) R n \mathbb{R}^n Rn p − 1 p-1 p1 ℓ p \ell_p p11
∑ i = 1 n x i log ⁡ x i \sum_{i=1}^nx_i\log x_i i=1nxilogxi Δ n \Delta_n Δn 1 1 1 ℓ 2 \ell_2 2 ℓ 1 \ell_1 110

3.4 极小卷积的光滑性与可微性

本节我们将基于共轭关联定理, 证明在一定条件下, 一个凸函数和一个 L L L-光滑凸函数的极小卷积仍然是 L L L-光滑的. 特别地, 我们还将导出其梯度的表达式.

定理9 (极小卷积的光滑性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭凸函数, ω : E → R \omega:\mathbb{E}\to\mathbb{R} ω:ER为一 L L L-光滑凸函数. 假定 f □ ω f\square\omega fω是实值的. 则有以下结论成立:
(i) f □ ω f\square\omega fω L L L-光滑的;
(ii) 设 x ∈ E \mathbf{x}\in\mathbb{E} xE, 并假定 u ( x ) \mathbf{u(x)} u(x) min ⁡ u { f ( u ) + ω ( x − u ) } \min_{\mathbf{u}}\{f(\mathbf{u})+\omega(\mathbf{x-u})\} umin{f(u)+ω(xu)}的全局极小点. 则 ∇ ( f □ ω ) ( x ) = ∇ ω ( x − u ( x ) ) \nabla(f\square\omega)(\mathbf{x})=\nabla\omega(\mathbf{x-u(x)}) (fω)(x)=ω(xu(x)).

证明: (i) 根据第四章定理11, f □ ω = ( f ∗ + ω ∗ ) ∗ . f\square\omega=(f^*+\omega^*)^*. fω=(f+ω).又因为 f , ω f,\omega f,ω是正常闭凸函数, 根据第四章定理1和定理2, 就推出 f ∗ , ω ∗ f^*,\omega^* f,ω也是正常闭凸函数. 由共轭关联定理, ω ∗ \omega^* ω 1 L \frac{1}{L} L1-强凸函数. 因此, 由引理1, f ∗ + ω ∗ f^*+\omega^* f+ω 1 L \frac{1}{L} L1-强凸函数. 同时作为两个闭函数的和, 它也是闭函数. 为使用共轭关联定理, 我们还需证明它是正常函数. 事实上, 根据第四章定理9, ( f □ ω ) ∗ = f ∗ + ω ∗ . (f\square\omega)^*=f^*+\omega^*. (fω)=f+ω.因为极小卷积函数 f □ ω f\square\omega fω是正常凸函数, 因此根据第四章定理2, f ∗ + ω ∗ f^*+\omega^* f+ω是正常函数. 此时, f ∗ + ω ∗ f^*+\omega^* f+ω是正常闭 1 L \frac{1}{L} L1-强凸函数, 由共轭关联定理, 就有 f □ ω = ( f ∗ + ω ∗ ) ∗ f\square\omega=(f^*+\omega^*)^* fω=(f+ω) L L L-光滑函数.

(ii) 设 x ∈ E \mathbf{x}\in\mathbb{E} xE, ( f □ ω ) ( x ) = f ( u ( x ) ) + ω ( x − u ( x ) ) . (f\square\omega)(\mathbf{x})=f(\mathbf{u(x)})+\omega(\mathbf{x}-\mathbf{u(x)}). (fω)(x)=f(u(x))+ω(xu(x)). z ≡ ∇ ω ( x − u ( x ) ) \mathbf{z}\equiv\nabla\omega(\mathbf{x}-\mathbf{u(x)}) zω(xu(x)). 下证 ∇ ( f □ ω ) ( x ) = z \nabla(f\square\omega)(\mathbf{x})=\mathbf{z} (fω)(x)=z. 这需要我们证明 lim ⁡ ∥ ξ ∥ → 0 ∣ ϕ ( ξ ) ∣ / ∥ ξ ∥ = 0 \lim_{\Vert\bm{\xi}\Vert\to0}|\phi(\bm{\xi})|/\Vert\bm{\xi}\Vert=0 limξ0ϕ(ξ)/ξ=0, 其中 ϕ ( ξ ) ≡ ( f □ ω ) ( x + ξ ) − ( f □ ω ) ( x ) − ⟨ ξ , z ⟩ \phi(\bm{\xi})\equiv(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangle ϕ(ξ)(fω)(x+ξ)(fω)(x)ξ,z. 由极小卷积的定义, ( f □ ω ) ( x + ξ ) ≤ f ( u ( x ) ) + ω ( x + ξ − u ( x ) ) . (f\square\omega)(\mathbf{x+\bm{\xi}})\le f(\mathbf{u(x)})+\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)}). (fω)(x+ξ)f(u(x))+ω(x+ξu(x)).于是, ϕ ( ξ ) = ( f □ ω ) ( x + ξ ) − ( f □ ω ) ( x ) − ⟨ ξ , z ⟩ ≤ ω ( x + ξ − u ( x ) ) − ω ( x − u ( x ) ) − ⟨ ξ , z ⟩ ≤ ⟨ ξ , ∇ ω ( x + ξ − u ( x ) ) ⟩ − ⟨ ξ , z ⟩   ( ω 的 梯 度 不 等 式 ) = ⟨ ξ , ∇ ω ( x + ξ − u ( x ) ) − ∇ ω ( x − u ( x ) ) ⟩ ≤ ∥ ξ ∥ ⋅ ∥ ∇ ω ( x + ξ − u ( x ) ) − ∇ ω ( x − u ( x ) ) ∥ ∗ ≤ L ∥ ξ ∥ 2 .   ( ω 的 L − 光 滑 性 ) \begin{aligned}\phi(\bm{\xi})&=(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\omega(\mathbf{x}-\mathbf{u(x)})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})\rangle-\langle\bm{\xi},\mathbf{z}\rangle\:(\omega的梯度不等式)\\&=\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\rangle\\&\le\Vert\bm{\xi}\Vert\cdot\Vert\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\Vert_*\\&\le L\Vert\bm{\xi}\Vert^2.\:(\omega的L-光滑性)\end{aligned} ϕ(ξ)=(fω)(x+ξ)(fω)(x)ξ,zω(x+ξu(x))ω(xu(x))ξ,zξ,ω(x+ξu(x))ξ,z(ω)=ξ,ω(x+ξu(x))ω(xu(x))ξω(x+ξu(x))ω(xu(x))Lξ2.(ωL)下面仅需证明另一边: ϕ ( ξ ) ≥ − L ∥ ξ ∥ 2 \phi(\bm{\xi})\ge -L\Vert\bm{\xi}\Vert^2 ϕ(ξ)Lξ2. 因为 f □ ω f\square\omega fω是凸函数, 从而 ϕ \phi ϕ也是. 因为 ϕ ( 0 ) = 0 \phi(\mathbf{0})=0 ϕ(0)=0, 所以 0 = ϕ ( 0 ) ≤ ϕ ( ξ ) + ϕ ( − ξ ) ,   ∀ ξ 0=\phi(\mathbf{0})\le\phi(\bm{\xi})+\phi(-\bm{\xi}),\,\forall\bm{\xi} 0=ϕ(0)ϕ(ξ)+ϕ(ξ),ξ. 从而 ϕ ( ξ ) ≥ − ϕ ( − ξ ) ≥ − L ∥ ξ ∥ 2 \phi(\bm{\xi})\ge-\phi(-\bm{\xi})\ge-L\Vert\bm{\xi}\Vert^2 ϕ(ξ)ϕ(ξ)Lξ2.

例13 ( 1 2 d C 2 \frac{1}{2}d_C^2 21dC2 1 1 1-光滑性) 假设 E \mathbb{E} E是欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 考虑函数 φ C ( x ) = 1 2 d C 2 ( x ) \varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x}) φC(x)=21dC2(x). 我们已经在例3中证明了它是 1 1 1-光滑的. 这里我们再提供基于定理9的第二种证明. 因为 φ C = δ C □ h \varphi_C=\delta_C\square h φC=δCh, 其中 h ( x ) = 1 2 ∥ x ∥ 2 h(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 h(x)=21x2, 且 h h h为实值 1 1 1-光滑凸函数, δ C \delta_C δC为正常闭凸函数. 于是由定理9, φ C \varphi_C φC 1 1 1-光滑函数.

  1. 这里 ∥ A ∥ p , q = max ⁡ { ∥ A x ∥ q : ∥ x ∥ p ≤ 1 } \Vert\mathbf{A}\Vert_{p,q}=\max\{\Vert\mathbf{Ax}\Vert_q:\Vert\mathbf{x}\Vert_p\le1\} Ap,q=max{Axq:xp1}或可参见第一章. ↩︎

  2. 根据诱导范数的定义, 这样的 x ~ \tilde\mathbf{x} x~是存在的. ↩︎

  3. 事实上 ψ C \psi_C ψC的凸性并不需要 C C C是凸集; 但是投影算子的非增大性是需要的. ↩︎

  4. 从这一不等式我们可知, 下降引理实际上还告诉我们, 如果 ∇ f ( x ) \nabla f(\mathbf{x}) f(x) y − x \mathbf{y-x} yx成钝角且 ∥ x − y ∥ \Vert\mathbf{x-y}\Vert xy充分小, 则当 f f f x \mathbf{x} x移动到 y \mathbf{y} y时, 函数值至少下降 ⟨ ∇ f ( x ) , x − y ⟩ − L 2 ∥ x − y ∥ 2 \langle\nabla f(\mathbf{x}),\mathbf{x-y}\rangle-\frac{L}{2}\Vert\mathbf{x-y}\Vert^2 f(x),xy2Lxy2. 这也是为什么称这个引理为下降引理的原因. ↩︎

  5. 定理2中关于函数凸性的假设是很关键的. 考虑 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = − 1 2 ∥ x ∥ 2 2 f(\mathbf{x})=-\frac{1}{2}\Vert\mathbf{x}\Vert_2^2 f(x)=21x22. 它在 ℓ 2 \ell_2 2-范数下是 1 1 1-光滑的, 但不是 L L L-光滑的( L < 1 L<1 L<1, 见例1). 但由于 f f f是凹函数, 因此 f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle f(y)f(x)+f(x),yx, 这表明定理2的(ii)对 L = 0 L=0 L=0成立. 但显然 f f f并不是 0 0 0-光滑函数. ↩︎

  6. 这里的“全空间”假设是为了在处理时的方便. ↩︎

  7. 特别地, 我们有 ∇ g x ( x ) = 0 \nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0} gx(x)=0, 再结合 g x g_{\mathbf{x}} gx是凸函数, 我们推出 x \mathbf{x} x g x g_{\mathbf{x}} gx的全局极小点: g x ( x ) ≤ g x ( z ) , ∀ z ∈ E . g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}. gx(x)gx(z),zE. ↩︎

  8. 这里在 U U U上的二次连续可微意思是, f f f的二阶偏导数均在 U U U上连续. ↩︎

  9. 这里 [ x , y ] [\mathbf{x,y}] [x,y]是在第一章第五节中定义的闭线段, 而不是矩形盒. ↩︎

  10. 这里的“可微”, 是按第三章的定义4定义的可微, 内积是点积. ↩︎

  11. 这里欧式空间的假设是关键的. 例如, 考虑单位单纯形上的负熵函数 f ( x ) = { ∑ i = 1 n x i log ⁡ x i , x ∈ Δ n , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right. f(x)={i=1nxilogxi,,xΔn,.(之后我们会在例10中证明 f f f ℓ 1 \ell_1 1-范数下的 1 1 1-强凸函数) 注意 ℓ 1 \ell_1 1-范数与空间上的点积是不相容的. 这时函数 g ( x ) = f ( x ) − α ∥ x ∥ 1 2 g(\mathbf{x})=f(\mathbf{x})-\alpha\Vert\mathbf{x}\Vert_1^2 g(x)=f(x)αx12 ∀ α > 0 \forall\alpha>0 α>0都是凸函数. 这是因为在 f f f的有效域上恒有 ∥ x ∥ 1 = 1 \Vert\mathbf{x}\Vert_1=1 x1=1. 如果直接用定理5的结论, 会推出 f f f ∀ α > 0 \forall\alpha>0 α>0都是 α \alpha α-强凸函数. 但一个函数是不可能如此的. ↩︎

  12. 证明可见Jean-Baptiste Hiriart-Urruty与Claude Lemarechal的专著《Convex Analysis and Minimization Algorithms I》的第26页定理4.2.4 ↩︎

  13. 证明可见R. Tyrrell Rockafellar的专著《Convex Analysis》的第45页定理6.1 ↩︎

  14. 这表明 f f f以一个严格凸二次函数为下界. ↩︎

  15. (iii)与定理2的(iv)是十分相像的. 这也是建立光滑函数与强凸函数联系的关键. 而架起这一桥梁的是共轭运算. 这可见第四章的共轭次梯度定理. 详细的证明见定理8. ↩︎

  16. 存在性来自于线段原理. ↩︎

  17. 根据第二章定理10)定理10以及此一元函数闭凸. ↩︎

  18. f f f的有效域设成全空间是为了在使用 f ∗ f^* f次微分时遇到不必要的麻烦. 而 f f f实值其实是保证了 f f f是闭函数. ↩︎

