First Order Methods in Optimization Ch5. Smoothness and Strong Convexity

第五章: 光滑性与强凸性

1. L L L-光滑性

定义1 ( L L L-光滑性) 设 L ≥ 0 L\ge0 L0. 我们称函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] D ⊂ E D\subset\mathbb{E} DE上是 L L L-光滑的, 若它在 D D D上可微且满足 ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ ≤ L ∥ x − y ∥ , ∀ x , y ∈ D . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\le L\Vert\mathbf{x-y}\Vert,\quad\forall\mathbf{x,y}\in D. f(x)f(y)Lxy,x,yD.常数 L L L称作是光滑参数 (smoothness parameter). 从定义我们看出 L L L与所选的范数有关的. 因此我们有时会刻意地说成, 在范数 ∥ ⋅ ∥ \Vert\cdot\Vert 下的光滑参数.

显然由可微的定义, 若 f f f在集合 D ⊂ E D\subset\mathbb{E} DE L L L-光滑, 则必有 D ⊂ i n t ( d o m f ) D\subset\mathrm{int(dom}f) Dint(domf); 若函数在全空间 E \mathbb{E} E L L L-光滑, 则我们就直接称其为 L L L-光滑函数. 在许多其他的文献中, D D D上的 L L L-光滑函数也常被称作“Lipschitz常数为 L L L的梯度Lipschitz连续函数”. 我们记 D D D上的 L L L-光滑函数全体为 C L 1 , 1 ( D ) C_L^{1,1}(D) CL1,1(D). 当 D = E D=\mathbb{E} D=E, 就简写为 C L 1 , 1 C_L^{1,1} CL1,1. 进一步, 记 C 1 , 1 = { f : ∃ L ≥ 0 ,   s.t.  f ∈ C L 1 , 1 } . C^{1,1}=\left\{f:\exists L\ge0,\,\text{s.t. }f\in C_L^{1,1}\right\}. C1,1={f:L0,s.t. fCL1,1}. L L L-光滑性的定义, 显然有 C L 1 1 , 1 ⊂ C L 2 1 , 1 ,   L 2 ≥ L 1 C_{L_1}^{1,1}\subset C_{L_2}^{1,1},\,L_2\ge L_1 CL11,1CL21,1,L2L1. 因此对某一给定函数, 使其 L L L-光滑的参数 L L L不止一个. 这些 L L L的全体组成的集合显然有下界 0 0 0, 从而必定有下确界. 但是定出这一给定函数的最小光滑参数则是一件不平凡的事, 也是一件有趣的事.

例1 (二次函数的光滑性) 考虑函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 x T A x + b T x + c f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c f(x)=21xTAx+bTx+c, 其中 A ∈ S n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} ASn,bRn,cR. 假定 R n \mathbb{R}^n Rn上赋以了 ℓ p \ell_p p-范数( 1 ≤ p ≤ ∞ 1\le p\le\infty 1p). 则对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n x,yRn, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ q = ∥ A x − A y ∥ q ≤ ∥ A ∥ p , q ∥ x − y ∥ p , \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_q=\Vert\mathbf{Ax-Ay}\Vert_q\le\Vert A\Vert_{p,q}\Vert\mathbf{x-y}\Vert_p, f(x)f(y)q=AxAyqAp,qxyp,1这里 q ∈ [ 1 , ∞ ] : 1 p + 1 q = 1 q\in[1,\infty]: \frac{1}{p}+\frac{1}{q}=1 q[1,]:p1+q1=1. 于是我们得到 f f f ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} Ap,q-光滑的. 下面我们证明 ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} Ap,q f f f的最小光滑参数. 为此只需证明对任一使 f f f L L L-光滑的 L L L都有 ∥ A ∥ p , q ≤ L \Vert\mathbf{A}\Vert_{p,q}\le L Ap,qL. 取向量 x ~ : ∥ x ~ ∥ p = 1 ,   ∥ A x ~ ∥ q = ∥ A ∥ p , q \tilde\mathbf{x}:\Vert\tilde\mathbf{x}\Vert_p=1,\,\Vert\mathbf{A\tilde x}\Vert_q=\Vert\mathbf{A}\Vert_{p,q} x~:x~p=1,Ax~q=Ap,q2. 于是 ∥ A ∥ p , q = ∥ A x ~ ∥ q = ∥ ∇ f ( x ~ ) − ∇ f ( 0 ) ∥ q ≤ L ∥ x ~ − 0 ∥ p = L . \Vert\mathbf{A}\Vert_{p,q}=\Vert\mathbf{A\tilde x}\Vert_q=\Vert\nabla f(\tilde\mathbf{x})-\nabla f(\mathbf{0})\Vert_q\le L\Vert\mathbf{\tilde x-0}\Vert_p=L. Ap,q=Ax~q=f(x~)f(0)qLx~0p=L.

例2 (线性函数的 0 0 0-光滑性) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER定义为 f ( x ) = ⟨ b , x ⟩ + c f(\mathbf{x})=\langle\mathbf{b,x}\rangle+c f(x)=b,x+c, 其中 b ∈ E ∗ ,   c ∈ R \mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R} bE,cR. 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ = ∥ b − b ∥ ∗ = 0 ≤ 0 ∥ x − y ∥ . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*=\Vert\mathbf{b-b}\Vert_*=0\le0\Vert\mathbf{x-y}\Vert. f(x)f(y)=bb=00xy.从而线性函数都是 0 0 0-光滑的. 0 0 0显然也是它们的最小光滑参数. 注意这一结论对任何范数都成立.

下面的例3与例4要用到正交投影算子的严格非增大性质(firm nonexpansiveness)与非增大性质(nonexpansiveness). 我们在此仅将其列出. 在下一章中我们将证明更一般化的结论.

定理1 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 于是
(i) (严格非增大性) 对 ∀ v , w ∈ E \forall\mathbf{v,w}\in\mathbb{E} v,wE, ⟨ P C ( v ) − P C ( w ) , v − w ⟩ ≥ ∥ P C ( v ) − P C ( w ) ∥ 2 . \langle P_C(\mathbf{v})-P_C(\mathbf{w}),\mathbf{v-w}\rangle\ge\Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert^2. PC(v)PC(w),vwPC(v)PC(w)2.(ii) (非增大性) 对 ∀ v , w ∈ E \forall\mathbf{v,w}\in\mathbb{E} v,wE, ∥ P C ( v ) − P C ( w ) ∥ ≤ ∥ v − w ∥ . \Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert\le\Vert\mathbf{v-w}\Vert. PC(v)PC(w)vw.

例3 ( 1 2 d C 2 \frac{1}{2}d_C^2 21dC2 1 1 1-光滑性) 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 考虑函数 φ C ( x ) = 1 2 d C 2 ( x ) \varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x}) φC(x)=21dC2(x). 由第三章例9, φ C \varphi_C φC在全空间上可微且 ∇ φ C ( x ) = x − P C ( x ) \nabla\varphi_C(\mathbf{x})=\mathbf{x}-P_C(\mathbf{x}) φC(x)=xPC(x). 下面证明 φ C \varphi_C φC 1 1 1-光滑的. 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ φ C ( x ) − ∇ φ C ( y ) ∥ 2 = ∥ x − y − P C ( x ) + P C ( y ) ∥ 2 = ∥ x − y ∥ 2 − 2 ⟨ P C ( x ) − P C ( y ) , x − y ⟩ + ∥ P C ( x ) − P C ( y ) ∥ 2 ≤ ∥ x − y ∥ 2 − 2 ∥ P C ( x ) − P C ( y ) ∥ 2 + ∥ P C ( x ) − P C ( y ) ∥ 2   ( ∵ 严 格 非 增 大 性 ) = ∥ x − y ∥ 2 − ∥ P C ( x ) − P C ( y ) ∥ 2 = ∥ x − y ∥ 2 . \begin{aligned}\Vert\nabla\varphi_C(\mathbf{x})-\nabla\varphi_C(\mathbf{y})\Vert^2&=\Vert\mathbf{x-y}-P_C(\mathbf{x})+P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2-2\langle P_C(\mathbf{x})-P_C(\mathbf{y}),\mathbf{x-y}\rangle+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&\le\Vert\mathbf{x-y}\Vert^2-2\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\:(\because 严格非增大性)\\&=\Vert\mathbf{x-y}\Vert^2-\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2.\end{aligned} φC(x)φC(y)2=xyPC(x)+PC(y)2=xy22PC(x)PC(y),xy+PC(x)PC(y)2xy22PC(x)PC(y)2+PC(x)PC(y)2()=xy2PC(x)PC(y)2=xy2.

例4 ( 1 2 ∥ ⋅ ∥ 2 − 1 2 d C 2 \frac{1}{2}\Vert\cdot\Vert^2-\frac{1}{2}d_C^2 21221dC2 1 1 1-光滑性) 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 考虑函数 ψ C ( x ) = 1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x ) \psi_C(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x}) ψC(x)=21x221dC2(x). 由第二章的例5, ψ C \psi_C ψC是凸函数3. 由上例, 1 2 d C 2 ( x ) \frac{1}{2}d_C^2(\mathbf{x}) 21dC2(x)可微, 且梯度为 x − P C ( x ) \mathbf{x}-P_C(\mathbf{x}) xPC(x). 因此 ∇ ψ C ( x ) = x − ( x − P C ( x ) ) = P C ( x ) . \nabla\psi_C(\mathbf{x})=\mathbf{x}-(\mathbf{x}-P_C(\mathbf{x}))=P_C(\mathbf{x}). ψC(x)=x(xPC(x))=PC(x).于是由投影算子的非增大性, 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ ψ C ( x ) − ∇ ψ C ( y ) ∥ = ∥ P C ( x ) − P C ( y ) ∥ ≤ ∥ x − y ∥ . \Vert\nabla\psi_C(\mathbf{x})-\nabla\psi_C(\mathbf{y})\Vert=\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert\le\Vert\mathbf{x-y}\Vert. ψC(x)ψC(y)=PC(x)PC(y)xy.

1.1 下降引理

下面的下降引理告诉我们, L L L-光滑函数以某一二次函数为上界.

引理1 (下降引理) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为在一给定凸集 D D D上的 L L L-光滑函数 ( L ≥ 0 ) (L\ge0) (L0). 则对 ∀ x , y ∈ D \forall\mathbf{x,y}\in D x,yD, f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + L 2 ∥ x − y ∥ 2 . f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2. f(y)f(x)+f(x),yx+2Lxy2.4
证明: 根据微积分基本定理, f ( y ) − f ( x ) = ∫ 0 1 ⟨ ∇ f ( x + t ( y − x ) ) , y − x ⟩   d t . f(\mathbf{y})-f(\mathbf{x})=\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x})),\mathbf{y-x}\rangle\,\mathrm{d}t. f(y)f(x)=01f(x+t(yx)),yxdt.因此, f ( y ) − f ( x ) = ⟨ ∇ f ( x ) , y − x ⟩ + ∫ 0 1 ⟨ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) , y − x ⟩   d t . f(\mathbf{y})-f(\mathbf{x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t. f(y)f(x)=f(x),yx+01f(x+t(yx))f(x),yxdt.取模可得 ∣ f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ ∣ = ∣ ∫ 0 1 ⟨ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) , y − x ⟩   d t ∣ ≤ ∫ 0 1 ∣ ⟨ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) , y − x ⟩ ∣   d t ≤ ∫ 0 1 ∥ ∇ f ( x + t ( y − x ) ) − ∇ f ( x ) ∥ ∗ ⋅ ∥ y − x ∥   d t ≤ ∫ 0 1 t L ∥ y − x ∥ 2   d t = L 2 ∥ y − x ∥ 2 . \begin{aligned}|f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|&=\left|\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t\right|\\&\le\int_0^1|\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|\,\mathrm{d}t\\&\le\int_0^1\Vert\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x})\Vert_*\cdot\Vert\mathbf{y-x}\Vert\,\mathrm{d}t\\&\le\int_0^1tL\Vert\mathbf{y-x}\Vert^2\,\mathrm{d}t\\&=\frac{L}{2}\Vert\mathbf{y-x}\Vert^2.\end{aligned} f(y)f(x)f(x),yx=01f(x+t(yx))f(x),yxdt01f(x+t(yx))f(x),yxdt01f(x+t(yx))f(x)yxdt01tLyx2dt=2Lyx2.

1.2 L L L-光滑函数的一阶等价刻画

f f f为凸函数5时, 下面的定理2给出了全空间上6 L L L-光滑函数的几种不同的一阶等价刻画. 值得注意的是, 在这种情形下, 1.1节中的下降引理同时也是使 f f f成为 L L L-光滑函数的充分条件.

定理2 ( L L L-光滑函数的一阶等价刻画) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一可微凸函数. 设 L > 0 L>0 L>0. 于是下面的四件事是等价的:
(i) f f f L L L-光滑的;
(ii) f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + L 2 ∥ x − y ∥ 2 ,   ∀ x , y ∈ E f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E} f(y)f(x)+f(x),yx+2Lxy2,x,yE; (此即下降引理)
(iii) f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 ,   ∀ x , y ∈ E f(\mathbf{y})\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E} f(y)f(x)+f(x),yx+2L1f(x)f(y)2,x,yE;
(iv) ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≥ 1 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 ,   ∀ x , y ∈ E \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E} f(x)f(y),xyL1f(x)f(y)2,x,yE;
(v) f ( λ x + ( 1 − λ ) y ) ≥ λ f ( x ) + ( 1 − λ ) f ( y ) − L 2 λ ( 1 − λ ) ∥ x − y ∥ 2 ,   ∀ x , y ∈ E ,   λ ∈ [ 0 , 1 ] f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\ge\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{L}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1] f(λx+(1λ)y)λf(x)+(1λ)f(y)2Lλ(1λ)xy2,x,yE,λ[0,1].

证明: (i) ⇒ \Rightarrow (ii): 由下降引理即可得.
(ii) ⇒ \Rightarrow (iii): 假设(ii)成立. 注意到当 ∇ f ( x ) = ∇ f ( y ) \nabla f(\mathbf{x})=\nabla f(\mathbf{y}) f(x)=f(y)时(iii)显然成立. 所以下面假设 ∇ f ( x ) ≠ ∇ f ( y ) \nabla f(\mathbf{x})\ne\nabla f(\mathbf{y}) f(x)=f(y). 固定 x ∈ E \mathbf{x}\in\mathbb{E} xE, 考虑 g x ( y ) = f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ , y ∈ E . g_{\mathbf{x}}(\mathbf{y})=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle,\quad\mathbf{y}\in\mathbb{E}. gx(y)=f(y)f(x)f(x),yx,yE.7可以验证 g x g_{\mathbf{x}} gx也满足(ii). 事实上, 对 ∀ y , z ∈ E \forall\mathbf{y,z}\in\mathbb{E} y,zE, g x ( z ) = f ( z ) − f ( x ) − ⟨ ∇ f ( x ) , z − x ⟩ ≤ f ( y ) + ⟨ ∇ f ( y ) , z − y ⟩ + L 2 ∥ z − y ∥ 2 − f ( x ) − ⟨ ∇ f ( x ) , z − x ⟩ = f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ + ⟨ ∇ f ( y ) − ∇ f ( x ) , z − y ⟩ + L 2 ∥ z − y ∥ 2 = g x ( y ) + ⟨ ∇ g x ( y ) , z − y ⟩ + L 2 ∥ z − y ∥ 2 , \begin{aligned}g_{\mathbf{x}}(\mathbf{z})&=f(\mathbf{z})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&\le f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\langle\nabla f(\mathbf{y})-\nabla f(\mathbf{x}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})+\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2,\end{aligned} gx(z)=f(z)f(x)f(x),zxf(y)+f(y),zy+2Lzy2f(x)f(x),zx=f(y)f(x)f(x),yx+f(y)f(x),zy+2Lzy2=gx(y)+gx(y),zy+2Lzy2,注意到 ∇ g x ( x ) = 0 \nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0} gx(x)=0, 再由 g x g_{\mathbf{x}} gx的凸性, 即得 x \mathbf{x} x g g g的极小点: g x ( x ) ≤ g x ( z ) , ∀ z ∈ E . g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}. gx(x)gx(z),zE. y ∈ E \mathbf{y}\in\mathbb{E} yE, 令 v ∈ E \mathbf{v}\in\mathbb{E} vE为满足 ∥ v ∥ = 1 ,   ⟨ ∇ g x ( y ) , v ⟩ = ∥ ∇ g x ( y ) ∥ ∗ \Vert\mathbf{v}\Vert=1,\,\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle=\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_* v=1,gx(y),v=gx(y)的向量. 令 z = y − ∥ ∇ g x ( y ) ∥ ∗ L v \mathbf{z}=\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v} z=yLgx(y)v就有 0 = g x ( x ) ≤ g x ( y − ∥ ∇ g x ( y ) ∥ ∗ L v ) . 0=g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}\left(\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v}\right). 0=gx(x)gx(yLgx(y)v).再利用 g x g_{\mathbf{x}} gx的性质可得 0 = g x ( x ) ≤ g x ( y ) − ∥ ∇ g x ( y ) ∥ ∗ L ⟨ ∇ g x ( y ) , v ⟩ + 1 2 L ∥ g x ( y ) ∥ ∗ 2 ⋅ ∥ v ∥ 2 = g x ( y ) − 1 2 L ∥ ∇ g x ( y ) ∥ ∗ 2 = f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ − 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 , \begin{aligned}0&=g_{\mathbf{x}}(\mathbf{x})\\&\le g_{\mathbf{x}}(\mathbf{y})-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle+\frac{1}{2L}\Vert g_{\mathbf{x}}(\mathbf{y})\Vert_*^2\cdot\Vert\mathbf{v}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})-\frac{1}{2L}\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert^2_*\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle-\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\end{aligned} 0=gx(x)gx(y)Lgx(y)gx(y),v+2L1gx(y)2v2=gx(y)2L1gx(y)2=f(y)f(x)f(x),yx2L1f(x)f(y)2,这就证明了(iii).
(iii) ⇒ \Rightarrow (iv): 假设(iii)成立, 则对 ( x , y ) (\mathbf{x,y}) (x,y)交替地有 f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 , f ( x ) ≥ f ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ + 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 . \begin{aligned}f(\mathbf{y})&\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\\f(\mathbf{x})&\ge f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*.\end{aligned} f(y)f(x)f(x)+f(x),yx+2L1f(x)f(y)2,f(y)+f(y),xy+2L1f(x)f(y)2.两式相加即得(iv).
(iv) ⇒ \Rightarrow (i): 假设(iv)成立. 不妨假设 ∇ f ( x ) ≠ ∇ f ( y ) \nabla f(\mathbf{x})\ne\nabla f(\mathbf{y}) f(x)=f(y). 由推广的Cauchy-Schwarz不等式, 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ ⋅ ∥ x − y ∥ ≥ ⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≥ 1 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\cdot\Vert\mathbf{x-y}\Vert\ge\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*. f(x)f(y)xyf(x)f(y),xyL1f(x)f(y)2.两边同除 ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_* f(x)f(y)再同乘 L L L即得(i).
至此, 我们已证明了(i),(ii),(iii)和(iv)的等价性. 为证明(v)与这四条等价, 下面我们证明(ii) ⇔ \Leftrightarrow (v).
(ii) ⇒ \Rightarrow (v): 设 x , y ∈ E ,   λ ∈ [ 0 , 1 ] \mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1] x,yE,λ[0,1]. 记 x λ = λ x + ( 1 − λ ) y \mathbf{x}_{\lambda}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx+(1λ)y. 由(ii), f ( x ) ≤ f ( x λ ) + ⟨ ∇ f ( x λ ) , x − x λ ⟩ + L 2 ∥ x − x λ ∥ 2 , f ( y ) ≤ f ( x λ ) + ⟨ ∇ f ( x λ ) , y − x λ ⟩ + L 2 ∥ y − x λ ∥ 2 , \begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{x-x}_{\lambda}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{y-x}_{\lambda}\Vert^2,\end{aligned} f(x)f(y)f(xλ)+f(xλ),xxλ+2Lxxλ2,f(xλ)+f(xλ),yxλ+2Lyxλ2,这等同于 f ( x ) ≤ f ( x λ ) + ( 1 − λ ) ⟨ ∇ f ( x λ ) , x − y ⟩ + L ( 1 − λ ) 2 2 ∥ x − y ∥ 2 , f ( y ) ≤ f ( x λ ) + λ ⟨ ∇ f ( x λ ) , y − x ⟩ + L λ 2 2 ∥ x − y ∥ 2 , \begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+(1-\lambda)\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-y}\rangle+\frac{L(1-\lambda)^2}{2}\Vert\mathbf{x-y}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\lambda\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}\rangle+\frac{L\lambda^2}{2}\Vert\mathbf{x-y}\Vert^2,\end{aligned} f(x)f(y)f(xλ)+(1λ)f(xλ),xy+2L(1λ)2xy2,f(xλ)+λf(xλ),yx+2Lλ2xy2,再在第一个不等式两边同乘 λ \lambda λ, 第二个不等式两边同乘 1 − λ 1-\lambda 1λ, 二者再相加即得(v).
(v) ⇒ \Rightarrow (ii): 重新整理(v)可得 f ( y ) ≤ f ( x ) + f ( x + ( 1 − λ ) ( y − x ) ) − f ( x ) 1 − λ + L 2 λ ∥ x − y ∥ 2 . f(\mathbf{y})\le f(\mathbf{x})+\frac{f(\mathbf{x}+(1-\lambda)(\mathbf{y-x}))-f(\mathbf{x})}{1-\lambda}+\frac{L}{2}\lambda\Vert\mathbf{x-y}\Vert^2. f(y)f(x)+1λf(x+(1λ)(yx))f(x)+2Lλxy2. λ → 1 − 1 \lambda\to1^{-1} λ11, 则推出 f ( y ) ≤ f ( x ) + f ′ ( x ; y − x ) + L 2 ∥ x − y ∥ 2 . f(\mathbf{y})\le f(\mathbf{x})+f'(\mathbf{x;y-x})+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2. f(y)f(x)+f(x;yx)+2Lxy2.根据第三章定理11, f ′ ( x ; y − x ) = ⟨ ∇ f ( x ) , y − x ⟩ f'(\mathbf{x;y-x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle f(x;yx)=f(x),yx. 即得(ii).

下面的例子需要用到多元函数的微分中值定理.

定理3 (多元函数的微分中值定理) 设 f : U → R f:U\to\mathbb{R} f:UR为开集 U ⊂ R n U\subset\mathbb{R}^n URn上的二次连续可微函数8. 设 x ∈ U ,   r > 0 \mathbf{x}\in U,\,r>0 xU,r>0满足 B ( x , r ) ⊂ U B(\mathbf{x},r)\subset U B(x,r)U. 则对 ∀ y ∈ B ( x , r ) \forall\mathbf{y}\in B(\mathbf{x},r) yB(x,r), ∃ ξ ∈ [ x , y ] \exists\bm{\xi}\in[\mathbf{x,y}] ξ[x,y]9, 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+f(x)T(yx)+21(yx)Tf(ξ)(yx).

例5 ( ℓ p \ell_p p-范数函数平方之一半的 ( p − 1 ) (p-1) (p1)-光滑性) 考虑凸函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 ∥ x ∥ p 2 = 1 2 ( ∑ i = 1 n ∣ x i ∣ p ) 2 p , f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2=\frac{1}{2}\left(\sum_{i=1}^n|x_i|^p\right)^{\frac{2}{p}}, f(x)=21xp2=21(i=1nxip)p2,这里 p ∈ [ 2 , ∞ ) p\in[2,\infty) p[2,). 下面我们证明 f f f ℓ p \ell_p p-范数下是 ( p − 1 ) (p-1) (p1)-光滑的. 当 p = 2 p=2 p=2时, 结论成立(见例1). 因此下面假设 p > 2 p>2 p>2. 由于 f f f是凸函数, 因此我们想要利用定理2去证明结论. 为此, 先计算 f f f的偏导数与二阶偏导数: ∂ f ∂ x i ( x ) = { s g n ( x i ) ∣ x i ∣ p − 1 ∥ x ∥ p p − 2 , x ≠ 0 , 0 , x = 0 , \frac{\partial f}{\partial x_i}(\mathbf{x})=\left\{\begin{array}{ll}\mathrm{sgn}(x_i)\frac{|x_i|^{p-1}}{\Vert\mathbf{x}\Vert_p^{p-2}}, & \mathbf{x\ne0},\\0, & \mathbf{x=0},\end{array}\right. xif(x)={sgn(xi)xpp2xip1,0,x=0,x=0,注意到 f f f的偏导数在 R n \mathbb{R}^n Rn上连续, 因此 f f f R n \mathbb{R}^n Rn上可微10. 在 x ≠ 0 \mathbf{x\ne0} x=0的点处 f f f有二阶偏导数: ∂ 2 f ∂ x i ∂ x j ( x ) = { ( 2 − p ) s g n ( x j ) ∣ x i ∣ p − 1 ∣ x j ∣ p − 1 ∥ x ∥ p 2 p − 2 , i ≠ j , ( p − 1 ) ∣ x i ∣ p − 2 ∥ x ∥ p p − 2 + ( 2 − p ) ∣ x i ∣ 2 p − 2 ∥ x ∥ p 2 p − 2 , i = j . \frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}(2-p)\mathrm{sgn}(x_j)\frac{|x_i|^{p-1}|x_j|^{p-1}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i\ne j,\\(p-1)\frac{|x_i|^{p-2}}{\Vert\mathbf{x}\Vert_p^{p-2}}+(2-p)\frac{|x_i|^{2p-2}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i=j.\end{array}\right. xixj2f(x)=(2p)sgn(xj)xp2p2xip1xjp1,(p1)xpp2xip2+(2p)xp2p2xi2p2,i=j,i=j.易知 f f f的二阶偏导数在 ∀ x ≠ 0 \forall\mathbf{x\ne0} x=0处是连续的. 下面我们证明 f f f L = p − 1 L=p-1 L=p1满足定理2的(ii). 设 x , y ∈ R n : 0 ∉ [ x , y ] \mathbf{x,y}\in\mathbb{R}^n:\mathbf{0}\notin[\mathbf{x,y}] x,yRn:0/[x,y]. 于是由微分中值定理, 取 U U U为包含 [ x , y ] [\mathbf{x,y}] [x,y]但不包含 0 \mathbf{0} 0的开集, 存在 ξ ∈ [ x , y ] \bm{\xi}\in[\mathbf{x,y}] ξ[x,y], 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+f(x)T(yx)+21(yx)T2f(ξ)(yx).只需证 d T ∇ 2 f ( ξ ) d ≤ ( p − 1 ) ∥ d ∥ p 2 ,   ∀ d ∈ R n \mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2,\,\forall\mathbf{d}\in\mathbb{R}^n dT2f(ξ)d(p1)dp2,dRn. 由于 ∇ 2 f ( t ξ ) = ∇ 2 f ( ξ ) ,   ∀ t ∈ R ∖ { 0 } \nabla^2f(t\bm{\xi})=\nabla^2f(\bm{\xi}),\,\forall t\in\mathbb{R}\setminus\{0\} 2f(tξ)=2f(ξ),tR{0}, 因此我们不妨假设 ∥ ξ ∥ p = 1 \Vert\bm{\xi}\Vert_p=1 ξp=1. 现对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n dRn, d T ∇ 2 f ( ξ ) d = ( 2 − p ) ∥ ξ ∥ p 2 − 2 p ( ∑ i = 1 n ∣ ξ i ∣ p − 1 s g n ( ξ i ) d i ) 2 + ( p − 1 ) ∥ ξ ∥ p 2 − p ∑ i = 1 n ∣ ξ i ∣ p − 2 d i 2 ≤ ( p − 1 ) ∥ ξ ∥ p 2 − p ∑ i = 1 n ∣ ξ i ∣ p − 1 d i 2 , \begin{aligned}\mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}&=(2-p)\Vert\bm{\xi}\Vert_p^{2-2p}\left(\sum_{i=1}^n|\xi_i|^{p-1}\mathrm{sgn}(\xi_i)d_i\right)^2+(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-2}d_i^2\\&\le(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-1}d_i^2,\end{aligned} dT2f(ξ)d=(2p)ξp22p(i=1nξip1sgn(ξi)di)2+(p1)ξp2pi=1nξip2di2(p1)ξp2pi=1nξip1di2,这里最后一个不等式是由于 p > 2 p>2 p>2. 根据Cauchy-Schwarz不等式, ∑ i = 1 n ∣ ξ i ∣ p − 2 d i 2 ≤ ( ∑ i = 1 n ( ∣ ξ i ∣ p − 2 ) p p − 2 ) p − 2 p ( ∑ i = 1 n ( d i 2 ) p 2 ) 2 p = ( ∑ i = 1 n ∣ ξ i ∣ p ) p − 2 p ( ∑ i = 1 n ∣ d i ∣ p ) 2 p = ∥ d ∥ p 2 . \sum_{i=1}^n|\xi_i|^{p-2}d_i^2\le\left(\sum_{i=1}^n\left(|\xi_i|^{p-2}\right)^{\frac{p}{p-2}}\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n\left(d_i^2\right)^{\frac{p}{2}}\right)^{\frac{2}{p}}=\left(\sum_{i=1}^n|\xi_i|^p\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n|d_i|^p\right)^{\frac{2}{p}}=\Vert\mathbf{d}\Vert_p^2. i=1nξip2di2(i=1n(ξip2)p2p)pp2(i=1n(di2)2p)p2=(i=1nξip)pp2(i=1ndip)p2=dp2.于是, 对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n dRn, d T ∇ 2 f ( ξ ) d ≤ ( p − 1 ) ∥ d ∥ p 2 . \mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2. dT2f(ξ)d(p1)dp2. 0 ∈ [ x , y ] \mathbf{0}\in[\mathbf{x,y}] 0[x,y], 则取一列 { y k } k ≥ 0 \{\mathbf{y}_k\}_{k\ge0} {yk}k0收敛到 y \mathbf{y} y, 同时又有 0 ∉ [ x , y k ] \mathbf{0}\notin[\mathbf{x,y}_k] 0/[x,yk]. 因此由已有的结论, 对 ∀ k ≥ 0 \forall k\ge0 k0, f ( y k ) ≤ f ( x ) + ∇ f ( x ) T ( y k − x ) + p − 1 2 ∥ x − y k ∥ p 2 . f(\mathbf{y}_k)\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y}_k-\mathbf{x})+\frac{p-1}{2}\Vert\mathbf{x-y}_k\Vert_p^2. f(yk)f(x)+f(x)T(ykx)+2p1xykp2.在不等式两边令 k → ∞ k\to\infty k并利用 f f f的连续性即得证.

1.3 L L L-光滑函数的二阶等价刻画

下面考虑 E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 范数为 ℓ p \ell_p p-范数( p ≥ 1 p\ge1 p1). 对 R n \mathbb{R}^n Rn上的二次连续可微函数, 我们可通过其Hessian矩阵的范数刻画其 L L L-光滑性.

定理4 ( L L L-光滑性与Hessian矩阵范数的有界性) 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR R n \mathbb{R}^n Rn上的二次连续可微函数. 对一给定 L ≥ 0 L\ge0 L0, 下面两件事是等价的:
(i) f f f ℓ p \ell_p p-范数( p ∈ [ 1 , ∞ ] p\in[1,\infty] p[1,])下是 L L L-光滑的;
(ii) ∥ ∇ 2 f ( x ) ∥ p , q ≤ L ,   ∀ x ∈ R n \Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)p,qL,xRn, 这里 q ∈ [ 1 , ∞ ] : 1 p + 1 q = 1 q\in[1,\infty]:\frac{1}{p}+\frac{1}{q}=1 q[1,]:p1+q1=1.

证明: (ii) ⇒ \Rightarrow (i): 假设 ∥ ∇ 2 f ( x ) ∥ p , q ≤ L ,   ∀ x ∈ R n \Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)p,qL,xRn. 由微积分基本定理, 对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n x,yRn, ∇ f ( y ) = ∇ f ( x ) + ∫ 0 1 ∇ 2 f ( x + t ( y − x ) ) ( y − x )   d t = ∇ f ( x ) + ( ∫ 0 1 ∇ 2 f ( x + t ( y − x ) )   d t ) ⋅ ( y − x ) . \begin{aligned}\nabla f(\mathbf{y})&=\nabla f(\mathbf{x})+\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))(\mathbf{y-x})\,\mathrm{d}t\\&=\nabla f(\mathbf{x})+\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x}).\end{aligned} f(y)=f(x)+012f(x+t(yx))(yx)dt=f(x)+(012f(x+t(yx))dt)(yx).于是 ∥ ∇ f ( y ) − ∇ f ( x ) ∥ q = ∥ ( ∫ 0 1 ∇ 2 f ( x + t ( y − x ) )   d t ) ⋅ ( y − x ) ∥ q ≤ ∥ ∫ 0 1 ∇ 2 f ( x + t ( y − x ) )   d t ∥ p , q ⋅ ∥ y − x ∥ p ≤ ( ∫ 0 1 ∥ ∇ 2 f ( x + t ( y − x ) ) ∥ p , q   d t ) ⋅ ∥ y − x ∥ p ≤ L ∥ y − x ∥ p , \begin{aligned}\Vert\nabla f(\mathbf{y})-\nabla f(\mathbf{x})\Vert_q&=\left\Vert\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x})\right\Vert_q\\ &\le\left\Vert\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right\Vert_{p,q}\cdot\Vert\mathbf{y-x}\Vert_p\\ &\le\left(\int_0^1\left\Vert\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\right\Vert_{p,q}\,\mathrm{d}t\right)\cdot\Vert\mathbf{y-x}\Vert_p\\&\le L\Vert\mathbf{y-x}\Vert_p,\end{aligned} f(y)f(x)q=(012f(x+t(yx))dt)(yx)q012f(x+t(yx))dtp,qyxp(012f(x+t(yx))p,qdt)yxpLyxp,这就证明了(i).
(i) ⇒ \Rightarrow (ii): 假设 f f f ℓ p \ell_p p-范数下 L L L-光滑. 再次由微积分基本定理, 对 ∀ d ∈ R n ,   α > 0 \forall\mathbf{d}\in\mathbb{R}^n,\,\alpha>0 dRn,α>0, ∇ f ( x + α d ) − ∇ f ( x ) = ∫ 0 α ∇ 2 f ( x + t d ) d   d t . \nabla f(\mathbf{x}+\alpha\mathbf{d})-\nabla f(\mathbf{x})=\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\mathbf{d}\,\mathrm{d}t. f(x+αd)f(x)=0α2f(x+td)ddt.因此, ∥ ( ∫ 0 α ∇ 2 f ( x + t d )   d t ) d ∥ q ≤ α L ∥ d ∥ p . \left\Vert\left(\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\,\mathrm{d}t\right)\mathbf{d}\right\Vert_q\le\alpha L\Vert\mathbf{d}\Vert_p. (0α2f(x+td)dt)dqαLdp.同除 α \alpha α并令 α → 0 + \alpha\to0^+ α0+, 就有 ∥ ∇ 2 f ( x ) d ∥ q ≤ L ∥ d ∥ p , ∀ d ∈ R n , \Vert\nabla^2f(\mathbf{x})\mathbf{d}\Vert_q\le L\Vert\mathbf{d}\Vert_p,\quad\forall\mathbf{d}\in\mathbb{R}^n, 2f(x)dqLdp,dRn,这表明 ∥ ∇ 2 f ( x ) ∥ p , q ≤ L ,   ∀ x ∈ R n \Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)p,qL,xRn.

定理4的直接推论是, 对于二次连续可微的凸函数, 在 ℓ 2 \ell_2 2-范数下的 L L L-光滑性等价于其Hessian矩阵的最大特征值小于等于 L L L.

推论1 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR R n \mathbb{R}^n Rn上二次连续可微的凸函数. 则 f f f ℓ 2 \ell_2 2-范数下 L L L-光滑等价于 λ max ⁡ ( ∇ 2 f ( x ) ) ≤ L ,   ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le L,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(2f(x))L,xRn.

证明: 因 f f f是凸函数, 所以 ∇ 2 f ( x ) ⪰ 0 ,   ∀ x ∈ R n \nabla^2f(\mathbf{x})\succeq\mathbf{0},\,\forall\mathbf{x}\in\mathbb{R}^n 2f(x)0,xRn. 此时 ∥ ∇ 2 f ( x ) ∥ 2 , 2 = λ max ⁡ ( ( ∇ 2 f ( x ) ) 2 ) = λ max ⁡ ( ∇ 2 f ( x ) ) . \Vert\nabla^2f(\mathbf{x})\Vert_{2,2}=\sqrt{\lambda_{\max}\left((\nabla^2f(\mathbf{x}))^2\right)}=\lambda_{\max}\left(\nabla^2f(\mathbf{x})\right). 2f(x)2,2=λmax((2f(x))2) =λmax(2f(x)).再结合定理4, 就得证.

例6 ( 1 + ∥ ⋅ ∥ 2 2 \sqrt{1+\Vert\cdot\Vert_2^2} 1+22 ℓ 2 \ell_2 2-范数下的 1 1 1-光滑性) 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR为如下的凸函数 f ( x ) = 1 + ∥ x ∥ 2 2 . f(\mathbf{x})=\sqrt{1+\Vert\mathbf{x}\Vert_2^2}. f(x)=1+x22 . ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, ∇ f ( x ) = x ∥ x ∥ 2 2 + 1 ,   ∇ 2 f ( x ) = 1 ∥ x ∥ 2 2 + 1 I − x x T ( ∥ x ∥ 2 2 + 1 ) 3 / 2 ⪯ I . \nabla f(\mathbf{x})=\frac{\mathbf{x}}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}},\,\nabla^2f(\mathbf{x})=\frac{1}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}}\mathbf{I}-\frac{\mathbf{xx}^T}{\left(\Vert\mathbf{x}\Vert_2^2+1\right)^{3/2}}\preceq\mathbf{I}. f(x)=x22+1 x,2f(x)=x22+1 1I(x22+1)3/2xxTI.从而有 λ max ⁡ ( ∇ 2 f ( x ) ) ≤ 1 ,   ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(2f(x))1,xRn. 根据推论1, 可知 f f f ℓ 2 \ell_2 2-范数下 1 1 1-光滑.

例7 (对数求和指数函数在 ℓ 2 \ell_2 2-, ℓ ∞ \ell_{\infty} -范数下的 1 1 1-光滑性) 考虑对数求和指数函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR: f ( x ) = log ⁡ ( e x 1 + e x 2 + ⋯ + e x n ) . f(\mathbf{x})=\log(e^{x_1}+e^{x_2}+\cdots+e^{x_n}). f(x)=log(ex1+ex2++exn).首先考虑 ℓ 2 \ell_2 2-范数. f f f的一阶偏导数为 ∂ f ∂ x i ( x ) = e x i ∑ k = 1 n e x k , i = 1 , 2 , … , n , \frac{\partial f}{\partial x_i}(\mathbf{x})=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}},\quad i=1,2,\ldots,n, xif(x)=k=1nexkexi,i=1,2,,n,二阶偏导数为 ∂ 2 f ∂ x i ∂ x j ( x ) = { − e x i e x j ( ∑ k = 1 n e x k ) 2 , i ≠ j , − e 2 x i ( ∑ k = 1 n e x k ) 2 + e x i ∑ k = 1 n e x k , i = j . \frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}-\frac{e^{x_i}e^{x_j}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}, & i\ne j,\\-\frac{e^{2x_i}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}+\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}}, & i=j.\end{array}\right. xixj2f(x)=(k=1nexk)2exiexj,(k=1nexk)2e2xi+k=1nexkexi,i=j,i=j.于是Hessian矩阵可以写作 ∇ 2 f ( x ) = d i a g ( w ) − w w T ≻ 0 , \nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\succ\mathbf{0}, 2f(x)=diag(w)wwT0,这里 w i = e x i ∑ k = 1 n e x k w_i=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}} wi=k=1nexkexi. 注意到对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, ∇ 2 f ( x ) = d i a g ( w ) − w w T ⪯ d i a g ( w ) ⪯ I , \nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\preceq\mathrm{diag}(\mathbf{w})\preceq\mathbf{I}, 2f(x)=diag(w)wwTdiag(w)I,因此 λ max ⁡ ( ∇ 2 f ( x ) ) ≤ 1 ,   ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(2f(x))1,xRn. 再因 f f f的Hessian矩阵正定, 因此 f f f是凸函数, 由推论1即得 f f f ℓ 2 \ell_2 2-范数下是 1 1 1-光滑的.

下证 ℓ ∞ \ell_{\infty} -范数的情形. 我们首先证明对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n dRn, d T ∇ 2 f ( x ) d ≤ ∥ d ∥ ∞ 2 . \mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}\le\Vert\mathbf{d}\Vert_{\infty}^2. dT2f(x)dd2.事实上, d T ∇ 2 f ( x ) d = d T ( d i a g ( w ) − w w T ) d = d T d i a g ( w ) d − ( w T d ) 2 ≤ d T d i a g ( w ) d = ∑ i = 1 n w i d i 2 ≤ ∥ d ∥ ∞ 2 ∑ i = 1 n w i = ∥ d ∥ ∞ 2 . \begin{aligned}\mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}&=\mathbf{d}^T\left(\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\right)\mathbf{d}=\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}-\left(\mathbf{w}^T\mathbf{d}\right)^2\\&\le\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}=\sum_{i=1}^nw_id_i^2\\&\le\Vert\mathbf{d}\Vert_{\infty}^2\sum_{i=1}^nw_i=\Vert\mathbf{d}\Vert_{\infty}^2.\end{aligned} dT2f(x)d=dT(diag(w)wwT)d=dTdiag(w)d(wTd)2dTdiag(w)d=i=1nwidi2d2i=1nwi=d2. f f f R n \mathbb{R}^n Rn上二次连续可微, 于是由微分中值定理, 对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n x,yRn, ∃ ξ ∈ [ x , y ] \exists\bm{\xi}\in[\mathbf{x,y}] ξ[x,y], 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+f(x)T(yx)+21(yx)T2f(ξ)(yx).结合上面的不等式, 有 f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ∥ y − x ∥ ∞ 2 , f(\mathbf{y})\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}\Vert\mathbf{y-x}\Vert_{\infty}^2, f(y)f(x)+f(x)T(yx)+21yx2,再由定理2的(ii)即得 f f f ℓ ∞ \ell_{\infty} -范数下的 1 1 1-光滑性.

1.4 光滑参数计算小结

下表总结了本节讨论的函数在不同范数下的光滑参数. 其中最后一个函数的讨论放在下一章.

f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f)光滑参数范数例号
1 2 x T A x + b T x + c   ( A ∈ S n ,   b ∈ R n ,   c ∈ R ) \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}) 21xTAx+bTx+c(ASn,bRn,cR) R n \mathbb{R}^n Rn ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} Ap,q ℓ p \ell_p p1
⟨ b , x ⟩ + c   ( b ∈ E ∗ ,   c ∈ R ) \langle\mathbf{b,x}\rangle+c\,(\mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R}) b,x+c(bE,cR) E \mathbb{E} E 0 0 0任何范数2
1 2 ∥ x ∥ p 2 ,   p ∈ [ 2 , ∞ ) \frac{1}{2}\Vert\mathbf{x}\Vert_p^2,\,p\in[2,\infty) 21xp2,p[2,) R n \mathbb{R}^n Rn p − 1 p-1 p1 ℓ p \ell_p p5
1 + ∥ x ∥ 2 2 \sqrt{1+\Vert\mathbf{x}\Vert_2^2} 1+x22 R n \mathbb{R}^n Rn 1 1 1 ℓ 2 \ell_2 26
log ⁡ ( ∑ i = 1 n e x i ) \log(\sum_{i=1}^ne^{x_i}) log(i=1nexi) R n \mathbb{R}^n Rn 1 1 1 ℓ 2 , ℓ ∞ \ell_2,\ell_{\infty} 2,7
1 2 d C 2 ( x )   ( ∅ ≠ C ⊂ E \frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21dC2(x)(=CE闭凸 ) ) ) E \mathbb{E} E 1 1 1欧式范数3
1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x )   ( ∅ ≠ C ⊂ E \frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21x221dC2(x)(=CE闭凸 ) ) ) E \mathbb{E} E 1 1 1欧式范数4
H μ ( x )   ( μ > 0 ) H_{\mu}(\mathbf{x})\,(\mu>0) Hμ(x)(μ>0) E \mathbb{E} E 1 μ \frac{1}{\mu} μ1欧式范数第六章例28

2. σ \sigma σ-强凸性

定义2 (强凸性) 对一给定 σ > 0 \sigma>0 σ>0, 我们称函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] σ \sigma σ-强凸的, 若 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集且对 ∀ x , y ∈ d o m ( f ) ,   λ ∈ [ 0 , 1 ] \forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1] x,ydom(f),λ[0,1], 均有 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2. f(λx+(1λ)y)λf(x)+(1λ)f(y)2σλ(1λ)xy2. σ \sigma σ强凸参数. 有时我们也称 f f f对于参数 σ \sigma σ强凸.

需要说明的是, 强凸参数 σ \sigma σ也依赖于定义所用的范数. 因此我们有时也会刻意地说成, 在范数 ∥ ⋅ ∥ \Vert\cdot\Vert 下的强凸参数. 由于如上定义的强凸函数的有效域是凸的, 而且显然有Jensen不等式成立, 所以强凸函数必定是凸函数.

E \mathbb{E} E欧式空间时, 我们可给出等价于强凸性的一个简单性质.

定理5 E \mathbb{E} E为欧式空间11. 则 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0)当且仅当 f ( ⋅ ) − σ 2 ∥ ⋅ ∥ 2 f(\cdot)-\frac{\sigma}{2}\Vert\cdot\Vert^2 f()2σ2是凸函数.

证明: 函数 g ( x ) ≡ f ( x ) − σ 2 ∥ x ∥ 2 g(\mathbf{x})\equiv f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x}\Vert^2 g(x)f(x)2σx2是凸函数当且仅当其有效域 d o m ( g ) = d o m ( f ) \mathrm{dom}(g)=\mathrm{dom}(f) dom(g)=dom(f)是凸集, 且对 ∀ x , y ∈ d o m ( f ) ,   λ ∈ [ 0 , 1 ] \forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1] x,ydom(f),λ[0,1], g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) . g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}). g(λx+(1λ)y)λg(x)+(1λ)g(y).这等价于 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) + σ 2 [ ∥ λ x + ( 1 − λ ) y ∥ 2 − λ ∥ x ∥ 2 − ( 1 − λ ) ∥ y ∥ 2 ] . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})+\frac{\sigma}{2}[\Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2]. f(λx+(1λ)y)λf(x)+(1λ)f(y)+2σ[λx+(1λ)y2λx2(1λ)y2].由于 E \mathbb{E} E是欧式空间, 所以 ∥ λ x + ( 1 − λ ) y ∥ 2 − λ ∥ x ∥ 2 − ( 1 − λ ) ∥ y ∥ 2 = − λ ( 1 − λ ) ∥ x − y ∥ 2 , \Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2=-\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, λx+(1λ)y2λx2(1λ)y2=λ(1λ)xy2,代入上面的不等式即可得证.

另外, σ \sigma σ-强凸性也有类似于 L L L-光滑性的单调性, 即若函数 f f f σ 1 \sigma_1 σ1-强凸的( σ 1 > 0 \sigma_1>0 σ1>0), 则对 ∀ σ 2 ∈ ( 0 , σ 1 ) \forall\sigma_2\in(0,\sigma_1) σ2(0,σ1), 它必是 σ 2 \sigma_2 σ2-强凸的. 对应地, 定出一给定函数的最大强凸参数则也是一件不平凡的事, 也是一件有趣的事.

例8 (二次函数的强凸性) 假设 E = R n \mathbb{E}=\mathbb{R}^n E=Rn ℓ 2 \ell_2 2-范数, 考虑二次函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 x T A x + b T x + c , f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c, f(x)=21xTAx+bTx+c,其中 A ∈ S n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} ASn,bRn,cR. 由定理5, f f f σ \sigma σ-强凸函数当且仅当函数 1 2 x T ( A − σ I ) x + b T x + c \frac{1}{2}\mathbf{x}^T(\mathbf{A-\sigma I})\mathbf{x}+\mathbf{b}^T\mathbf{x}+c 21xT(AσI)x+bTx+c是凸函数, 而这等价于 A − σ I ⪰ 0 \mathbf{A-\sigma I}\succeq\mathbf{0} AσI0, 即 λ min ⁡ ( A ) ≥ σ \lambda_{\min}(\mathbf{A})\ge\sigma λmin(A)σ. 因此, f f f强凸当且仅当 A \mathbf{A} A正定, 且此时 λ min ⁡ ( A ) \lambda_{\min}(\mathbf{A}) λmin(A)就是 f f f的最大强凸参数.

强凸函数与凸函数的和仍然是强凸函数, 且不改变其强凸参数.

引理1 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,] σ \sigma σ-强凸函数 ( σ > 0 (\sigma>0 (σ>0), g : E → ( − ∞ , ∞ ] g:\mathbb{E}\to(-\infty,\infty] g:E(,]是凸函数. 则 f + g f+g f+g仍然是 σ \sigma σ-强凸函数.

证明: 证明是直接的. 因 f , g f,g f,g是凸函数, 所以 d o m ( f ) , d o m ( g ) \mathrm{dom}(f),\mathrm{dom}(g) dom(f),dom(g)都是凸集, 从而 d o m ( f + g ) = d o m ( f ) ∩ d o m ( g ) \mathrm{dom}(f+g)=\mathrm{dom}(f)\cap\mathrm{dom}(g) dom(f+g)=dom(f)dom(g)是凸集. 设 x , y ∈ d o m ( f ) ∩ d o m ( g ) ,   λ ∈ [ 0 , 1 ] \mathbf{x,y}\in\mathrm{dom}(f)\cap\mathrm{dom}(g),\,\lambda\in[0,1] x,ydom(f)dom(g),λ[0,1]. 则由 f f f σ \sigma σ-强凸性, f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2. f(λx+(1λ)y)λf(x)+(1λ)f(y)2σλ(1λ)xy2.再由 g g g是凸函数, g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) . g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}). g(λx+(1λ)y)λg(x)+(1λ)g(y).两不等式相加得到 ( f + g ) ( λ x + ( 1 − λ ) y ) ≤ λ ( f + g ) ( x ) + ( 1 − λ ) ( f + g ) ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 , (f+g)(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda(f+g)(\mathbf{x})+(1-\lambda)(f+g)(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, (f+g)(λx+(1λ)y)λ(f+g)(x)+(1λ)(f+g)(y)2σλ(1λ)xy2,得证.

例9 ( 1 2 ∥ ⋅ ∥ 2 + δ C \frac{1}{2}\Vert\cdot\Vert^2+\delta_C 212+δC的强凸性) 假设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空凸集. 则由例8知 1 2 ∥ x ∥ 2 \frac{1}{2}\Vert\mathbf{x}\Vert^2 21x2 1 1 1-强凸函数, 再由 C C C是凸集, 从而 δ C \delta_C δC是凸函数. 最后根据引理1, 函数 1 2 ∥ x ∥ 2 + δ C ( x ) \frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x}) 21x2+δC(x)就是 1 1 1-强凸的.

我们之前给出了刻画 L L L-光滑函数的一阶和二阶性质. 这里我们也给出 σ \sigma σ-强凸的两个等价一阶性质. 它们的证明要用到下面的一维中值定理(引理212)与线段原理(引理313).

引理2(中值定理) 设 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]为一闭凸函数, [ a , b ] ⊂ d o m ( f ) ( a < b ) [a,b]\subset\mathrm{dom}(f)(a<b) [a,b]dom(f)(a<b). 于是 f ( b ) − f ( a ) = ∫ a b h ( t )   d t , f(b)-f(a)=\int_a^bh(t)\,\mathrm{d}t, f(b)f(a)=abh(t)dt,其中 h : ( a , b ) → R h:(a,b)\to\mathbb{R} h:(a,b)R满足 h ( t ) ∈ ∂ f ( t ) ,   ∀ t ∈ ( a , b ) h(t)\in\partial f(t),\,\forall t\in(a,b) h(t)f(t),t(a,b).

引理3(线段原理) 设 C C C为凸集. 假设 x ∈ r i ( C ) ,   y ∈ c l ( C ) ,   λ ∈ ( 0 , 1 ] \mathbf{x}\in\mathrm{ri}(C),\,\mathbf{y}\in\mathrm{cl}(C),\,\lambda\in(0,1] xri(C),ycl(C),λ(0,1]. 于是 λ x + ( 1 − λ ) y ∈ r i ( C ) \lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in\mathrm{ri}(C) λx+(1λ)yri(C).

定理6 (强凸性的一阶刻画) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭凸函数. 则对一给定 σ > 0 \sigma>0 σ>0, 下面三件事是等价的:
(i) f f f σ \sigma σ-强凸函数;
(ii) f ( y ) ≥ f ( x ) + ⟨ g , y − x ⟩ + σ 2 ∥ y − x ∥ 2 ,   ∀ x ∈ d o m ( ∂ f ) ,   y ∈ d o m ( f ) ,   g ∈ ∂ f ( x ) f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle+\frac{\sigma}{2}\Vert\mathbf{y-x}\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x}) f(y)f(x)+g,yx+2σyx2,xdom(f),ydom(f),gf(x)14;
(iii) ⟨ g x − g y , x − y ⟩ ≥ σ ∥ x − y ∥ 2 ,   ∀ x , y ∈ d o m ( ∂ f ) ,   g x ∈ ∂ f ( x ) ,   g y ∈ ∂ f ( y ) \langle\mathbf{g_x-g_y,x-y}\rangle\ge\sigma\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y}) gxgy,xyσxy2,x,ydom(f),gxf(x),gyf(y)15.

证明: (ii) ⇒ \Rightarrow (i): 假设(ii)成立. 任取 x , y ∈ d o m ( f ) ,   λ ∈ ( 0 , 1 ) ,   z ∈ r i ( d o m ( f ) ) \mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in(0,1),\,\mathbf{z}\in\mathrm{ri(dom}(f)) x,ydom(f),λ(0,1),zri(dom(f)). 于是对 ∀ α ∈ ( 0 , 1 ] \forall\alpha\in(0,1] α(0,1], 由线段原理, x ~ = ( 1 − α ) x + α z ∈ r i ( d o m ( f ) ) \tilde\mathbf{x}=(1-\alpha)\mathbf{x}+\alpha\mathbf{z}\in\mathrm{ri(dom}(f)) x~=(1α)x+αzri(dom(f)). 固定 α \alpha α. 记 x λ = λ x ~ + ( 1 − λ ) y \mathbf{x_{\lambda}}=\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx~+(1λ)y, 再由线段原理, 知 x λ ∈ r i ( d o m ( f ) ) ,   ∀ λ ∈ ( 0 , 1 ) \mathbf{x_{\lambda}}\in\mathrm{ri(dom}(f)),\,\forall\lambda\in(0,1) xλri(dom(f)),λ(0,1). 因此根据第三章定理6, ∂ f ( x λ ) ≠ ∅ \partial f(\mathbf{x_{\lambda}})\ne\emptyset f(xλ)=, x λ ∈ d o m ( ∂ f ) \mathbf{x_{\lambda}}\in\mathrm{dom}(\partial f) xλdom(f). 取 g ∈ ∂ f ( x λ ) \mathbf{g}\in\partial f(\mathbf{x_{\lambda}}) gf(xλ). 由(ii), f ( x ~ ) ≥ f ( x λ ) + ⟨ g , x ~ − x λ ⟩ + σ 2 ∥ x ~ − x λ ∥ 2 , f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{x_{\lambda}}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{x}-\mathbf{x_{\lambda}}\Vert^2, f(x~)f(xλ)+g,x~xλ+2σx~xλ2,代入 x λ \mathbf{x_{\lambda}} xλ定义就有 f ( x ~ ) ≥ f ( x λ ) + ( 1 − λ ) ⟨ g , x ~ − y ⟩ + σ ( 1 − λ ) 2 2 ∥ y − x ~ ∥ 2 . f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+(1-\lambda)\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{y}\rangle+\frac{\sigma(1-\lambda)^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2. f(x~)f(xλ)+(1λ)g,x~y+2σ(1λ)2yx~2.类似地有 f ( y ) ≥ f ( x λ ) + λ ⟨ g , y − x ~ ⟩ + σ λ 2 2 ∥ y − x ~ ∥ 2 . f(\mathbf{y})\ge f(\mathbf{x_{\lambda}})+\lambda\langle\mathbf{g},\mathbf{y}-\tilde\mathbf{x}\rangle+\frac{\sigma\lambda^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2. f(y)f(xλ)+λg,yx~+2σλ2yx~2.前者两边乘以 λ \lambda λ, 后者两边乘以 1 − λ 1-\lambda 1λ, 再相加可得 f ( λ x ~ + ( 1 − λ ) y ) ≤ λ f ( x ~ ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ x ~ − y ∥ 2 . f(\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\tilde\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\tilde\mathbf{x}-\mathbf{y}\Vert^2. f(λx~+(1λ)y)λf(x~)+(1λ)f(y)2σλ(1λ)x~y2. x ~ \tilde\mathbf{x} x~的定义代入上式, 可得 g 1 ( α ) ≤ λ g 2 ( α ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ ( 1 − α ) x + α z − y ∥ 2 , g_1(\alpha)\le\lambda g_2(\alpha)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert(1-\alpha)\mathbf{x}+\alpha\mathbf{z}-\mathbf{y}\Vert^2, g1(α)λg2(α)+(1λ)f(y)2σλ(1λ)(1α)x+αzy2,其中 g 1 ( α ) ≡ f ( λ ( 1 − α ) x + ( 1 − λ ) y + λ α z ) g_1(\alpha)\equiv f(\lambda(1-\alpha)\mathbf{x}+(1-\lambda)\mathbf{y}+\lambda\alpha\mathbf{z}) g1(α)f(λ(1α)x+(1λ)y+λαz), g 2 ( α ) ≡ f ( ( 1 − α ) x + α z ) g_2(\alpha)\equiv f((1-\alpha)\mathbf{x}+\alpha\mathbf{z}) g2(α)f((1α)x+αz). 函数 g 1 , g 2 g_1,g_2 g1,g2均是一维正常闭凸函数, 从而根据第二章定理10可知, 它们都在它们的有效域上连续. 令 α → 0 + \alpha\to0^+ α0+, 推出 g 1 ( 0 ) ≤ λ g 2 ( 0 ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ x − y ∥ 2 . g_1(0)\le\lambda g_2(0)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\mathbf{x-y}\Vert^2. g1(0)λg2(0)+(1λ)f(y)2σλ(1λ)xy2.又因 g 1 ( 0 ) = f ( λ x + ( 1 − λ ) y ) ,   g 2 ( 0 ) = f ( x ) g_1(0)=f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y}),\,g_2(0)=f(\mathbf{x}) g1(0)=f(λx+(1λ)y),g2(0)=f(x), 故得 f f f σ \sigma σ-强凸性.

(i) ⇒ \Rightarrow (iii): 假设(i)成立. 设 x , y ∈ d o m ( ∂ f ) ,   g x ∈ ∂ f ( x ) ,   g y ∈ ∂ f ( y ) \mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y}) x,ydom(f),gxf(x),gyf(y). 任取 λ ∈ [ 0 , 1 ) \lambda\in[0,1) λ[0,1), 并记 x λ = λ x + ( 1 − λ ) y \mathbf{x_{\lambda}}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx+(1λ)y. 由(i), f ( x λ ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 , f(\mathbf{x_{\lambda}})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, f(xλ)λf(x)+(1λ)f(y)2σλ(1λ)xy2,进一步有 f ( x λ ) − f ( x ) 1 − λ ≤ f ( y ) − f ( x ) − σ 2 λ ∥ x − y ∥ 2 . \frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\lambda\Vert\mathbf{x-y}\Vert^2. 1λf(xλ)f(x)f(y)f(x)2σλxy2.因为 g x ∈ ∂ f ( x ) \mathbf{g_x}\in\partial f(\mathbf{x}) gxf(x), 于是 f ( x λ ) − f ( x ) 1 − λ ≥ ⟨ g x , x λ − x ⟩ 1 − λ = ⟨ g x , y − x ⟩ , \frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\ge\frac{\langle\mathbf{g_x,x_{\lambda}-x}\rangle}{1-\lambda}=\langle\mathbf{g_x,y-x}\rangle, 1λf(xλ)f(x)1λgx,xλx=gx,yx,所以 ⟨ g x , y − x ⟩ ≤ f ( y ) − f ( x ) − σ λ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma\lambda}{2}\Vert\mathbf{x-y}\Vert^2. gx,yxf(y)f(x)2σλxy2. λ → 1 − 1 \lambda\to1^{-1} λ11, 就有 ⟨ g x , y − x ⟩ ≤ f ( y ) − f ( x ) − σ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2. gx,yxf(y)f(x)2σxy2.交换 x , y \mathbf{x,y} x,y的位置又得到 ⟨ g y , x − y ⟩ ≤ f ( x ) − f ( y ) − σ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_y,x-y}\rangle\le f(\mathbf{x})-f(\mathbf{y})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2. gy,xyf(x)f(y)2σxy2.两式相加即得(iii).

(iii) ⇒ \Rightarrow (ii): 假设(iii)成立. 设 x ∈ d o m ( ∂ f ) ,   y ∈ d o m ( f ) ,   g ∈ ∂ f ( x ) \mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x}) xdom(f),ydom(f),gf(x). 令 z ∈ r i ( d o m ( f ) ) \mathbf{z}\in\mathrm{ri(dom}(f)) zri(dom(f)), 定义 y ~ = ( 1 − α ) y + α z ,   α ∈ ( 0 , 1 ) \tilde\mathbf{y}=(1-\alpha)\mathbf{y}+\alpha\mathbf{z},\,\alpha\in(0,1) y~=(1α)y+αz,α(0,1). 固定 α \alpha α. 由线段原理, y ~ ∈ r i ( d o m ( f ) ) \tilde\mathbf{y}\in\mathrm{ri(dom}(f)) y~ri(dom(f)). 考虑一元函数 φ ( λ ) = f ( x λ ) , λ ∈ [ 0 , 1 ] , \varphi(\lambda)=f(\mathbf{x_{\lambda}}),\quad\lambda\in[0,1], φ(λ)=f(xλ),λ[0,1],其中 x λ = ( 1 − λ ) x + λ y ~ \mathbf{x_{\lambda}}=(1-\lambda)\mathbf{x}+\lambda\tilde\mathbf{y} xλ=(1λ)x+λy~. 对 ∀ λ ∈ ( 0 , 1 ) \forall\lambda\in(0,1) λ(0,1), 令 g λ ∈ ∂ f ( x λ ) \mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}}) gλf(xλ)16. 于是 ⟨ g λ , y ~ − x ⟩ ∈ ∂ φ ( λ ) \langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\in\partial\varphi(\lambda) gλ,y~xφ(λ), 从而由中值定理, f ( y ~ ) − f ( x ) = φ ( 1 ) − φ ( 0 ) = ∫ 0 1 ⟨ g λ , y ~ − x ⟩   d λ . f(\tilde\mathbf{y})-f(\mathbf{x})=\varphi(1)-\varphi(0)=\int_0^1\langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\,\mathrm{d}\lambda. f(y~)f(x)=φ(1)φ(0)=01gλ,y~xdλ.因为 g ∈ ∂ f ( x ) ,   g λ ∈ ∂ f ( x λ ) \mathbf{g}\in\partial f(\mathbf{x}),\,\mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}}) gf(x),gλf(xλ), 根据(iii), ⟨ g λ − g , x λ − x ⟩ ≥ σ ∥ x λ − x ∥ 2 , \langle\mathbf{g_{\lambda}-g,x_{\lambda}-x}\rangle\ge\sigma\Vert\mathbf{x_{\lambda}-x}\Vert^2, gλg,xλxσxλx2,代入 x λ \mathbf{x_{\lambda}} xλ的定义, ⟨ g λ , y ~ − x ⟩ ≥ ⟨ g , y ~ − x ⟩ + σ λ ∥ y ~ − x ∥ 2 . \langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\ge\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2. gλ,y~xg,y~x+σλy~x2.将此代入中值定理的不等式, 就有 f ( y ~ ) − f ( x ) ≥ ∫ 0 1 [ ⟨ g , y ~ − x ⟩ + σ λ ∥ y ~ − x ∥ 2 ]   d λ = ⟨ g , y ~ − x ⟩ + σ 2 ∥ y ~ − x ∥ 2 . f(\tilde\mathbf{y})-f(\mathbf{x})\ge\int_0^1\left[\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2\right]\,\mathrm{d}\lambda=\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2. f(y~)f(x)01[g,y~x+σλy~x2]dλ=g,y~x+2σy~x2.代入 y ~ \tilde\mathbf{y} y~的定义, 我们有对 ∀ α ∈ ( 0 , 1 ) \forall\alpha\in(0,1) α(0,1), f ( ( 1 − α ) y + α z ) ≥ f ( x ) + ⟨ g , ( 1 − α ) y + α z − x ⟩ + σ 2 ∥ ( 1 − α ) y + α z − x ∥ 2 . f((1-\alpha)\mathbf{y}+\alpha\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{g},(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\Vert^2. f((1α)y+αz)f(x)+g,(1α)y+αzx+2σ(1α)y+αzx2. α → 0 + \alpha\to0^+ α0+并利用一元函数 α ↦ f ( ( 1 − α ) y + α z ) \alpha\mapsto f((1-\alpha)\mathbf{y}+\alpha\mathbf{z}) αf((1α)y+αz) [ 0 , 1 ] [0,1] [0,1]上的连续性17就得证.

下一个定理表明, 正常闭强凸函数有唯一的极小点, 且它在极小点附近满足一定的增长性质.

定理7 (闭强凸函数极小点的存在唯一性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭 σ \sigma σ-强凸函数( σ > 0 \sigma>0 σ>0). 于是
(i) f f f有唯一全局极小点;
(ii) f ( x ) − f ( x ∗ ) ≥ σ 2 ∥ x − x ∗ ∥ 2 ,   ∀ x ∈ d o m ( f ) f(\mathbf{x})-f(\mathbf{x}^*)\ge\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(f) f(x)f(x)2σxx2,xdom(f), 其中 x ∗ \mathbf{x}^* x是(i)中 f f f的唯一极小点.

证明: (i) 因为 d o m ( f ) \mathrm{dom}(f) dom(f)是非空凸集, 从而根据第三章定理5, 存在 x 0 ∈ r i ( d o m ( f ) ) \mathbf{x}_0\in\mathrm{ri(dom}(f)) x0ri(dom(f)), 从而再根据第三章定理6, ∂ f ( x 0 ) ≠ ∅ \partial f(\mathbf{x}_0)\ne\emptyset f(x0)=. 设 g ∈ ∂ f ( x 0 ) \mathbf{g}\in\partial f(\mathbf{x}_0) gf(x0). 由定理6的(ii), 推出 f ( x ) ≥ f ( x 0 ) + ⟨ g , x − x 0 ⟩ + σ 2 ∥ x − x 0 ∥ 2 , ∀ x ∈ E . f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}_0\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}. f(x)f(x0)+g,xx0+2σxx02,xE.因为有限维空间中所有的范数都等价, 所以存在常数 C > 0 C>0 C>0使得 ∥ y ∥ ≥ C ∥ y ∥ a , \Vert\mathbf{y}\Vert\ge\sqrt{C}\Vert\mathbf{y}\Vert_a, yC ya,其中 ∥ ⋅ ∥ a \Vert\cdot\Vert_a a是与空间内积对应的欧式范数. 因此 f ( x ) ≥ f ( x 0 ) + ⟨ g , x − x 0 ⟩ + C σ 2 ∥ x − x 0 ∥ a 2 , ∀ x ∈ E , f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{C\sigma}{2}\Vert\mathbf{x-x}_0\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E}, f(x)f(x0)+g,xx0+2Cσxx0a2,xE,配方后可得 f ( x ) ≥ f ( x 0 ) − 1 2 C σ ∥ g ∥ a 2 + C σ 2 ∥ x − ( x 0 − 1 C σ g ) ∥ a 2 , ∀ x ∈ E . f(\mathbf{x})\ge f(\mathbf{x}_0)-\frac{1}{2C\sigma}\Vert\mathbf{g}\Vert_a^2+\frac{C\sigma}{2}\left\Vert\mathbf{x}-\left(\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g}\right)\right\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E}. f(x)f(x0)2Cσ1ga2+2Cσx(x0Cσ1g)a2,xE.特别地, L e v ( f , f ( x 0 ) ) ⊂ B ∥ ⋅ ∥ a [ x 0 − 1 C σ g , 1 C σ ∥ g ∥ a ] . \mathrm{Lev}(f,f(\mathbf{x}_0))\subset B_{\Vert\cdot\Vert_a}\left[\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g},\frac{1}{C\sigma}\Vert\mathbf{g}\Vert_a\right]. Lev(f,f(x0))Ba[x0Cσ1g,Cσ1ga].由于 f f f是闭函数, 所以根据第二章定理1, 上述水平集是闭集(同时也是有界集). 因此 L e v ( f , f ( x 0 ) ) \mathrm{Lev}(f,f(\mathbf{x}_0)) Lev(f,f(x0))是紧集. 同时注意到 x 0 ∈ L e v ( f , f ( x 0 ) ) \mathbf{x}_0\in\mathrm{Lev}(f,f(\mathbf{x}_0)) x0Lev(f,f(x0)). 所以 f f f d o m ( f ) \mathrm{dom}(f) dom(f)上的最优点集等同于 f f f在非空紧集 L e v ( f , f ( x 0 ) ) \mathrm{Lev}(f,f(\mathbf{x}_0)) Lev(f,f(x0))上的最优点集. 由第二章定理4(闭函数的Weierstrass定理), 得知这样的全局极小点是存在的.
下面证明唯一性. 假设 x ~ , x ^ \tilde\mathbf{x},\hat\mathbf{x} x~,x^都是 f f f的全局极小点. 则 f ( x ~ ) = f ( x ^ ) = f o p t f(\tilde\mathbf{x})=f(\hat\mathbf{x})=f_{\mathrm{opt}} f(x~)=f(x^)=fopt, 这里 f o p t f_{\mathrm{opt}} fopt f f f的最小值. 由 f f f σ \sigma σ-强凸性, f o p t ≤ f ( 1 2 x ~ + 1 2 x ^ ) ≤ 1 2 f ( x ~ ) + 1 2 f ( x ^ ) − σ 8 ∥ x ~ − x ^ ∥ 2 = f o p t − σ 8 ∥ x ~ − x ^ ∥ 2 , f_{\mathrm{opt}}\le f\left(\frac{1}{2}\tilde\mathbf{x}+\frac{1}{2}\hat\mathbf{x}\right)\le\frac{1}{2}f(\tilde\mathbf{x})+\frac{1}{2}f(\hat\mathbf{x})-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2=f_{\mathrm{opt}}-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2, foptf(21x~+21x^)21f(x~)+21f(x^)8σx~x^2=fopt8σx~x^2,表明 x ~ = x ^ \tilde\mathbf{x}=\hat\mathbf{x} x~=x^.

(ii) 设 x ∗ \mathbf{x}^* x是(i)中 f f f的唯一全局极小点. 由Fermat最优性条件, 0 ∈ ∂ f ( x ∗ ) \mathbf{0}\in\partial f(\mathbf{x}^*) 0f(x). 再由定理6的(ii), f ( x ) − f ( x ∗ ) ≥ ⟨ 0 , x − x ∗ ⟩ + σ 2 ∥ x − x ∗ ∥ 2 = σ 2 ∥ x − x ∗ ∥ 2 , ∀ x ∈ E . f(\mathbf{x})-f(\mathbf{x}^*)\ge\langle\mathbf{0},\mathbf{x-x}^*\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2=\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}. f(x)f(x)0,xx+2σxx2=2σxx2,xE.证毕.

3. 光滑性与强凸性的关系

3.1 共轭关联定理

光滑性与强凸性是靠共轭运算关联起来的. 粗略地讲, f f f σ \sigma σ-强凸函数当且仅当 f ∗ f^* f 1 σ \frac{1}{\sigma} σ1-光滑函数.

定理8 (共轭关联定理) 设 σ > 0 \sigma>0 σ>0. 则
(i) 若 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一 1 σ \frac{1}{\sigma} σ1-光滑凸函数, 则 f ∗ f^* f是对偶范数 ∥ ⋅ ∥ ∗ \Vert\cdot\Vert_* 下的 σ \sigma σ-强凸函数18;
(ii) 若 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]为一正常闭 σ \sigma σ-强凸函数, 则 f ∗ : E ∗ → R f^*:\mathbb{E}^*\to\mathbb{R} f:ER是对偶范数下的 1 σ \frac{1}{\sigma} σ1-光滑函数.

证明: (i) 假设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一 1 σ \frac{1}{\sigma} σ1-光滑凸函数. 任取 y 1 , y 2 ∈ d o m ( ∂ f ∗ ) ,   v 1 ∈ ∂ f ∗ ( y 1 ) ,   v 2 ∈ ∂ f ∗ ( y 2 ) \mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2) y1,y2dom(f),v1f(y1),v2f(y2). 根据第四章的共轭次梯度定理以及 f f f的正常闭凸性, 就有 y 1 ∈ ∂ f ( v 1 ) ,   y 2 ∈ ∂ f ( v 2 ) \mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2) y1f(v1),y2f(v2), 再由 f f f的可微性, 就有 y 1 = ∇ f ( v 1 ) ,   y 2 = ∇ f ( v 2 ) \mathbf{y}_1=\nabla f(\mathbf{v}_1),\,\mathbf{y}_2=\nabla f(\mathbf{v}_2) y1=f(v1),y2=f(v2). 由定理2(i)与(iv)的等价性, 有 ⟨ y 1 − y 2 , v 1 − v 2 ⟩ ≥ σ ∥ y 1 − y 2 ∥ ∗ 2 . \langle\mathbf{y}_1-\mathbf{y}_2,\mathbf{v}_1-\mathbf{v}_2\rangle\ge\sigma\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*^2. y1y2,v1v2σy1y22.因为这一不等式对 ∀ y 1 , y 2 ∈ d o m ( ∂ f ∗ ) ,   v 1 ∈ ∂ f ∗ ( y 1 ) ,   v 2 ∈ ∂ f ∗ ( y 2 ) \forall\mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2) y1,y2dom(f),v1f(y1),v2f(y2)都成立, 由定理6(i)和(iii)的等价性, 就推出 f ∗ f^* f是对偶范数下的 σ \sigma σ-强凸函数.

(ii) 设 f f f是正常闭 σ \sigma σ-强凸函数. 再由共轭次梯度定理(或其推论), ∂ f ∗ ( y ) = arg ⁡ max ⁡ x ∈ E { ⟨ x , y ⟩ − f ( x ) } , ∀ y ∈ E ∗ . \partial f^*(\mathbf{y})=\arg\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{x})\},\quad\forall\mathbf{y}\in\mathbb{E}^*. f(y)=argxEmax{x,yf(x)},yE.根据 f f f的闭强凸性以及定理7的(i), 我们推出对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, ∂ f ∗ ( y ) \partial f^*(\mathbf{y}) f(y)都是单点集. 于是根据第三章定理12, f ∗ f^* f在整个对偶空间 E ∗ \mathbb{E}^* E上就都是可微的. 现任取 y 1 , y 2 ∈ E ∗ \mathbf{y}_1,\mathbf{y}_2\in\mathbb{E}^* y1,y2E, 并记 v 1 = ∇ f ∗ ( y 1 ) ,   v 2 = ∇ f ∗ ( y 2 ) \mathbf{v}_1=\nabla f^*(\mathbf{y}_1),\,\mathbf{v}_2=\nabla f^*(\mathbf{y}_2) v1=f(y1),v2=f(y2). 再次利用共轭次梯度定理, 这些等式等价于 y 1 ∈ ∂ f ( v 1 ) ,   y 2 ∈ ∂ f ( v 2 ) \mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2) y1f(v1),y2f(v2). 由定理6(i)与(iii)的等价性以及广义Cauchy-Schwarz不等式, ∥ y 1 − y 2 ∥ ∗ ⋅ ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ ≥ ⟨ y 1 − y 2 , ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ⟩ ≥ σ ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ 2 , \Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*\cdot\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\ge\langle\mathbf{y}_1-\mathbf{y}_2,\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\rangle\ge\sigma\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert^2, y1y2f(y1)f(y2)y1y2,f(y1)f(y2)σf(y1)f(y2)2,于是 ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ ≤ 1 σ ∥ y 1 − y 2 ∥ ∗ . \Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\le\frac{1}{\sigma}\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*. f(y1)f(y2)σ1y1y2.

3.2 强凸函数的例子

类似于在第四章我们利用共轭运算得到了一些函数的凸性, 这里我们也可以利用共轭关联定理得到许多重要函数的强凸性.

例10 (单位单纯形上的负熵函数) 考虑函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]定义为 f ( x ) = { ∑ i = 1 n x i log ⁡ x i , x ∈ Δ n , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right. f(x)={i=1nxilogxi,,xΔn,.根据第四章第4.10节我们知道, 此函数的共轭是对数求和指数函数 f ∗ ( y ) = log ⁡ ( ∑ i = 1 n e y i ) f^*(\mathbf{y})=\log\left(\sum_{i=1}^ne^{y_i}\right) f(y)=log(i=1neyi)(从而使凸函数), 而这在例7中已经证明了, 是在 ℓ ∞ \ell_{\infty} -与 ℓ 2 \ell_2 2-范数下的 1 1 1-光滑函数. 由共轭关联定理, f f f就是 ℓ 1 \ell_1 1-和 ℓ 2 \ell_2 2-范数下的 1 1 1-强凸函数.

例11 (平方 ℓ p \ell_p p-范数, p ∈ ( 1 , 2 ] p\in(1,2] p(1,2]) 考虑函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 ∥ x ∥ p 2 ( p ∈ ( 1 , 2 ] ) f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2(p\in(1,2]) f(x)=21xp2(p(1,2]). 根据第四章第4.15节, f ∗ ( y ) = 1 2 ∥ y ∥ q 2 ,   q ≥ 2 : 1 p + 1 q = 1 f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert_q^2,\,q\ge2:\frac{1}{p}+\frac{1}{q}=1 f(y)=21yq2,q2:p1+q1=1. 由例5, f ∗ f^* f ℓ p \ell_p p-范数下的 ( q − 1 ) (q-1) (q1)-光滑函数, 再由共轭关联定理, 就有 f f f ℓ p \ell_p p-范数下的 1 q − 1 = ( p − 1 ) \frac{1}{q-1}=(p-1) q11=(p1)-强凸函数.

例12 ( ℓ 2 \ell_2 2-范数下半球面函数) 考虑下半球面函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,], f ( x ) = { − 1 − ∥ x ∥ 2 2 , ∥ x ∥ 2 ≤ 1 , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{x}\Vert_2^2}, & \Vert\mathbf{x}\Vert_2\le1,\\\infty, & 其它.\end{array}\right. f(x)={1x22 ,,x21,.根据第四章第4.13节, f f f的共轭函数是 f ∗ ( y ) = ∥ y ∥ 2 2 + 1 , f^*(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_2^2+1}, f(y)=y22+1 ,而例6告诉我们 f ∗ f^* f ℓ 2 \ell_2 2-范数下的 1 1 1-光滑函数. 因此由共轭关联定理, f f f ℓ 2 \ell_2 2-范数下的 1 1 1-强凸函数.

3.3 强凸参数计算小结

下表总结了本章碰到的所有强凸函数.

f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f)强凸参数范数例号
1 2 x T A x + 2 b T x + c   ( A ∈ S + + n ,   b ∈ R n ,   c ∈ R ) \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+2\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}) 21xTAx+2bTx+c(AS++n,bRn,cR) R n \mathbb{R}^n Rn λ min ⁡ ( A ) \lambda_{\min}(\mathbf{A}) λmin(A) ℓ 2 \ell_2 28
1 2 ∥ x ∥ 2 + δ C ( x )   ( ∅ ≠ C ⊂ E \frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21x2+δC(x)(=CE ) ) ) C C C 1 1 1欧式范数9
− 1 − ∥ x ∥ 2 2 -\sqrt{1-\Vert\mathbf{x}\Vert^2_2} 1x22 B ∥ ⋅ ∥ 2 [ 0 , 1 ] B_{\Vert\cdot\Vert_2}[\mathbf{0},1] B2[0,1] 1 1 1 ℓ 2 \ell_2 212
1 2 ∥ x ∥ p 2   ( p ∈ ( 1 , 2 ] ) \frac{1}{2}\Vert\mathbf{x}\Vert_p^2\,(p\in(1,2]) 21xp2(p(1,2]) R n \mathbb{R}^n Rn p − 1 p-1 p1 ℓ p \ell_p p11
∑ i = 1 n x i log ⁡ x i \sum_{i=1}^nx_i\log x_i i=1nxilogxi Δ n \Delta_n Δn 1 1 1 ℓ 2 \ell_2 2 ℓ 1 \ell_1 110

3.4 极小卷积的光滑性与可微性

本节我们将基于共轭关联定理, 证明在一定条件下, 一个凸函数和一个 L L L-光滑凸函数的极小卷积仍然是 L L L-光滑的. 特别地, 我们还将导出其梯度的表达式.

定理9 (极小卷积的光滑性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭凸函数, ω : E → R \omega:\mathbb{E}\to\mathbb{R} ω:ER为一 L L L-光滑凸函数. 假定 f □ ω f\square\omega fω是实值的. 则有以下结论成立:
(i) f □ ω f\square\omega fω L L L-光滑的;
(ii) 设 x ∈ E \mathbf{x}\in\mathbb{E} xE, 并假定 u ( x ) \mathbf{u(x)} u(x) min ⁡ u { f ( u ) + ω ( x − u ) } \min_{\mathbf{u}}\{f(\mathbf{u})+\omega(\mathbf{x-u})\} umin{f(u)+ω(xu)}的全局极小点. 则 ∇ ( f □ ω ) ( x ) = ∇ ω ( x − u ( x ) ) \nabla(f\square\omega)(\mathbf{x})=\nabla\omega(\mathbf{x-u(x)}) (fω)(x)=ω(xu(x)).

证明: (i) 根据第四章定理11, f □ ω = ( f ∗ + ω ∗ ) ∗ . f\square\omega=(f^*+\omega^*)^*. fω=(f+ω).又因为 f , ω f,\omega f,ω是正常闭凸函数, 根据第四章定理1和定理2, 就推出 f ∗ , ω ∗ f^*,\omega^* f,ω也是正常闭凸函数. 由共轭关联定理, ω ∗ \omega^* ω 1 L \frac{1}{L} L1-强凸函数. 因此, 由引理1, f ∗ + ω ∗ f^*+\omega^* f+ω 1 L \frac{1}{L} L1-强凸函数. 同时作为两个闭函数的和, 它也是闭函数. 为使用共轭关联定理, 我们还需证明它是正常函数. 事实上, 根据第四章定理9, ( f □ ω ) ∗ = f ∗ + ω ∗ . (f\square\omega)^*=f^*+\omega^*. (fω)=f+ω.因为极小卷积函数 f □ ω f\square\omega fω是正常凸函数, 因此根据第四章定理2, f ∗ + ω ∗ f^*+\omega^* f+ω是正常函数. 此时, f ∗ + ω ∗ f^*+\omega^* f+ω是正常闭 1 L \frac{1}{L} L1-强凸函数, 由共轭关联定理, 就有 f □ ω = ( f ∗ + ω ∗ ) ∗ f\square\omega=(f^*+\omega^*)^* fω=(f+ω) L L L-光滑函数.

(ii) 设 x ∈ E \mathbf{x}\in\mathbb{E} xE, ( f □ ω ) ( x ) = f ( u ( x ) ) + ω ( x − u ( x ) ) . (f\square\omega)(\mathbf{x})=f(\mathbf{u(x)})+\omega(\mathbf{x}-\mathbf{u(x)}). (fω)(x)=f(u(x))+ω(xu(x)). z ≡ ∇ ω ( x − u ( x ) ) \mathbf{z}\equiv\nabla\omega(\mathbf{x}-\mathbf{u(x)}) zω(xu(x)). 下证 ∇ ( f □ ω ) ( x ) = z \nabla(f\square\omega)(\mathbf{x})=\mathbf{z} (fω)(x)=z. 这需要我们证明 lim ⁡ ∥ ξ ∥ → 0 ∣ ϕ ( ξ ) ∣ / ∥ ξ ∥ = 0 \lim_{\Vert\bm{\xi}\Vert\to0}|\phi(\bm{\xi})|/\Vert\bm{\xi}\Vert=0 limξ0ϕ(ξ)/ξ=0, 其中 ϕ ( ξ ) ≡ ( f □ ω ) ( x + ξ ) − ( f □ ω ) ( x ) − ⟨ ξ , z ⟩ \phi(\bm{\xi})\equiv(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangle ϕ(ξ)(fω)(x+ξ)(fω)(x)ξ,z. 由极小卷积的定义, ( f □ ω ) ( x + ξ ) ≤ f ( u ( x ) ) + ω ( x + ξ − u ( x ) ) . (f\square\omega)(\mathbf{x+\bm{\xi}})\le f(\mathbf{u(x)})+\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)}). (fω)(x+ξ)f(u(x))+ω(x+ξu(x)).于是, ϕ ( ξ ) = ( f □ ω ) ( x + ξ ) − ( f □ ω ) ( x ) − ⟨ ξ , z ⟩ ≤ ω ( x + ξ − u ( x ) ) − ω ( x − u ( x ) ) − ⟨ ξ , z ⟩ ≤ ⟨ ξ , ∇ ω ( x + ξ − u ( x ) ) ⟩ − ⟨ ξ , z ⟩   ( ω 的 梯 度 不 等 式 ) = ⟨ ξ , ∇ ω ( x + ξ − u ( x ) ) − ∇ ω ( x − u ( x ) ) ⟩ ≤ ∥ ξ ∥ ⋅ ∥ ∇ ω ( x + ξ − u ( x ) ) − ∇ ω ( x − u ( x ) ) ∥ ∗ ≤ L ∥ ξ ∥ 2 .   ( ω 的 L − 光 滑 性 ) \begin{aligned}\phi(\bm{\xi})&=(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\omega(\mathbf{x}-\mathbf{u(x)})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})\rangle-\langle\bm{\xi},\mathbf{z}\rangle\:(\omega的梯度不等式)\\&=\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\rangle\\&\le\Vert\bm{\xi}\Vert\cdot\Vert\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\Vert_*\\&\le L\Vert\bm{\xi}\Vert^2.\:(\omega的L-光滑性)\end{aligned} ϕ(ξ)=(fω)(x+ξ)(fω)(x)ξ,zω(x+ξu(x))ω(xu(x))ξ,zξ,ω(x+ξu(x))ξ,z(ω)=ξ,ω(x+ξu(x))ω(xu(x))ξω(x+ξu(x))ω(xu(x))Lξ2.(ωL)下面仅需证明另一边: ϕ ( ξ ) ≥ − L ∥ ξ ∥ 2 \phi(\bm{\xi})\ge -L\Vert\bm{\xi}\Vert^2 ϕ(ξ)Lξ2. 因为 f □ ω f\square\omega fω是凸函数, 从而 ϕ \phi ϕ也是. 因为 ϕ ( 0 ) = 0 \phi(\mathbf{0})=0 ϕ(0)=0, 所以 0 = ϕ ( 0 ) ≤ ϕ ( ξ ) + ϕ ( − ξ ) ,   ∀ ξ 0=\phi(\mathbf{0})\le\phi(\bm{\xi})+\phi(-\bm{\xi}),\,\forall\bm{\xi} 0=ϕ(0)ϕ(ξ)+ϕ(ξ),ξ. 从而 ϕ ( ξ ) ≥ − ϕ ( − ξ ) ≥ − L ∥ ξ ∥ 2 \phi(\bm{\xi})\ge-\phi(-\bm{\xi})\ge-L\Vert\bm{\xi}\Vert^2 ϕ(ξ)ϕ(ξ)Lξ2.

例13 ( 1 2 d C 2 \frac{1}{2}d_C^2 21dC2 1 1 1-光滑性) 假设 E \mathbb{E} E是欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 考虑函数 φ C ( x ) = 1 2 d C 2 ( x ) \varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x}) φC(x)=21dC2(x). 我们已经在例3中证明了它是 1 1 1-光滑的. 这里我们再提供基于定理9的第二种证明. 因为 φ C = δ C □ h \varphi_C=\delta_C\square h φC=δCh, 其中 h ( x ) = 1 2 ∥ x ∥ 2 h(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 h(x)=21x2, 且 h h h为实值 1 1 1-光滑凸函数, δ C \delta_C δC为正常闭凸函数. 于是由定理9, φ C \varphi_C φC 1 1 1-光滑函数.


  1. 这里 ∥ A ∥ p , q = max ⁡ { ∥ A x ∥ q : ∥ x ∥ p ≤ 1 } \Vert\mathbf{A}\Vert_{p,q}=\max\{\Vert\mathbf{Ax}\Vert_q:\Vert\mathbf{x}\Vert_p\le1\} Ap,q=max{Axq:xp1}或可参见第一章. ↩︎

  2. 根据诱导范数的定义, 这样的 x ~ \tilde\mathbf{x} x~是存在的. ↩︎

  3. 事实上 ψ C \psi_C ψC的凸性并不需要 C C C是凸集; 但是投影算子的非增大性是需要的. ↩︎

  4. 从这一不等式我们可知, 下降引理实际上还告诉我们, 如果 ∇ f ( x ) \nabla f(\mathbf{x}) f(x) y − x \mathbf{y-x} yx成钝角且 ∥ x − y ∥ \Vert\mathbf{x-y}\Vert xy充分小, 则当 f f f x \mathbf{x} x移动到 y \mathbf{y} y时, 函数值至少下降 ⟨ ∇ f ( x ) , x − y ⟩ − L 2 ∥ x − y ∥ 2 \langle\nabla f(\mathbf{x}),\mathbf{x-y}\rangle-\frac{L}{2}\Vert\mathbf{x-y}\Vert^2 f(x),xy2Lxy2. 这也是为什么称这个引理为下降引理的原因. ↩︎

  5. 定理2中关于函数凸性的假设是很关键的. 考虑 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = − 1 2 ∥ x ∥ 2 2 f(\mathbf{x})=-\frac{1}{2}\Vert\mathbf{x}\Vert_2^2 f(x)=21x22. 它在 ℓ 2 \ell_2 2-范数下是 1 1 1-光滑的, 但不是 L L L-光滑的( L < 1 L<1 L<1, 见例1). 但由于 f f f是凹函数, 因此 f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle f(y)f(x)+f(x),yx, 这表明定理2的(ii)对 L = 0 L=0 L=0成立. 但显然 f f f并不是 0 0 0-光滑函数. ↩︎

  6. 这里的“全空间”假设是为了在处理时的方便. ↩︎

  7. 特别地, 我们有 ∇ g x ( x ) = 0 \nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0} gx(x)=0, 再结合 g x g_{\mathbf{x}} gx是凸函数, 我们推出 x \mathbf{x} x g x g_{\mathbf{x}} gx的全局极小点: g x ( x ) ≤ g x ( z ) , ∀ z ∈ E . g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}. gx(x)gx(z),zE. ↩︎

  8. 这里在 U U U上的二次连续可微意思是, f f f的二阶偏导数均在 U U U上连续. ↩︎

  9. 这里 [ x , y ] [\mathbf{x,y}] [x,y]是在第一章第五节中定义的闭线段, 而不是矩形盒. ↩︎

  10. 这里的“可微”, 是按第三章的定义4定义的可微, 内积是点积. ↩︎

  11. 这里欧式空间的假设是关键的. 例如, 考虑单位单纯形上的负熵函数 f ( x ) = { ∑ i = 1 n x i log ⁡ x i , x ∈ Δ n , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right. f(x)={i=1nxilogxi,,xΔn,.(之后我们会在例10中证明 f f f ℓ 1 \ell_1 1-范数下的 1 1 1-强凸函数) 注意 ℓ 1 \ell_1 1-范数与空间上的点积是不相容的. 这时函数 g ( x ) = f ( x ) − α ∥ x ∥ 1 2 g(\mathbf{x})=f(\mathbf{x})-\alpha\Vert\mathbf{x}\Vert_1^2 g(x)=f(x)αx12 ∀ α > 0 \forall\alpha>0 α>0都是凸函数. 这是因为在 f f f的有效域上恒有 ∥ x ∥ 1 = 1 \Vert\mathbf{x}\Vert_1=1 x1=1. 如果直接用定理5的结论, 会推出 f f f ∀ α > 0 \forall\alpha>0 α>0都是 α \alpha α-强凸函数. 但一个函数是不可能如此的. ↩︎

  12. 证明可见Jean-Baptiste Hiriart-Urruty与Claude Lemarechal的专著《Convex Analysis and Minimization Algorithms I》的第26页定理4.2.4 ↩︎

  13. 证明可见R. Tyrrell Rockafellar的专著《Convex Analysis》的第45页定理6.1 ↩︎

  14. 这表明 f f f以一个严格凸二次函数为下界. ↩︎

  15. (iii)与定理2的(iv)是十分相像的. 这也是建立光滑函数与强凸函数联系的关键. 而架起这一桥梁的是共轭运算. 这可见第四章的共轭次梯度定理. 详细的证明见定理8. ↩︎

  16. 存在性来自于线段原理. ↩︎

  17. 根据第二章定理10)定理10以及此一元函数闭凸. ↩︎

  18. f f f的有效域设成全空间是为了在使用 f ∗ f^* f次微分时遇到不必要的麻烦. 而 f f f实值其实是保证了 f f f是闭函数. ↩︎

  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
《凸分析与优化》是Bertsekas与Nedic以及E.书写的一本关于凸分析与优化的权威参考书。该书包含了凸分析与优化的基本概念、理论和算法,并且提供了很多实际应用的案例研究。 凸分析是数学中的一个重要分支,研究的是凸集、凸函数以及凸优化问题。凸集具有很多重要的性质,例如任意两点连线上的所有点都属于该凸集,这种性质在优化问题中具有重要的应用。凸函数是一类具有上凸性质的函数,具有很多重要的性质,例如全局最小值的存在和唯一性等。凸优化问题是指最小化或最大化一个凸函数的问题,它在数学理论和实际应用中都具有广泛的应用。 《凸分析与优化》系统地介绍了凸分析与优化的理论和算法,包括凸集、凸函数、凹函数、凸优化、线性规划、二次规划、非线性规划等内容。书中详细介绍了凸函数的性质、最优性条件、对偶性等重要概念,还介绍了常用的凸优化算法,如梯度下降法、牛顿法、内点法等。此外,书中还涉及了一些特殊的凸优化问题,如稀疏优化、凸优化的分布式求解等。 《凸分析与优化》的特点是理论与实践相结合,既提供了严格的数学证明,也提供了大量的实际案例和算法。这些案例和算法帮助读者更好地理解和应用凸分析与优化的理论知识。此外,书中还提供了大量的练习题和习题解答,供读者巩固和检验所学知识。 总之,《凸分析与优化》是一本权威而全面的关于凸分析与优化的参考书,对于数学、工程等领域的研究者和学习者来说,是一本不可或缺的重要书籍。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值