第五章: 光滑性与强凸性
文章目录
1. L L L-光滑性
定义1 ( L L L-光滑性) 设 L ≥ 0 L\ge0 L≥0. 我们称函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]在 D ⊂ E D\subset\mathbb{E} D⊂E上是 L L L-光滑的, 若它在 D D D上可微且满足 ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ ≤ L ∥ x − y ∥ , ∀ x , y ∈ D . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\le L\Vert\mathbf{x-y}\Vert,\quad\forall\mathbf{x,y}\in D. ∥∇f(x)−∇f(y)∥∗≤L∥x−y∥,∀x,y∈D.常数 L L L称作是光滑参数 (smoothness parameter). 从定义我们看出 L L L是与所选的范数有关的. 因此我们有时会刻意地说成, 在范数 ∥ ⋅ ∥ \Vert\cdot\Vert ∥⋅∥下的光滑参数.
显然由可微的定义, 若 f f f在集合 D ⊂ E D\subset\mathbb{E} D⊂E上 L L L-光滑, 则必有 D ⊂ i n t ( d o m f ) D\subset\mathrm{int(dom}f) D⊂int(domf); 若函数在全空间 E \mathbb{E} E上 L L L-光滑, 则我们就直接称其为 L L L-光滑函数. 在许多其他的文献中, D D D上的 L L L-光滑函数也常被称作“Lipschitz常数为 L L L的梯度Lipschitz连续函数”. 我们记 D D D上的 L L L-光滑函数全体为 C L 1 , 1 ( D ) C_L^{1,1}(D) CL1,1(D). 当 D = E D=\mathbb{E} D=E, 就简写为 C L 1 , 1 C_L^{1,1} CL1,1. 进一步, 记 C 1 , 1 = { f : ∃ L ≥ 0 , s.t. f ∈ C L 1 , 1 } . C^{1,1}=\left\{f:\exists L\ge0,\,\text{s.t. }f\in C_L^{1,1}\right\}. C1,1={f:∃L≥0,s.t. f∈CL1,1}.由 L L L-光滑性的定义, 显然有 C L 1 1 , 1 ⊂ C L 2 1 , 1 , L 2 ≥ L 1 C_{L_1}^{1,1}\subset C_{L_2}^{1,1},\,L_2\ge L_1 CL11,1⊂CL21,1,L2≥L1. 因此对某一给定函数, 使其 L L L-光滑的参数 L L L不止一个. 这些 L L L的全体组成的集合显然有下界 0 0 0, 从而必定有下确界. 但是定出这一给定函数的最小光滑参数则是一件不平凡的事, 也是一件有趣的事.
例1 (二次函数的光滑性) 考虑函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R定义为 f ( x ) = 1 2 x T A x + b T x + c f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c f(x)=21xTAx+bTx+c, 其中 A ∈ S n , b ∈ R n , c ∈ R \mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} A∈Sn,b∈Rn,c∈R. 假定 R n \mathbb{R}^n Rn上赋以了 ℓ p \ell_p ℓp-范数( 1 ≤ p ≤ ∞ 1\le p\le\infty 1≤p≤∞). 则对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n ∀x,y∈Rn, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ q = ∥ A x − A y ∥ q ≤ ∥ A ∥ p , q ∥ x − y ∥ p , \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_q=\Vert\mathbf{Ax-Ay}\Vert_q\le\Vert A\Vert_{p,q}\Vert\mathbf{x-y}\Vert_p, ∥∇f(x)−∇f(y)∥q=∥Ax−Ay∥q≤∥A∥p,q∥x−y∥p,1这里 q ∈ [ 1 , ∞ ] : 1 p + 1 q = 1 q\in[1,\infty]: \frac{1}{p}+\frac{1}{q}=1 q∈[1,∞]:p1+q1=1. 于是我们得到 f f f是 ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} ∥A∥p,q-光滑的. 下面我们证明 ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} ∥A∥p,q是 f f f的最小光滑参数. 为此只需证明对任一使 f f f L L L-光滑的 L L L都有 ∥ A ∥ p , q ≤ L \Vert\mathbf{A}\Vert_{p,q}\le L ∥A∥p,q≤L. 取向量 x ~ : ∥ x ~ ∥ p = 1 , ∥ A x ~ ∥ q = ∥ A ∥ p , q \tilde\mathbf{x}:\Vert\tilde\mathbf{x}\Vert_p=1,\,\Vert\mathbf{A\tilde x}\Vert_q=\Vert\mathbf{A}\Vert_{p,q} x~:∥x~∥p=1,∥Ax~∥q=∥A∥p,q2. 于是 ∥ A ∥ p , q = ∥ A x ~ ∥ q = ∥ ∇ f ( x ~ ) − ∇ f ( 0 ) ∥ q ≤ L ∥ x ~ − 0 ∥ p = L . \Vert\mathbf{A}\Vert_{p,q}=\Vert\mathbf{A\tilde x}\Vert_q=\Vert\nabla f(\tilde\mathbf{x})-\nabla f(\mathbf{0})\Vert_q\le L\Vert\mathbf{\tilde x-0}\Vert_p=L. ∥A∥p,q=∥Ax~∥q=∥∇f(x~)−∇f(0)∥q≤L∥x~−0∥p=L.
例2 (线性函数的 0 0 0-光滑性) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:E→R定义为 f ( x ) = ⟨ b , x ⟩ + c f(\mathbf{x})=\langle\mathbf{b,x}\rangle+c f(x)=⟨b,x⟩+c, 其中 b ∈ E ∗ , c ∈ R \mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R} b∈E∗,c∈R. 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} ∀x,y∈E, ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ = ∥ b − b ∥ ∗ = 0 ≤ 0 ∥ x − y ∥ . \Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*=\Vert\mathbf{b-b}\Vert_*=0\le0\Vert\mathbf{x-y}\Vert. ∥∇f(x)−∇f(y)∥∗=∥b−b∥∗=0≤0∥x−y∥.从而线性函数都是 0 0 0-光滑的. 0 0 0显然也是它们的最小光滑参数. 注意这一结论对任何范数都成立.
下面的例3与例4要用到正交投影算子的严格非增大性质(firm nonexpansiveness)与非增大性质(nonexpansiveness). 我们在此仅将其列出. 在下一章中我们将证明更一般化的结论.
定理1 设
E
\mathbb{E}
E为欧式空间,
C
⊂
E
C\subset\mathbb{E}
C⊂E为一非空闭凸集. 于是
(i) (严格非增大性) 对
∀
v
,
w
∈
E
\forall\mathbf{v,w}\in\mathbb{E}
∀v,w∈E,
⟨
P
C
(
v
)
−
P
C
(
w
)
,
v
−
w
⟩
≥
∥
P
C
(
v
)
−
P
C
(
w
)
∥
2
.
\langle P_C(\mathbf{v})-P_C(\mathbf{w}),\mathbf{v-w}\rangle\ge\Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert^2.
⟨PC(v)−PC(w),v−w⟩≥∥PC(v)−PC(w)∥2.(ii) (非增大性) 对
∀
v
,
w
∈
E
\forall\mathbf{v,w}\in\mathbb{E}
∀v,w∈E,
∥
P
C
(
v
)
−
P
C
(
w
)
∥
≤
∥
v
−
w
∥
.
\Vert P_C(\mathbf{v})-P_C(\mathbf{w})\Vert\le\Vert\mathbf{v-w}\Vert.
∥PC(v)−PC(w)∥≤∥v−w∥.
例3 ( 1 2 d C 2 \frac{1}{2}d_C^2 21dC2的 1 1 1-光滑性) 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} C⊂E为一非空闭凸集. 考虑函数 φ C ( x ) = 1 2 d C 2 ( x ) \varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x}) φC(x)=21dC2(x). 由第三章例9, φ C \varphi_C φC在全空间上可微且 ∇ φ C ( x ) = x − P C ( x ) \nabla\varphi_C(\mathbf{x})=\mathbf{x}-P_C(\mathbf{x}) ∇φC(x)=x−PC(x). 下面证明 φ C \varphi_C φC是 1 1 1-光滑的. 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} ∀x,y∈E, ∥ ∇ φ C ( x ) − ∇ φ C ( y ) ∥ 2 = ∥ x − y − P C ( x ) + P C ( y ) ∥ 2 = ∥ x − y ∥ 2 − 2 ⟨ P C ( x ) − P C ( y ) , x − y ⟩ + ∥ P C ( x ) − P C ( y ) ∥ 2 ≤ ∥ x − y ∥ 2 − 2 ∥ P C ( x ) − P C ( y ) ∥ 2 + ∥ P C ( x ) − P C ( y ) ∥ 2 ( ∵ 严 格 非 增 大 性 ) = ∥ x − y ∥ 2 − ∥ P C ( x ) − P C ( y ) ∥ 2 = ∥ x − y ∥ 2 . \begin{aligned}\Vert\nabla\varphi_C(\mathbf{x})-\nabla\varphi_C(\mathbf{y})\Vert^2&=\Vert\mathbf{x-y}-P_C(\mathbf{x})+P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2-2\langle P_C(\mathbf{x})-P_C(\mathbf{y}),\mathbf{x-y}\rangle+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&\le\Vert\mathbf{x-y}\Vert^2-2\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2+\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\:(\because 严格非增大性)\\&=\Vert\mathbf{x-y}\Vert^2-\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert^2\\&=\Vert\mathbf{x-y}\Vert^2.\end{aligned} ∥∇φC(x)−∇φC(y)∥2=∥x−y−PC(x)+PC(y)∥2=∥x−y∥2−2⟨PC(x)−PC(y),x−y⟩+∥PC(x)−PC(y)∥2≤∥x−y∥2−2∥PC(x)−PC(y)∥2+∥PC(x)−PC(y)∥2(∵严格非增大性)=∥x−y∥2−∥PC(x)−PC(y)∥2=∥x−y∥2.
例4 ( 1 2 ∥ ⋅ ∥ 2 − 1 2 d C 2 \frac{1}{2}\Vert\cdot\Vert^2-\frac{1}{2}d_C^2 21∥⋅∥2−21dC2的 1 1 1-光滑性) 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} C⊂E为一非空闭凸集. 考虑函数 ψ C ( x ) = 1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x ) \psi_C(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x}) ψC(x)=21∥x∥2−21dC2(x). 由第二章的例5, ψ C \psi_C ψC是凸函数3. 由上例, 1 2 d C 2 ( x ) \frac{1}{2}d_C^2(\mathbf{x}) 21dC2(x)可微, 且梯度为 x − P C ( x ) \mathbf{x}-P_C(\mathbf{x}) x−PC(x). 因此 ∇ ψ C ( x ) = x − ( x − P C ( x ) ) = P C ( x ) . \nabla\psi_C(\mathbf{x})=\mathbf{x}-(\mathbf{x}-P_C(\mathbf{x}))=P_C(\mathbf{x}). ∇ψC(x)=x−(x−PC(x))=PC(x).于是由投影算子的非增大性, 对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} ∀x,y∈E, ∥ ∇ ψ C ( x ) − ∇ ψ C ( y ) ∥ = ∥ P C ( x ) − P C ( y ) ∥ ≤ ∥ x − y ∥ . \Vert\nabla\psi_C(\mathbf{x})-\nabla\psi_C(\mathbf{y})\Vert=\Vert P_C(\mathbf{x})-P_C(\mathbf{y})\Vert\le\Vert\mathbf{x-y}\Vert. ∥∇ψC(x)−∇ψC(y)∥=∥PC(x)−PC(y)∥≤∥x−y∥.
1.1 下降引理
下面的下降引理告诉我们, L L L-光滑函数以某一二次函数为上界.
引理1 (下降引理) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为在一给定凸集
D
D
D上的
L
L
L-光滑函数
(
L
≥
0
)
(L\ge0)
(L≥0). 则对
∀
x
,
y
∈
D
\forall\mathbf{x,y}\in D
∀x,y∈D,
f
(
y
)
≤
f
(
x
)
+
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
L
2
∥
x
−
y
∥
2
.
f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2.
f(y)≤f(x)+⟨∇f(x),y−x⟩+2L∥x−y∥2.4
证明: 根据微积分基本定理,
f
(
y
)
−
f
(
x
)
=
∫
0
1
⟨
∇
f
(
x
+
t
(
y
−
x
)
)
,
y
−
x
⟩
d
t
.
f(\mathbf{y})-f(\mathbf{x})=\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x})),\mathbf{y-x}\rangle\,\mathrm{d}t.
f(y)−f(x)=∫01⟨∇f(x+t(y−x)),y−x⟩dt.因此,
f
(
y
)
−
f
(
x
)
=
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
∫
0
1
⟨
∇
f
(
x
+
t
(
y
−
x
)
)
−
∇
f
(
x
)
,
y
−
x
⟩
d
t
.
f(\mathbf{y})-f(\mathbf{x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t.
f(y)−f(x)=⟨∇f(x),y−x⟩+∫01⟨∇f(x+t(y−x))−∇f(x),y−x⟩dt.取模可得
∣
f
(
y
)
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
y
−
x
⟩
∣
=
∣
∫
0
1
⟨
∇
f
(
x
+
t
(
y
−
x
)
)
−
∇
f
(
x
)
,
y
−
x
⟩
d
t
∣
≤
∫
0
1
∣
⟨
∇
f
(
x
+
t
(
y
−
x
)
)
−
∇
f
(
x
)
,
y
−
x
⟩
∣
d
t
≤
∫
0
1
∥
∇
f
(
x
+
t
(
y
−
x
)
)
−
∇
f
(
x
)
∥
∗
⋅
∥
y
−
x
∥
d
t
≤
∫
0
1
t
L
∥
y
−
x
∥
2
d
t
=
L
2
∥
y
−
x
∥
2
.
\begin{aligned}|f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|&=\left|\int_0^1\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle\,\mathrm{d}t\right|\\&\le\int_0^1|\langle\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x}),\mathbf{y-x}\rangle|\,\mathrm{d}t\\&\le\int_0^1\Vert\nabla f(\mathbf{x}+t(\mathbf{y-x}))-\nabla f(\mathbf{x})\Vert_*\cdot\Vert\mathbf{y-x}\Vert\,\mathrm{d}t\\&\le\int_0^1tL\Vert\mathbf{y-x}\Vert^2\,\mathrm{d}t\\&=\frac{L}{2}\Vert\mathbf{y-x}\Vert^2.\end{aligned}
∣f(y)−f(x)−⟨∇f(x),y−x⟩∣=∣∣∣∣∫01⟨∇f(x+t(y−x))−∇f(x),y−x⟩dt∣∣∣∣≤∫01∣⟨∇f(x+t(y−x))−∇f(x),y−x⟩∣dt≤∫01∥∇f(x+t(y−x))−∇f(x)∥∗⋅∥y−x∥dt≤∫01tL∥y−x∥2dt=2L∥y−x∥2.
1.2 L L L-光滑函数的一阶等价刻画
当 f f f为凸函数5时, 下面的定理2给出了全空间上6 L L L-光滑函数的几种不同的一阶等价刻画. 值得注意的是, 在这种情形下, 1.1节中的下降引理同时也是使 f f f成为 L L L-光滑函数的充分条件.
定理2 (
L
L
L-光滑函数的一阶等价刻画) 设
f
:
E
→
R
f:\mathbb{E}\to\mathbb{R}
f:E→R为一可微凸函数. 设
L
>
0
L>0
L>0. 于是下面的四件事是等价的:
(i)
f
f
f是
L
L
L-光滑的;
(ii)
f
(
y
)
≤
f
(
x
)
+
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
L
2
∥
x
−
y
∥
2
,
∀
x
,
y
∈
E
f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E}
f(y)≤f(x)+⟨∇f(x),y−x⟩+2L∥x−y∥2,∀x,y∈E; (此即下降引理)
(iii)
f
(
y
)
≥
f
(
x
)
+
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
1
2
L
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
,
∀
x
,
y
∈
E
f(\mathbf{y})\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E}
f(y)≥f(x)+⟨∇f(x),y−x⟩+2L1∥∇f(x)−∇f(y)∥∗2,∀x,y∈E;
(iv)
⟨
∇
f
(
x
)
−
∇
f
(
y
)
,
x
−
y
⟩
≥
1
L
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
,
∀
x
,
y
∈
E
\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*^2,\,\forall\mathbf{x,y}\in\mathbb{E}
⟨∇f(x)−∇f(y),x−y⟩≥L1∥∇f(x)−∇f(y)∥∗2,∀x,y∈E;
(v)
f
(
λ
x
+
(
1
−
λ
)
y
)
≥
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
−
L
2
λ
(
1
−
λ
)
∥
x
−
y
∥
2
,
∀
x
,
y
∈
E
,
λ
∈
[
0
,
1
]
f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\ge\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{L}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1]
f(λx+(1−λ)y)≥λf(x)+(1−λ)f(y)−2Lλ(1−λ)∥x−y∥2,∀x,y∈E,λ∈[0,1].
证明: (i)
⇒
\Rightarrow
⇒(ii): 由下降引理即可得.
(ii)
⇒
\Rightarrow
⇒(iii): 假设(ii)成立. 注意到当
∇
f
(
x
)
=
∇
f
(
y
)
\nabla f(\mathbf{x})=\nabla f(\mathbf{y})
∇f(x)=∇f(y)时(iii)显然成立. 所以下面假设
∇
f
(
x
)
≠
∇
f
(
y
)
\nabla f(\mathbf{x})\ne\nabla f(\mathbf{y})
∇f(x)=∇f(y). 固定
x
∈
E
\mathbf{x}\in\mathbb{E}
x∈E, 考虑
g
x
(
y
)
=
f
(
y
)
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
y
−
x
⟩
,
y
∈
E
.
g_{\mathbf{x}}(\mathbf{y})=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle,\quad\mathbf{y}\in\mathbb{E}.
gx(y)=f(y)−f(x)−⟨∇f(x),y−x⟩,y∈E.7可以验证
g
x
g_{\mathbf{x}}
gx也满足(ii). 事实上, 对
∀
y
,
z
∈
E
\forall\mathbf{y,z}\in\mathbb{E}
∀y,z∈E,
g
x
(
z
)
=
f
(
z
)
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
z
−
x
⟩
≤
f
(
y
)
+
⟨
∇
f
(
y
)
,
z
−
y
⟩
+
L
2
∥
z
−
y
∥
2
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
z
−
x
⟩
=
f
(
y
)
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
⟨
∇
f
(
y
)
−
∇
f
(
x
)
,
z
−
y
⟩
+
L
2
∥
z
−
y
∥
2
=
g
x
(
y
)
+
⟨
∇
g
x
(
y
)
,
z
−
y
⟩
+
L
2
∥
z
−
y
∥
2
,
\begin{aligned}g_{\mathbf{x}}(\mathbf{z})&=f(\mathbf{z})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&\le f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{z-x}\rangle\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\langle\nabla f(\mathbf{y})-\nabla f(\mathbf{x}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})+\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{z-y}\rangle+\frac{L}{2}\Vert\mathbf{z-y}\Vert^2,\end{aligned}
gx(z)=f(z)−f(x)−⟨∇f(x),z−x⟩≤f(y)+⟨∇f(y),z−y⟩+2L∥z−y∥2−f(x)−⟨∇f(x),z−x⟩=f(y)−f(x)−⟨∇f(x),y−x⟩+⟨∇f(y)−∇f(x),z−y⟩+2L∥z−y∥2=gx(y)+⟨∇gx(y),z−y⟩+2L∥z−y∥2,注意到
∇
g
x
(
x
)
=
0
\nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0}
∇gx(x)=0, 再由
g
x
g_{\mathbf{x}}
gx的凸性, 即得
x
\mathbf{x}
x为
g
g
g的极小点:
g
x
(
x
)
≤
g
x
(
z
)
,
∀
z
∈
E
.
g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}.
gx(x)≤gx(z),∀z∈E.对
y
∈
E
\mathbf{y}\in\mathbb{E}
y∈E, 令
v
∈
E
\mathbf{v}\in\mathbb{E}
v∈E为满足
∥
v
∥
=
1
,
⟨
∇
g
x
(
y
)
,
v
⟩
=
∥
∇
g
x
(
y
)
∥
∗
\Vert\mathbf{v}\Vert=1,\,\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle=\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*
∥v∥=1,⟨∇gx(y),v⟩=∥∇gx(y)∥∗的向量. 令
z
=
y
−
∥
∇
g
x
(
y
)
∥
∗
L
v
\mathbf{z}=\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v}
z=y−L∥∇gx(y)∥∗v就有
0
=
g
x
(
x
)
≤
g
x
(
y
−
∥
∇
g
x
(
y
)
∥
∗
L
v
)
.
0=g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}\left(\mathbf{y}-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\mathbf{v}\right).
0=gx(x)≤gx(y−L∥∇gx(y)∥∗v).再利用
g
x
g_{\mathbf{x}}
gx的性质可得
0
=
g
x
(
x
)
≤
g
x
(
y
)
−
∥
∇
g
x
(
y
)
∥
∗
L
⟨
∇
g
x
(
y
)
,
v
⟩
+
1
2
L
∥
g
x
(
y
)
∥
∗
2
⋅
∥
v
∥
2
=
g
x
(
y
)
−
1
2
L
∥
∇
g
x
(
y
)
∥
∗
2
=
f
(
y
)
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
y
−
x
⟩
−
1
2
L
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
,
\begin{aligned}0&=g_{\mathbf{x}}(\mathbf{x})\\&\le g_{\mathbf{x}}(\mathbf{y})-\frac{\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert_*}{L}\langle\nabla g_{\mathbf{x}}(\mathbf{y}),\mathbf{v}\rangle+\frac{1}{2L}\Vert g_{\mathbf{x}}(\mathbf{y})\Vert_*^2\cdot\Vert\mathbf{v}\Vert^2\\&=g_{\mathbf{x}}(\mathbf{y})-\frac{1}{2L}\Vert\nabla g_{\mathbf{x}}(\mathbf{y})\Vert^2_*\\&=f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle-\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\end{aligned}
0=gx(x)≤gx(y)−L∥∇gx(y)∥∗⟨∇gx(y),v⟩+2L1∥gx(y)∥∗2⋅∥v∥2=gx(y)−2L1∥∇gx(y)∥∗2=f(y)−f(x)−⟨∇f(x),y−x⟩−2L1∥∇f(x)−∇f(y)∥∗2,这就证明了(iii).
(iii)
⇒
\Rightarrow
⇒(iv): 假设(iii)成立, 则对
(
x
,
y
)
(\mathbf{x,y})
(x,y)交替地有
f
(
y
)
≥
f
(
x
)
+
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
1
2
L
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
,
f
(
x
)
≥
f
(
y
)
+
⟨
∇
f
(
y
)
,
x
−
y
⟩
+
1
2
L
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
.
\begin{aligned}f(\mathbf{y})&\ge f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*,\\f(\mathbf{x})&\ge f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle+\frac{1}{2L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*.\end{aligned}
f(y)f(x)≥f(x)+⟨∇f(x),y−x⟩+2L1∥∇f(x)−∇f(y)∥∗2,≥f(y)+⟨∇f(y),x−y⟩+2L1∥∇f(x)−∇f(y)∥∗2.两式相加即得(iv).
(iv)
⇒
\Rightarrow
⇒(i): 假设(iv)成立. 不妨假设
∇
f
(
x
)
≠
∇
f
(
y
)
\nabla f(\mathbf{x})\ne\nabla f(\mathbf{y})
∇f(x)=∇f(y). 由推广的Cauchy-Schwarz不等式, 对
∀
x
,
y
∈
E
\forall\mathbf{x,y}\in\mathbb{E}
∀x,y∈E,
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
⋅
∥
x
−
y
∥
≥
⟨
∇
f
(
x
)
−
∇
f
(
y
)
,
x
−
y
⟩
≥
1
L
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
.
\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*\cdot\Vert\mathbf{x-y}\Vert\ge\langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\ge\frac{1}{L}\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert^2_*.
∥∇f(x)−∇f(y)∥∗⋅∥x−y∥≥⟨∇f(x)−∇f(y),x−y⟩≥L1∥∇f(x)−∇f(y)∥∗2.两边同除
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
\Vert\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\Vert_*
∥∇f(x)−∇f(y)∥∗再同乘
L
L
L即得(i).
至此, 我们已证明了(i),(ii),(iii)和(iv)的等价性. 为证明(v)与这四条等价, 下面我们证明(ii)
⇔
\Leftrightarrow
⇔(v).
(ii)
⇒
\Rightarrow
⇒(v): 设
x
,
y
∈
E
,
λ
∈
[
0
,
1
]
\mathbf{x,y}\in\mathbb{E},\,\lambda\in[0,1]
x,y∈E,λ∈[0,1]. 记
x
λ
=
λ
x
+
(
1
−
λ
)
y
\mathbf{x}_{\lambda}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y}
xλ=λx+(1−λ)y. 由(ii),
f
(
x
)
≤
f
(
x
λ
)
+
⟨
∇
f
(
x
λ
)
,
x
−
x
λ
⟩
+
L
2
∥
x
−
x
λ
∥
2
,
f
(
y
)
≤
f
(
x
λ
)
+
⟨
∇
f
(
x
λ
)
,
y
−
x
λ
⟩
+
L
2
∥
y
−
x
λ
∥
2
,
\begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{x-x}_{\lambda}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}_{\lambda}\rangle+\frac{L}{2}\Vert\mathbf{y-x}_{\lambda}\Vert^2,\end{aligned}
f(x)f(y)≤f(xλ)+⟨∇f(xλ),x−xλ⟩+2L∥x−xλ∥2,≤f(xλ)+⟨∇f(xλ),y−xλ⟩+2L∥y−xλ∥2,这等同于
f
(
x
)
≤
f
(
x
λ
)
+
(
1
−
λ
)
⟨
∇
f
(
x
λ
)
,
x
−
y
⟩
+
L
(
1
−
λ
)
2
2
∥
x
−
y
∥
2
,
f
(
y
)
≤
f
(
x
λ
)
+
λ
⟨
∇
f
(
x
λ
)
,
y
−
x
⟩
+
L
λ
2
2
∥
x
−
y
∥
2
,
\begin{aligned}f(\mathbf{x})&\le f(\mathbf{x}_{\lambda})+(1-\lambda)\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{x-y}\rangle+\frac{L(1-\lambda)^2}{2}\Vert\mathbf{x-y}\Vert^2,\\f(\mathbf{y})&\le f(\mathbf{x}_{\lambda})+\lambda\langle\nabla f(\mathbf{x}_{\lambda}),\mathbf{y-x}\rangle+\frac{L\lambda^2}{2}\Vert\mathbf{x-y}\Vert^2,\end{aligned}
f(x)f(y)≤f(xλ)+(1−λ)⟨∇f(xλ),x−y⟩+2L(1−λ)2∥x−y∥2,≤f(xλ)+λ⟨∇f(xλ),y−x⟩+2Lλ2∥x−y∥2,再在第一个不等式两边同乘
λ
\lambda
λ, 第二个不等式两边同乘
1
−
λ
1-\lambda
1−λ, 二者再相加即得(v).
(v)
⇒
\Rightarrow
⇒(ii): 重新整理(v)可得
f
(
y
)
≤
f
(
x
)
+
f
(
x
+
(
1
−
λ
)
(
y
−
x
)
)
−
f
(
x
)
1
−
λ
+
L
2
λ
∥
x
−
y
∥
2
.
f(\mathbf{y})\le f(\mathbf{x})+\frac{f(\mathbf{x}+(1-\lambda)(\mathbf{y-x}))-f(\mathbf{x})}{1-\lambda}+\frac{L}{2}\lambda\Vert\mathbf{x-y}\Vert^2.
f(y)≤f(x)+1−λf(x+(1−λ)(y−x))−f(x)+2Lλ∥x−y∥2.令
λ
→
1
−
1
\lambda\to1^{-1}
λ→1−1, 则推出
f
(
y
)
≤
f
(
x
)
+
f
′
(
x
;
y
−
x
)
+
L
2
∥
x
−
y
∥
2
.
f(\mathbf{y})\le f(\mathbf{x})+f'(\mathbf{x;y-x})+\frac{L}{2}\Vert\mathbf{x-y}\Vert^2.
f(y)≤f(x)+f′(x;y−x)+2L∥x−y∥2.根据第三章定理11,
f
′
(
x
;
y
−
x
)
=
⟨
∇
f
(
x
)
,
y
−
x
⟩
f'(\mathbf{x;y-x})=\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle
f′(x;y−x)=⟨∇f(x),y−x⟩. 即得(ii).
下面的例子需要用到多元函数的微分中值定理.
定理3 (多元函数的微分中值定理) 设 f : U → R f:U\to\mathbb{R} f:U→R为开集 U ⊂ R n U\subset\mathbb{R}^n U⊂Rn上的二次连续可微函数8. 设 x ∈ U , r > 0 \mathbf{x}\in U,\,r>0 x∈U,r>0满足 B ( x , r ) ⊂ U B(\mathbf{x},r)\subset U B(x,r)⊂U. 则对 ∀ y ∈ B ( x , r ) \forall\mathbf{y}\in B(\mathbf{x},r) ∀y∈B(x,r), ∃ ξ ∈ [ x , y ] \exists\bm{\xi}\in[\mathbf{x,y}] ∃ξ∈[x,y]9, 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇f(ξ)(y−x).
例5 ( ℓ p \ell_p ℓp-范数函数平方之一半的 ( p − 1 ) (p-1) (p−1)-光滑性) 考虑凸函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R定义为 f ( x ) = 1 2 ∥ x ∥ p 2 = 1 2 ( ∑ i = 1 n ∣ x i ∣ p ) 2 p , f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2=\frac{1}{2}\left(\sum_{i=1}^n|x_i|^p\right)^{\frac{2}{p}}, f(x)=21∥x∥p2=21(i=1∑n∣xi∣p)p2,这里 p ∈ [ 2 , ∞ ) p\in[2,\infty) p∈[2,∞). 下面我们证明 f f f在 ℓ p \ell_p ℓp-范数下是 ( p − 1 ) (p-1) (p−1)-光滑的. 当 p = 2 p=2 p=2时, 结论成立(见例1). 因此下面假设 p > 2 p>2 p>2. 由于 f f f是凸函数, 因此我们想要利用定理2去证明结论. 为此, 先计算 f f f的偏导数与二阶偏导数: ∂ f ∂ x i ( x ) = { s g n ( x i ) ∣ x i ∣ p − 1 ∥ x ∥ p p − 2 , x ≠ 0 , 0 , x = 0 , \frac{\partial f}{\partial x_i}(\mathbf{x})=\left\{\begin{array}{ll}\mathrm{sgn}(x_i)\frac{|x_i|^{p-1}}{\Vert\mathbf{x}\Vert_p^{p-2}}, & \mathbf{x\ne0},\\0, & \mathbf{x=0},\end{array}\right. ∂xi∂f(x)={sgn(xi)∥x∥pp−2∣xi∣p−1,0,x=0,x=0,注意到 f f f的偏导数在 R n \mathbb{R}^n Rn上连续, 因此 f f f在 R n \mathbb{R}^n Rn上可微10. 在 x ≠ 0 \mathbf{x\ne0} x=0的点处 f f f有二阶偏导数: ∂ 2 f ∂ x i ∂ x j ( x ) = { ( 2 − p ) s g n ( x j ) ∣ x i ∣ p − 1 ∣ x j ∣ p − 1 ∥ x ∥ p 2 p − 2 , i ≠ j , ( p − 1 ) ∣ x i ∣ p − 2 ∥ x ∥ p p − 2 + ( 2 − p ) ∣ x i ∣ 2 p − 2 ∥ x ∥ p 2 p − 2 , i = j . \frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}(2-p)\mathrm{sgn}(x_j)\frac{|x_i|^{p-1}|x_j|^{p-1}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i\ne j,\\(p-1)\frac{|x_i|^{p-2}}{\Vert\mathbf{x}\Vert_p^{p-2}}+(2-p)\frac{|x_i|^{2p-2}}{\Vert\mathbf{x}\Vert_p^{2p-2}}, & i=j.\end{array}\right. ∂xi∂xj∂2f(x)=⎩⎨⎧(2−p)sgn(xj)∥x∥p2p−2∣xi∣p−1∣xj∣p−1,(p−1)∥x∥pp−2∣xi∣p−2+(2−p)∥x∥p2p−2∣xi∣2p−2,i=j,i=j.易知 f f f的二阶偏导数在 ∀ x ≠ 0 \forall\mathbf{x\ne0} ∀x=0处是连续的. 下面我们证明 f f f对 L = p − 1 L=p-1 L=p−1满足定理2的(ii). 设 x , y ∈ R n : 0 ∉ [ x , y ] \mathbf{x,y}\in\mathbb{R}^n:\mathbf{0}\notin[\mathbf{x,y}] x,y∈Rn:0∈/[x,y]. 于是由微分中值定理, 取 U U U为包含 [ x , y ] [\mathbf{x,y}] [x,y]但不包含 0 \mathbf{0} 0的开集, 存在 ξ ∈ [ x , y ] \bm{\xi}\in[\mathbf{x,y}] ξ∈[x,y], 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(ξ)(y−x).只需证 d T ∇ 2 f ( ξ ) d ≤ ( p − 1 ) ∥ d ∥ p 2 , ∀ d ∈ R n \mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2,\,\forall\mathbf{d}\in\mathbb{R}^n dT∇2f(ξ)d≤(p−1)∥d∥p2,∀d∈Rn. 由于 ∇ 2 f ( t ξ ) = ∇ 2 f ( ξ ) , ∀ t ∈ R ∖ { 0 } \nabla^2f(t\bm{\xi})=\nabla^2f(\bm{\xi}),\,\forall t\in\mathbb{R}\setminus\{0\} ∇2f(tξ)=∇2f(ξ),∀t∈R∖{0}, 因此我们不妨假设 ∥ ξ ∥ p = 1 \Vert\bm{\xi}\Vert_p=1 ∥ξ∥p=1. 现对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n ∀d∈Rn, d T ∇ 2 f ( ξ ) d = ( 2 − p ) ∥ ξ ∥ p 2 − 2 p ( ∑ i = 1 n ∣ ξ i ∣ p − 1 s g n ( ξ i ) d i ) 2 + ( p − 1 ) ∥ ξ ∥ p 2 − p ∑ i = 1 n ∣ ξ i ∣ p − 2 d i 2 ≤ ( p − 1 ) ∥ ξ ∥ p 2 − p ∑ i = 1 n ∣ ξ i ∣ p − 1 d i 2 , \begin{aligned}\mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}&=(2-p)\Vert\bm{\xi}\Vert_p^{2-2p}\left(\sum_{i=1}^n|\xi_i|^{p-1}\mathrm{sgn}(\xi_i)d_i\right)^2+(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-2}d_i^2\\&\le(p-1)\Vert\bm{\xi}\Vert_p^{2-p}\sum_{i=1}^n|\xi_i|^{p-1}d_i^2,\end{aligned} dT∇2f(ξ)d=(2−p)∥ξ∥p2−2p(i=1∑n∣ξi∣p−1sgn(ξi)di)2+(p−1)∥ξ∥p2−pi=1∑n∣ξi∣p−2di2≤(p−1)∥ξ∥p2−pi=1∑n∣ξi∣p−1di2,这里最后一个不等式是由于 p > 2 p>2 p>2. 根据Cauchy-Schwarz不等式, ∑ i = 1 n ∣ ξ i ∣ p − 2 d i 2 ≤ ( ∑ i = 1 n ( ∣ ξ i ∣ p − 2 ) p p − 2 ) p − 2 p ( ∑ i = 1 n ( d i 2 ) p 2 ) 2 p = ( ∑ i = 1 n ∣ ξ i ∣ p ) p − 2 p ( ∑ i = 1 n ∣ d i ∣ p ) 2 p = ∥ d ∥ p 2 . \sum_{i=1}^n|\xi_i|^{p-2}d_i^2\le\left(\sum_{i=1}^n\left(|\xi_i|^{p-2}\right)^{\frac{p}{p-2}}\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n\left(d_i^2\right)^{\frac{p}{2}}\right)^{\frac{2}{p}}=\left(\sum_{i=1}^n|\xi_i|^p\right)^{\frac{p-2}{p}}\left(\sum_{i=1}^n|d_i|^p\right)^{\frac{2}{p}}=\Vert\mathbf{d}\Vert_p^2. i=1∑n∣ξi∣p−2di2≤(i=1∑n(∣ξi∣p−2)p−2p)pp−2(i=1∑n(di2)2p)p2=(i=1∑n∣ξi∣p)pp−2(i=1∑n∣di∣p)p2=∥d∥p2.于是, 对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n ∀d∈Rn, d T ∇ 2 f ( ξ ) d ≤ ( p − 1 ) ∥ d ∥ p 2 . \mathbf{d}^T\nabla^2f(\bm{\xi})\mathbf{d}\le(p-1)\Vert\mathbf{d}\Vert_p^2. dT∇2f(ξ)d≤(p−1)∥d∥p2.若 0 ∈ [ x , y ] \mathbf{0}\in[\mathbf{x,y}] 0∈[x,y], 则取一列 { y k } k ≥ 0 \{\mathbf{y}_k\}_{k\ge0} {yk}k≥0收敛到 y \mathbf{y} y, 同时又有 0 ∉ [ x , y k ] \mathbf{0}\notin[\mathbf{x,y}_k] 0∈/[x,yk]. 因此由已有的结论, 对 ∀ k ≥ 0 \forall k\ge0 ∀k≥0, f ( y k ) ≤ f ( x ) + ∇ f ( x ) T ( y k − x ) + p − 1 2 ∥ x − y k ∥ p 2 . f(\mathbf{y}_k)\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y}_k-\mathbf{x})+\frac{p-1}{2}\Vert\mathbf{x-y}_k\Vert_p^2. f(yk)≤f(x)+∇f(x)T(yk−x)+2p−1∥x−yk∥p2.在不等式两边令 k → ∞ k\to\infty k→∞并利用 f f f的连续性即得证.
1.3 L L L-光滑函数的二阶等价刻画
下面考虑 E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 范数为 ℓ p \ell_p ℓp-范数( p ≥ 1 p\ge1 p≥1). 对 R n \mathbb{R}^n Rn上的二次连续可微函数, 我们可通过其Hessian矩阵的范数刻画其 L L L-光滑性.
定理4 (
L
L
L-光滑性与Hessian矩阵范数的有界性) 设
f
:
R
n
→
R
f:\mathbb{R}^n\to\mathbb{R}
f:Rn→R为
R
n
\mathbb{R}^n
Rn上的二次连续可微函数. 对一给定
L
≥
0
L\ge0
L≥0, 下面两件事是等价的:
(i)
f
f
f在
ℓ
p
\ell_p
ℓp-范数(
p
∈
[
1
,
∞
]
p\in[1,\infty]
p∈[1,∞])下是
L
L
L-光滑的;
(ii)
∥
∇
2
f
(
x
)
∥
p
,
q
≤
L
,
∀
x
∈
R
n
\Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n
∥∇2f(x)∥p,q≤L,∀x∈Rn, 这里
q
∈
[
1
,
∞
]
:
1
p
+
1
q
=
1
q\in[1,\infty]:\frac{1}{p}+\frac{1}{q}=1
q∈[1,∞]:p1+q1=1.
证明: (ii)
⇒
\Rightarrow
⇒(i): 假设
∥
∇
2
f
(
x
)
∥
p
,
q
≤
L
,
∀
x
∈
R
n
\Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n
∥∇2f(x)∥p,q≤L,∀x∈Rn. 由微积分基本定理, 对
∀
x
,
y
∈
R
n
\forall\mathbf{x,y}\in\mathbb{R}^n
∀x,y∈Rn,
∇
f
(
y
)
=
∇
f
(
x
)
+
∫
0
1
∇
2
f
(
x
+
t
(
y
−
x
)
)
(
y
−
x
)
d
t
=
∇
f
(
x
)
+
(
∫
0
1
∇
2
f
(
x
+
t
(
y
−
x
)
)
d
t
)
⋅
(
y
−
x
)
.
\begin{aligned}\nabla f(\mathbf{y})&=\nabla f(\mathbf{x})+\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))(\mathbf{y-x})\,\mathrm{d}t\\&=\nabla f(\mathbf{x})+\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x}).\end{aligned}
∇f(y)=∇f(x)+∫01∇2f(x+t(y−x))(y−x)dt=∇f(x)+(∫01∇2f(x+t(y−x))dt)⋅(y−x).于是
∥
∇
f
(
y
)
−
∇
f
(
x
)
∥
q
=
∥
(
∫
0
1
∇
2
f
(
x
+
t
(
y
−
x
)
)
d
t
)
⋅
(
y
−
x
)
∥
q
≤
∥
∫
0
1
∇
2
f
(
x
+
t
(
y
−
x
)
)
d
t
∥
p
,
q
⋅
∥
y
−
x
∥
p
≤
(
∫
0
1
∥
∇
2
f
(
x
+
t
(
y
−
x
)
)
∥
p
,
q
d
t
)
⋅
∥
y
−
x
∥
p
≤
L
∥
y
−
x
∥
p
,
\begin{aligned}\Vert\nabla f(\mathbf{y})-\nabla f(\mathbf{x})\Vert_q&=\left\Vert\left(\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right)\cdot(\mathbf{y-x})\right\Vert_q\\ &\le\left\Vert\int_0^1\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\,\mathrm{d}t\right\Vert_{p,q}\cdot\Vert\mathbf{y-x}\Vert_p\\ &\le\left(\int_0^1\left\Vert\nabla^2f(\mathbf{x}+t(\mathbf{y-x}))\right\Vert_{p,q}\,\mathrm{d}t\right)\cdot\Vert\mathbf{y-x}\Vert_p\\&\le L\Vert\mathbf{y-x}\Vert_p,\end{aligned}
∥∇f(y)−∇f(x)∥q=∥∥∥∥(∫01∇2f(x+t(y−x))dt)⋅(y−x)∥∥∥∥q≤∥∥∥∥∫01∇2f(x+t(y−x))dt∥∥∥∥p,q⋅∥y−x∥p≤(∫01∥∥∇2f(x+t(y−x))∥∥p,qdt)⋅∥y−x∥p≤L∥y−x∥p,这就证明了(i).
(i)
⇒
\Rightarrow
⇒(ii): 假设
f
f
f在
ℓ
p
\ell_p
ℓp-范数下
L
L
L-光滑. 再次由微积分基本定理, 对
∀
d
∈
R
n
,
α
>
0
\forall\mathbf{d}\in\mathbb{R}^n,\,\alpha>0
∀d∈Rn,α>0,
∇
f
(
x
+
α
d
)
−
∇
f
(
x
)
=
∫
0
α
∇
2
f
(
x
+
t
d
)
d
d
t
.
\nabla f(\mathbf{x}+\alpha\mathbf{d})-\nabla f(\mathbf{x})=\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\mathbf{d}\,\mathrm{d}t.
∇f(x+αd)−∇f(x)=∫0α∇2f(x+td)ddt.因此,
∥
(
∫
0
α
∇
2
f
(
x
+
t
d
)
d
t
)
d
∥
q
≤
α
L
∥
d
∥
p
.
\left\Vert\left(\int_0^{\alpha}\nabla^2f(\mathbf{x}+t\mathbf{d})\,\mathrm{d}t\right)\mathbf{d}\right\Vert_q\le\alpha L\Vert\mathbf{d}\Vert_p.
∥∥∥∥(∫0α∇2f(x+td)dt)d∥∥∥∥q≤αL∥d∥p.同除
α
\alpha
α并令
α
→
0
+
\alpha\to0^+
α→0+, 就有
∥
∇
2
f
(
x
)
d
∥
q
≤
L
∥
d
∥
p
,
∀
d
∈
R
n
,
\Vert\nabla^2f(\mathbf{x})\mathbf{d}\Vert_q\le L\Vert\mathbf{d}\Vert_p,\quad\forall\mathbf{d}\in\mathbb{R}^n,
∥∇2f(x)d∥q≤L∥d∥p,∀d∈Rn,这表明
∥
∇
2
f
(
x
)
∥
p
,
q
≤
L
,
∀
x
∈
R
n
\Vert\nabla^2f(\mathbf{x})\Vert_{p,q}\le L,\,\forall\mathbf{x}\in\mathbb{R}^n
∥∇2f(x)∥p,q≤L,∀x∈Rn.
定理4的直接推论是, 对于二次连续可微的凸函数, 在 ℓ 2 \ell_2 ℓ2-范数下的 L L L-光滑性等价于其Hessian矩阵的最大特征值小于等于 L L L.
推论1 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R为 R n \mathbb{R}^n Rn上二次连续可微的凸函数. 则 f f f在 ℓ 2 \ell_2 ℓ2-范数下 L L L-光滑等价于 λ max ( ∇ 2 f ( x ) ) ≤ L , ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le L,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(∇2f(x))≤L,∀x∈Rn.
证明: 因 f f f是凸函数, 所以 ∇ 2 f ( x ) ⪰ 0 , ∀ x ∈ R n \nabla^2f(\mathbf{x})\succeq\mathbf{0},\,\forall\mathbf{x}\in\mathbb{R}^n ∇2f(x)⪰0,∀x∈Rn. 此时 ∥ ∇ 2 f ( x ) ∥ 2 , 2 = λ max ( ( ∇ 2 f ( x ) ) 2 ) = λ max ( ∇ 2 f ( x ) ) . \Vert\nabla^2f(\mathbf{x})\Vert_{2,2}=\sqrt{\lambda_{\max}\left((\nabla^2f(\mathbf{x}))^2\right)}=\lambda_{\max}\left(\nabla^2f(\mathbf{x})\right). ∥∇2f(x)∥2,2=λmax((∇2f(x))2)=λmax(∇2f(x)).再结合定理4, 就得证.
例6 ( 1 + ∥ ⋅ ∥ 2 2 \sqrt{1+\Vert\cdot\Vert_2^2} 1+∥⋅∥22在 ℓ 2 \ell_2 ℓ2-范数下的 1 1 1-光滑性) 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R为如下的凸函数 f ( x ) = 1 + ∥ x ∥ 2 2 . f(\mathbf{x})=\sqrt{1+\Vert\mathbf{x}\Vert_2^2}. f(x)=1+∥x∥22.对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n ∀x∈Rn, ∇ f ( x ) = x ∥ x ∥ 2 2 + 1 , ∇ 2 f ( x ) = 1 ∥ x ∥ 2 2 + 1 I − x x T ( ∥ x ∥ 2 2 + 1 ) 3 / 2 ⪯ I . \nabla f(\mathbf{x})=\frac{\mathbf{x}}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}},\,\nabla^2f(\mathbf{x})=\frac{1}{\sqrt{\Vert\mathbf{x}\Vert_2^2+1}}\mathbf{I}-\frac{\mathbf{xx}^T}{\left(\Vert\mathbf{x}\Vert_2^2+1\right)^{3/2}}\preceq\mathbf{I}. ∇f(x)=∥x∥22+1x,∇2f(x)=∥x∥22+11I−(∥x∥22+1)3/2xxT⪯I.从而有 λ max ( ∇ 2 f ( x ) ) ≤ 1 , ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(∇2f(x))≤1,∀x∈Rn. 根据推论1, 可知 f f f在 ℓ 2 \ell_2 ℓ2-范数下 1 1 1-光滑.
例7 (对数求和指数函数在 ℓ 2 \ell_2 ℓ2-, ℓ ∞ \ell_{\infty} ℓ∞-范数下的 1 1 1-光滑性) 考虑对数求和指数函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R: f ( x ) = log ( e x 1 + e x 2 + ⋯ + e x n ) . f(\mathbf{x})=\log(e^{x_1}+e^{x_2}+\cdots+e^{x_n}). f(x)=log(ex1+ex2+⋯+exn).首先考虑 ℓ 2 \ell_2 ℓ2-范数. f f f的一阶偏导数为 ∂ f ∂ x i ( x ) = e x i ∑ k = 1 n e x k , i = 1 , 2 , … , n , \frac{\partial f}{\partial x_i}(\mathbf{x})=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}},\quad i=1,2,\ldots,n, ∂xi∂f(x)=∑k=1nexkexi,i=1,2,…,n,二阶偏导数为 ∂ 2 f ∂ x i ∂ x j ( x ) = { − e x i e x j ( ∑ k = 1 n e x k ) 2 , i ≠ j , − e 2 x i ( ∑ k = 1 n e x k ) 2 + e x i ∑ k = 1 n e x k , i = j . \frac{\partial^2f}{\partial x_i\partial x_j}(\mathbf{x})=\left\{\begin{array}{ll}-\frac{e^{x_i}e^{x_j}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}, & i\ne j,\\-\frac{e^{2x_i}}{\left(\sum_{k=1}^ne^{x_k}\right)^2}+\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}}, & i=j.\end{array}\right. ∂xi∂xj∂2f(x)=⎩⎨⎧−(∑k=1nexk)2exiexj,−(∑k=1nexk)2e2xi+∑k=1nexkexi,i=j,i=j.于是Hessian矩阵可以写作 ∇ 2 f ( x ) = d i a g ( w ) − w w T ≻ 0 , \nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\succ\mathbf{0}, ∇2f(x)=diag(w)−wwT≻0,这里 w i = e x i ∑ k = 1 n e x k w_i=\frac{e^{x_i}}{\sum_{k=1}^ne^{x_k}} wi=∑k=1nexkexi. 注意到对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n ∀x∈Rn, ∇ 2 f ( x ) = d i a g ( w ) − w w T ⪯ d i a g ( w ) ⪯ I , \nabla^2f(\mathbf{x})=\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\preceq\mathrm{diag}(\mathbf{w})\preceq\mathbf{I}, ∇2f(x)=diag(w)−wwT⪯diag(w)⪯I,因此 λ max ( ∇ 2 f ( x ) ) ≤ 1 , ∀ x ∈ R n \lambda_{\max}\left(\nabla^2f(\mathbf{x})\right)\le1,\,\forall\mathbf{x}\in\mathbb{R}^n λmax(∇2f(x))≤1,∀x∈Rn. 再因 f f f的Hessian矩阵正定, 因此 f f f是凸函数, 由推论1即得 f f f在 ℓ 2 \ell_2 ℓ2-范数下是 1 1 1-光滑的.
下证 ℓ ∞ \ell_{\infty} ℓ∞-范数的情形. 我们首先证明对 ∀ d ∈ R n \forall\mathbf{d}\in\mathbb{R}^n ∀d∈Rn, d T ∇ 2 f ( x ) d ≤ ∥ d ∥ ∞ 2 . \mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}\le\Vert\mathbf{d}\Vert_{\infty}^2. dT∇2f(x)d≤∥d∥∞2.事实上, d T ∇ 2 f ( x ) d = d T ( d i a g ( w ) − w w T ) d = d T d i a g ( w ) d − ( w T d ) 2 ≤ d T d i a g ( w ) d = ∑ i = 1 n w i d i 2 ≤ ∥ d ∥ ∞ 2 ∑ i = 1 n w i = ∥ d ∥ ∞ 2 . \begin{aligned}\mathbf{d}^T\nabla^2f(\mathbf{x})\mathbf{d}&=\mathbf{d}^T\left(\mathrm{diag}(\mathbf{w})-\mathbf{ww}^T\right)\mathbf{d}=\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}-\left(\mathbf{w}^T\mathbf{d}\right)^2\\&\le\mathbf{d}^T\mathrm{diag}(\mathbf{w})\mathbf{d}=\sum_{i=1}^nw_id_i^2\\&\le\Vert\mathbf{d}\Vert_{\infty}^2\sum_{i=1}^nw_i=\Vert\mathbf{d}\Vert_{\infty}^2.\end{aligned} dT∇2f(x)d=dT(diag(w)−wwT)d=dTdiag(w)d−(wTd)2≤dTdiag(w)d=i=1∑nwidi2≤∥d∥∞2i=1∑nwi=∥d∥∞2.因 f f f在 R n \mathbb{R}^n Rn上二次连续可微, 于是由微分中值定理, 对 ∀ x , y ∈ R n \forall\mathbf{x,y}\in\mathbb{R}^n ∀x,y∈Rn, ∃ ξ ∈ [ x , y ] \exists\bm{\xi}\in[\mathbf{x,y}] ∃ξ∈[x,y], 使得 f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( ξ ) ( y − x ) . f(\mathbf{y})=f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}(\mathbf{y-x})^T\nabla^2f(\bm{\xi})(\mathbf{y-x}). f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(ξ)(y−x).结合上面的不等式, 有 f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ∥ y − x ∥ ∞ 2 , f(\mathbf{y})\le f(\mathbf{x})+\nabla f(\mathbf{x})^T(\mathbf{y-x})+\frac{1}{2}\Vert\mathbf{y-x}\Vert_{\infty}^2, f(y)≤f(x)+∇f(x)T(y−x)+21∥y−x∥∞2,再由定理2的(ii)即得 f f f在 ℓ ∞ \ell_{\infty} ℓ∞-范数下的 1 1 1-光滑性.
1.4 光滑参数计算小结
下表总结了本节讨论的函数在不同范数下的光滑参数. 其中最后一个函数的讨论放在下一章.
f ( x ) f(\mathbf{x}) f(x) | d o m ( f ) \mathrm{dom}(f) dom(f) | 光滑参数 | 范数 | 例号 |
---|---|---|---|---|
1 2 x T A x + b T x + c ( A ∈ S n , b ∈ R n , c ∈ R ) \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}) 21xTAx+bTx+c(A∈Sn,b∈Rn,c∈R) | R n \mathbb{R}^n Rn | ∥ A ∥ p , q \Vert\mathbf{A}\Vert_{p,q} ∥A∥p,q | ℓ p \ell_p ℓp | 1 |
⟨ b , x ⟩ + c ( b ∈ E ∗ , c ∈ R ) \langle\mathbf{b,x}\rangle+c\,(\mathbf{b}\in\mathbb{E}^*,\,c\in\mathbb{R}) ⟨b,x⟩+c(b∈E∗,c∈R) | E \mathbb{E} E | 0 0 0 | 任何范数 | 2 |
1 2 ∥ x ∥ p 2 , p ∈ [ 2 , ∞ ) \frac{1}{2}\Vert\mathbf{x}\Vert_p^2,\,p\in[2,\infty) 21∥x∥p2,p∈[2,∞) | R n \mathbb{R}^n Rn | p − 1 p-1 p−1 | ℓ p \ell_p ℓp | 5 |
1 + ∥ x ∥ 2 2 \sqrt{1+\Vert\mathbf{x}\Vert_2^2} 1+∥x∥22 | R n \mathbb{R}^n Rn | 1 1 1 | ℓ 2 \ell_2 ℓ2 | 6 |
log ( ∑ i = 1 n e x i ) \log(\sum_{i=1}^ne^{x_i}) log(∑i=1nexi) | R n \mathbb{R}^n Rn | 1 1 1 | ℓ 2 , ℓ ∞ \ell_2,\ell_{\infty} ℓ2,ℓ∞ | 7 |
1 2 d C 2 ( x ) ( ∅ ≠ C ⊂ E \frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21dC2(x)(∅=C⊂E闭凸 ) ) ) | E \mathbb{E} E | 1 1 1 | 欧式范数 | 3 |
1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x ) ( ∅ ≠ C ⊂ E \frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21∥x∥2−21dC2(x)(∅=C⊂E闭凸 ) ) ) | E \mathbb{E} E | 1 1 1 | 欧式范数 | 4 |
H μ ( x ) ( μ > 0 ) H_{\mu}(\mathbf{x})\,(\mu>0) Hμ(x)(μ>0) | E \mathbb{E} E | 1 μ \frac{1}{\mu} μ1 | 欧式范数 | 第六章例28 |
2. σ \sigma σ-强凸性
定义2 (强凸性) 对一给定 σ > 0 \sigma>0 σ>0, 我们称函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]是 σ \sigma σ-强凸的, 若 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集且对 ∀ x , y ∈ d o m ( f ) , λ ∈ [ 0 , 1 ] \forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1] ∀x,y∈dom(f),λ∈[0,1], 均有 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2. f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)−2σλ(1−λ)∥x−y∥2.称 σ \sigma σ为强凸参数. 有时我们也称 f f f对于参数 σ \sigma σ强凸.
需要说明的是, 强凸参数 σ \sigma σ也依赖于定义所用的范数. 因此我们有时也会刻意地说成, 在范数 ∥ ⋅ ∥ \Vert\cdot\Vert ∥⋅∥下的强凸参数. 由于如上定义的强凸函数的有效域是凸的, 而且显然有Jensen不等式成立, 所以强凸函数必定是凸函数.
当 E \mathbb{E} E是欧式空间时, 我们可给出等价于强凸性的一个简单性质.
定理5 设 E \mathbb{E} E为欧式空间11. 则 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]是 σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0)当且仅当 f ( ⋅ ) − σ 2 ∥ ⋅ ∥ 2 f(\cdot)-\frac{\sigma}{2}\Vert\cdot\Vert^2 f(⋅)−2σ∥⋅∥2是凸函数.
证明: 函数 g ( x ) ≡ f ( x ) − σ 2 ∥ x ∥ 2 g(\mathbf{x})\equiv f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x}\Vert^2 g(x)≡f(x)−2σ∥x∥2是凸函数当且仅当其有效域 d o m ( g ) = d o m ( f ) \mathrm{dom}(g)=\mathrm{dom}(f) dom(g)=dom(f)是凸集, 且对 ∀ x , y ∈ d o m ( f ) , λ ∈ [ 0 , 1 ] \forall\mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in[0,1] ∀x,y∈dom(f),λ∈[0,1], g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) . g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}). g(λx+(1−λ)y)≤λg(x)+(1−λ)g(y).这等价于 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) + σ 2 [ ∥ λ x + ( 1 − λ ) y ∥ 2 − λ ∥ x ∥ 2 − ( 1 − λ ) ∥ y ∥ 2 ] . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})+\frac{\sigma}{2}[\Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2]. f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)+2σ[∥λx+(1−λ)y∥2−λ∥x∥2−(1−λ)∥y∥2].由于 E \mathbb{E} E是欧式空间, 所以 ∥ λ x + ( 1 − λ ) y ∥ 2 − λ ∥ x ∥ 2 − ( 1 − λ ) ∥ y ∥ 2 = − λ ( 1 − λ ) ∥ x − y ∥ 2 , \Vert\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\Vert^2-\lambda\Vert\mathbf{x}\Vert^2-(1-\lambda)\Vert\mathbf{y}\Vert^2=-\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, ∥λx+(1−λ)y∥2−λ∥x∥2−(1−λ)∥y∥2=−λ(1−λ)∥x−y∥2,代入上面的不等式即可得证.
另外, σ \sigma σ-强凸性也有类似于 L L L-光滑性的单调性, 即若函数 f f f是 σ 1 \sigma_1 σ1-强凸的( σ 1 > 0 \sigma_1>0 σ1>0), 则对 ∀ σ 2 ∈ ( 0 , σ 1 ) \forall\sigma_2\in(0,\sigma_1) ∀σ2∈(0,σ1), 它必是 σ 2 \sigma_2 σ2-强凸的. 对应地, 定出一给定函数的最大强凸参数则也是一件不平凡的事, 也是一件有趣的事.
例8 (二次函数的强凸性) 假设 E = R n \mathbb{E}=\mathbb{R}^n E=Rn赋 ℓ 2 \ell_2 ℓ2-范数, 考虑二次函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R定义为 f ( x ) = 1 2 x T A x + b T x + c , f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c, f(x)=21xTAx+bTx+c,其中 A ∈ S n , b ∈ R n , c ∈ R \mathbf{A}\in\mathbb{S}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} A∈Sn,b∈Rn,c∈R. 由定理5, f f f是 σ \sigma σ-强凸函数当且仅当函数 1 2 x T ( A − σ I ) x + b T x + c \frac{1}{2}\mathbf{x}^T(\mathbf{A-\sigma I})\mathbf{x}+\mathbf{b}^T\mathbf{x}+c 21xT(A−σI)x+bTx+c是凸函数, 而这等价于 A − σ I ⪰ 0 \mathbf{A-\sigma I}\succeq\mathbf{0} A−σI⪰0, 即 λ min ( A ) ≥ σ \lambda_{\min}(\mathbf{A})\ge\sigma λmin(A)≥σ. 因此, f f f强凸当且仅当 A \mathbf{A} A正定, 且此时 λ min ( A ) \lambda_{\min}(\mathbf{A}) λmin(A)就是 f f f的最大强凸参数.
强凸函数与凸函数的和仍然是强凸函数, 且不改变其强凸参数.
引理1 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]是 σ \sigma σ-强凸函数 ( σ > 0 (\sigma>0 (σ>0), g : E → ( − ∞ , ∞ ] g:\mathbb{E}\to(-\infty,\infty] g:E→(−∞,∞]是凸函数. 则 f + g f+g f+g仍然是 σ \sigma σ-强凸函数.
证明: 证明是直接的. 因 f , g f,g f,g是凸函数, 所以 d o m ( f ) , d o m ( g ) \mathrm{dom}(f),\mathrm{dom}(g) dom(f),dom(g)都是凸集, 从而 d o m ( f + g ) = d o m ( f ) ∩ d o m ( g ) \mathrm{dom}(f+g)=\mathrm{dom}(f)\cap\mathrm{dom}(g) dom(f+g)=dom(f)∩dom(g)是凸集. 设 x , y ∈ d o m ( f ) ∩ d o m ( g ) , λ ∈ [ 0 , 1 ] \mathbf{x,y}\in\mathrm{dom}(f)\cap\mathrm{dom}(g),\,\lambda\in[0,1] x,y∈dom(f)∩dom(g),λ∈[0,1]. 则由 f f f的 σ \sigma σ-强凸性, f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2. f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)−2σλ(1−λ)∥x−y∥2.再由 g g g是凸函数, g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) . g(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda g(\mathbf{x})+(1-\lambda)g(\mathbf{y}). g(λx+(1−λ)y)≤λg(x)+(1−λ)g(y).两不等式相加得到 ( f + g ) ( λ x + ( 1 − λ ) y ) ≤ λ ( f + g ) ( x ) + ( 1 − λ ) ( f + g ) ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 , (f+g)(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda(f+g)(\mathbf{x})+(1-\lambda)(f+g)(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, (f+g)(λx+(1−λ)y)≤λ(f+g)(x)+(1−λ)(f+g)(y)−2σλ(1−λ)∥x−y∥2,得证.
例9 ( 1 2 ∥ ⋅ ∥ 2 + δ C \frac{1}{2}\Vert\cdot\Vert^2+\delta_C 21∥⋅∥2+δC的强凸性) 假设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} C⊂E为一非空凸集. 则由例8知 1 2 ∥ x ∥ 2 \frac{1}{2}\Vert\mathbf{x}\Vert^2 21∥x∥2是 1 1 1-强凸函数, 再由 C C C是凸集, 从而 δ C \delta_C δC是凸函数. 最后根据引理1, 函数 1 2 ∥ x ∥ 2 + δ C ( x ) \frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x}) 21∥x∥2+δC(x)就是 1 1 1-强凸的.
我们之前给出了刻画 L L L-光滑函数的一阶和二阶性质. 这里我们也给出 σ \sigma σ-强凸的两个等价一阶性质. 它们的证明要用到下面的一维中值定理(引理212)与线段原理(引理313).
引理2(中值定理) 设 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R→(−∞,∞]为一闭凸函数, [ a , b ] ⊂ d o m ( f ) ( a < b ) [a,b]\subset\mathrm{dom}(f)(a<b) [a,b]⊂dom(f)(a<b). 于是 f ( b ) − f ( a ) = ∫ a b h ( t ) d t , f(b)-f(a)=\int_a^bh(t)\,\mathrm{d}t, f(b)−f(a)=∫abh(t)dt,其中 h : ( a , b ) → R h:(a,b)\to\mathbb{R} h:(a,b)→R满足 h ( t ) ∈ ∂ f ( t ) , ∀ t ∈ ( a , b ) h(t)\in\partial f(t),\,\forall t\in(a,b) h(t)∈∂f(t),∀t∈(a,b).
引理3(线段原理) 设 C C C为凸集. 假设 x ∈ r i ( C ) , y ∈ c l ( C ) , λ ∈ ( 0 , 1 ] \mathbf{x}\in\mathrm{ri}(C),\,\mathbf{y}\in\mathrm{cl}(C),\,\lambda\in(0,1] x∈ri(C),y∈cl(C),λ∈(0,1]. 于是 λ x + ( 1 − λ ) y ∈ r i ( C ) \lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in\mathrm{ri}(C) λx+(1−λ)y∈ri(C).
定理6 (强凸性的一阶刻画) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为一正常闭凸函数. 则对一给定
σ
>
0
\sigma>0
σ>0, 下面三件事是等价的:
(i)
f
f
f是
σ
\sigma
σ-强凸函数;
(ii)
f
(
y
)
≥
f
(
x
)
+
⟨
g
,
y
−
x
⟩
+
σ
2
∥
y
−
x
∥
2
,
∀
x
∈
d
o
m
(
∂
f
)
,
y
∈
d
o
m
(
f
)
,
g
∈
∂
f
(
x
)
f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle+\frac{\sigma}{2}\Vert\mathbf{y-x}\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x})
f(y)≥f(x)+⟨g,y−x⟩+2σ∥y−x∥2,∀x∈dom(∂f),y∈dom(f),g∈∂f(x)14;
(iii)
⟨
g
x
−
g
y
,
x
−
y
⟩
≥
σ
∥
x
−
y
∥
2
,
∀
x
,
y
∈
d
o
m
(
∂
f
)
,
g
x
∈
∂
f
(
x
)
,
g
y
∈
∂
f
(
y
)
\langle\mathbf{g_x-g_y,x-y}\rangle\ge\sigma\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y})
⟨gx−gy,x−y⟩≥σ∥x−y∥2,∀x,y∈dom(∂f),gx∈∂f(x),gy∈∂f(y)15.
证明: (ii) ⇒ \Rightarrow ⇒(i): 假设(ii)成立. 任取 x , y ∈ d o m ( f ) , λ ∈ ( 0 , 1 ) , z ∈ r i ( d o m ( f ) ) \mathbf{x,y}\in\mathrm{dom}(f),\,\lambda\in(0,1),\,\mathbf{z}\in\mathrm{ri(dom}(f)) x,y∈dom(f),λ∈(0,1),z∈ri(dom(f)). 于是对 ∀ α ∈ ( 0 , 1 ] \forall\alpha\in(0,1] ∀α∈(0,1], 由线段原理, x ~ = ( 1 − α ) x + α z ∈ r i ( d o m ( f ) ) \tilde\mathbf{x}=(1-\alpha)\mathbf{x}+\alpha\mathbf{z}\in\mathrm{ri(dom}(f)) x~=(1−α)x+αz∈ri(dom(f)). 固定 α \alpha α. 记 x λ = λ x ~ + ( 1 − λ ) y \mathbf{x_{\lambda}}=\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx~+(1−λ)y, 再由线段原理, 知 x λ ∈ r i ( d o m ( f ) ) , ∀ λ ∈ ( 0 , 1 ) \mathbf{x_{\lambda}}\in\mathrm{ri(dom}(f)),\,\forall\lambda\in(0,1) xλ∈ri(dom(f)),∀λ∈(0,1). 因此根据第三章定理6, ∂ f ( x λ ) ≠ ∅ \partial f(\mathbf{x_{\lambda}})\ne\emptyset ∂f(xλ)=∅, x λ ∈ d o m ( ∂ f ) \mathbf{x_{\lambda}}\in\mathrm{dom}(\partial f) xλ∈dom(∂f). 取 g ∈ ∂ f ( x λ ) \mathbf{g}\in\partial f(\mathbf{x_{\lambda}}) g∈∂f(xλ). 由(ii), f ( x ~ ) ≥ f ( x λ ) + ⟨ g , x ~ − x λ ⟩ + σ 2 ∥ x ~ − x λ ∥ 2 , f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{x_{\lambda}}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{x}-\mathbf{x_{\lambda}}\Vert^2, f(x~)≥f(xλ)+⟨g,x~−xλ⟩+2σ∥x~−xλ∥2,代入 x λ \mathbf{x_{\lambda}} xλ定义就有 f ( x ~ ) ≥ f ( x λ ) + ( 1 − λ ) ⟨ g , x ~ − y ⟩ + σ ( 1 − λ ) 2 2 ∥ y − x ~ ∥ 2 . f(\tilde\mathbf{x})\ge f(\mathbf{x_{\lambda}})+(1-\lambda)\langle\mathbf{g},\tilde\mathbf{x}-\mathbf{y}\rangle+\frac{\sigma(1-\lambda)^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2. f(x~)≥f(xλ)+(1−λ)⟨g,x~−y⟩+2σ(1−λ)2∥y−x~∥2.类似地有 f ( y ) ≥ f ( x λ ) + λ ⟨ g , y − x ~ ⟩ + σ λ 2 2 ∥ y − x ~ ∥ 2 . f(\mathbf{y})\ge f(\mathbf{x_{\lambda}})+\lambda\langle\mathbf{g},\mathbf{y}-\tilde\mathbf{x}\rangle+\frac{\sigma\lambda^2}{2}\Vert\mathbf{y}-\tilde\mathbf{x}\Vert^2. f(y)≥f(xλ)+λ⟨g,y−x~⟩+2σλ2∥y−x~∥2.前者两边乘以 λ \lambda λ, 后者两边乘以 1 − λ 1-\lambda 1−λ, 再相加可得 f ( λ x ~ + ( 1 − λ ) y ) ≤ λ f ( x ~ ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ x ~ − y ∥ 2 . f(\lambda\tilde\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\tilde\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\tilde\mathbf{x}-\mathbf{y}\Vert^2. f(λx~+(1−λ)y)≤λf(x~)+(1−λ)f(y)−2σλ(1−λ)∥x~−y∥2.将 x ~ \tilde\mathbf{x} x~的定义代入上式, 可得 g 1 ( α ) ≤ λ g 2 ( α ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ ( 1 − α ) x + α z − y ∥ 2 , g_1(\alpha)\le\lambda g_2(\alpha)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert(1-\alpha)\mathbf{x}+\alpha\mathbf{z}-\mathbf{y}\Vert^2, g1(α)≤λg2(α)+(1−λ)f(y)−2σλ(1−λ)∥(1−α)x+αz−y∥2,其中 g 1 ( α ) ≡ f ( λ ( 1 − α ) x + ( 1 − λ ) y + λ α z ) g_1(\alpha)\equiv f(\lambda(1-\alpha)\mathbf{x}+(1-\lambda)\mathbf{y}+\lambda\alpha\mathbf{z}) g1(α)≡f(λ(1−α)x+(1−λ)y+λαz), g 2 ( α ) ≡ f ( ( 1 − α ) x + α z ) g_2(\alpha)\equiv f((1-\alpha)\mathbf{x}+\alpha\mathbf{z}) g2(α)≡f((1−α)x+αz). 函数 g 1 , g 2 g_1,g_2 g1,g2均是一维正常闭凸函数, 从而根据第二章定理10可知, 它们都在它们的有效域上连续. 令 α → 0 + \alpha\to0^+ α→0+, 推出 g 1 ( 0 ) ≤ λ g 2 ( 0 ) + ( 1 − λ ) f ( y ) − σ λ ( 1 − λ ) 2 ∥ x − y ∥ 2 . g_1(0)\le\lambda g_2(0)+(1-\lambda)f(\mathbf{y})-\frac{\sigma\lambda(1-\lambda)}{2}\Vert\mathbf{x-y}\Vert^2. g1(0)≤λg2(0)+(1−λ)f(y)−2σλ(1−λ)∥x−y∥2.又因 g 1 ( 0 ) = f ( λ x + ( 1 − λ ) y ) , g 2 ( 0 ) = f ( x ) g_1(0)=f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y}),\,g_2(0)=f(\mathbf{x}) g1(0)=f(λx+(1−λ)y),g2(0)=f(x), 故得 f f f的 σ \sigma σ-强凸性.
(i) ⇒ \Rightarrow ⇒(iii): 假设(i)成立. 设 x , y ∈ d o m ( ∂ f ) , g x ∈ ∂ f ( x ) , g y ∈ ∂ f ( y ) \mathbf{x,y}\in\mathrm{dom}(\partial f),\,\mathbf{g_x}\in\partial f(\mathbf{x}),\,\mathbf{g_y}\in\partial f(\mathbf{y}) x,y∈dom(∂f),gx∈∂f(x),gy∈∂f(y). 任取 λ ∈ [ 0 , 1 ) \lambda\in[0,1) λ∈[0,1), 并记 x λ = λ x + ( 1 − λ ) y \mathbf{x_{\lambda}}=\lambda\mathbf{x}+(1-\lambda)\mathbf{y} xλ=λx+(1−λ)y. 由(i), f ( x λ ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) − σ 2 λ ( 1 − λ ) ∥ x − y ∥ 2 , f(\mathbf{x_{\lambda}})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})-\frac{\sigma}{2}\lambda(1-\lambda)\Vert\mathbf{x-y}\Vert^2, f(xλ)≤λf(x)+(1−λ)f(y)−2σλ(1−λ)∥x−y∥2,进一步有 f ( x λ ) − f ( x ) 1 − λ ≤ f ( y ) − f ( x ) − σ 2 λ ∥ x − y ∥ 2 . \frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\lambda\Vert\mathbf{x-y}\Vert^2. 1−λf(xλ)−f(x)≤f(y)−f(x)−2σλ∥x−y∥2.因为 g x ∈ ∂ f ( x ) \mathbf{g_x}\in\partial f(\mathbf{x}) gx∈∂f(x), 于是 f ( x λ ) − f ( x ) 1 − λ ≥ ⟨ g x , x λ − x ⟩ 1 − λ = ⟨ g x , y − x ⟩ , \frac{f(\mathbf{x_{\lambda}})-f(\mathbf{x})}{1-\lambda}\ge\frac{\langle\mathbf{g_x,x_{\lambda}-x}\rangle}{1-\lambda}=\langle\mathbf{g_x,y-x}\rangle, 1−λf(xλ)−f(x)≥1−λ⟨gx,xλ−x⟩=⟨gx,y−x⟩,所以 ⟨ g x , y − x ⟩ ≤ f ( y ) − f ( x ) − σ λ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma\lambda}{2}\Vert\mathbf{x-y}\Vert^2. ⟨gx,y−x⟩≤f(y)−f(x)−2σλ∥x−y∥2.令 λ → 1 − 1 \lambda\to1^{-1} λ→1−1, 就有 ⟨ g x , y − x ⟩ ≤ f ( y ) − f ( x ) − σ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_x,y-x}\rangle\le f(\mathbf{y})-f(\mathbf{x})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2. ⟨gx,y−x⟩≤f(y)−f(x)−2σ∥x−y∥2.交换 x , y \mathbf{x,y} x,y的位置又得到 ⟨ g y , x − y ⟩ ≤ f ( x ) − f ( y ) − σ 2 ∥ x − y ∥ 2 . \langle\mathbf{g_y,x-y}\rangle\le f(\mathbf{x})-f(\mathbf{y})-\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2. ⟨gy,x−y⟩≤f(x)−f(y)−2σ∥x−y∥2.两式相加即得(iii).
(iii) ⇒ \Rightarrow ⇒(ii): 假设(iii)成立. 设 x ∈ d o m ( ∂ f ) , y ∈ d o m ( f ) , g ∈ ∂ f ( x ) \mathbf{x}\in\mathrm{dom}(\partial f),\,\mathbf{y}\in\mathrm{dom}(f),\,\mathbf{g}\in\partial f(\mathbf{x}) x∈dom(∂f),y∈dom(f),g∈∂f(x). 令 z ∈ r i ( d o m ( f ) ) \mathbf{z}\in\mathrm{ri(dom}(f)) z∈ri(dom(f)), 定义 y ~ = ( 1 − α ) y + α z , α ∈ ( 0 , 1 ) \tilde\mathbf{y}=(1-\alpha)\mathbf{y}+\alpha\mathbf{z},\,\alpha\in(0,1) y~=(1−α)y+αz,α∈(0,1). 固定 α \alpha α. 由线段原理, y ~ ∈ r i ( d o m ( f ) ) \tilde\mathbf{y}\in\mathrm{ri(dom}(f)) y~∈ri(dom(f)). 考虑一元函数 φ ( λ ) = f ( x λ ) , λ ∈ [ 0 , 1 ] , \varphi(\lambda)=f(\mathbf{x_{\lambda}}),\quad\lambda\in[0,1], φ(λ)=f(xλ),λ∈[0,1],其中 x λ = ( 1 − λ ) x + λ y ~ \mathbf{x_{\lambda}}=(1-\lambda)\mathbf{x}+\lambda\tilde\mathbf{y} xλ=(1−λ)x+λy~. 对 ∀ λ ∈ ( 0 , 1 ) \forall\lambda\in(0,1) ∀λ∈(0,1), 令 g λ ∈ ∂ f ( x λ ) \mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}}) gλ∈∂f(xλ)16. 于是 ⟨ g λ , y ~ − x ⟩ ∈ ∂ φ ( λ ) \langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\in\partial\varphi(\lambda) ⟨gλ,y~−x⟩∈∂φ(λ), 从而由中值定理, f ( y ~ ) − f ( x ) = φ ( 1 ) − φ ( 0 ) = ∫ 0 1 ⟨ g λ , y ~ − x ⟩ d λ . f(\tilde\mathbf{y})-f(\mathbf{x})=\varphi(1)-\varphi(0)=\int_0^1\langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\,\mathrm{d}\lambda. f(y~)−f(x)=φ(1)−φ(0)=∫01⟨gλ,y~−x⟩dλ.因为 g ∈ ∂ f ( x ) , g λ ∈ ∂ f ( x λ ) \mathbf{g}\in\partial f(\mathbf{x}),\,\mathbf{g_{\lambda}}\in\partial f(\mathbf{x_{\lambda}}) g∈∂f(x),gλ∈∂f(xλ), 根据(iii), ⟨ g λ − g , x λ − x ⟩ ≥ σ ∥ x λ − x ∥ 2 , \langle\mathbf{g_{\lambda}-g,x_{\lambda}-x}\rangle\ge\sigma\Vert\mathbf{x_{\lambda}-x}\Vert^2, ⟨gλ−g,xλ−x⟩≥σ∥xλ−x∥2,代入 x λ \mathbf{x_{\lambda}} xλ的定义, ⟨ g λ , y ~ − x ⟩ ≥ ⟨ g , y ~ − x ⟩ + σ λ ∥ y ~ − x ∥ 2 . \langle\mathbf{g_{\lambda}},\tilde\mathbf{y}-\mathbf{x}\rangle\ge\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2. ⟨gλ,y~−x⟩≥⟨g,y~−x⟩+σλ∥y~−x∥2.将此代入中值定理的不等式, 就有 f ( y ~ ) − f ( x ) ≥ ∫ 0 1 [ ⟨ g , y ~ − x ⟩ + σ λ ∥ y ~ − x ∥ 2 ] d λ = ⟨ g , y ~ − x ⟩ + σ 2 ∥ y ~ − x ∥ 2 . f(\tilde\mathbf{y})-f(\mathbf{x})\ge\int_0^1\left[\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\sigma\lambda\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2\right]\,\mathrm{d}\lambda=\langle\mathbf{g},\tilde\mathbf{y}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert\tilde\mathbf{y}-\mathbf{x}\Vert^2. f(y~)−f(x)≥∫01[⟨g,y~−x⟩+σλ∥y~−x∥2]dλ=⟨g,y~−x⟩+2σ∥y~−x∥2.代入 y ~ \tilde\mathbf{y} y~的定义, 我们有对 ∀ α ∈ ( 0 , 1 ) \forall\alpha\in(0,1) ∀α∈(0,1), f ( ( 1 − α ) y + α z ) ≥ f ( x ) + ⟨ g , ( 1 − α ) y + α z − x ⟩ + σ 2 ∥ ( 1 − α ) y + α z − x ∥ 2 . f((1-\alpha)\mathbf{y}+\alpha\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{g},(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\rangle+\frac{\sigma}{2}\Vert(1-\alpha)\mathbf{y}+\alpha\mathbf{z}-\mathbf{x}\Vert^2. f((1−α)y+αz)≥f(x)+⟨g,(1−α)y+αz−x⟩+2σ∥(1−α)y+αz−x∥2.令 α → 0 + \alpha\to0^+ α→0+并利用一元函数 α ↦ f ( ( 1 − α ) y + α z ) \alpha\mapsto f((1-\alpha)\mathbf{y}+\alpha\mathbf{z}) α↦f((1−α)y+αz)在 [ 0 , 1 ] [0,1] [0,1]上的连续性17就得证.
下一个定理表明, 正常闭强凸函数有唯一的极小点, 且它在极小点附近满足一定的增长性质.
定理7 (闭强凸函数极小点的存在唯一性) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为一正常闭
σ
\sigma
σ-强凸函数(
σ
>
0
\sigma>0
σ>0). 于是
(i)
f
f
f有唯一全局极小点;
(ii)
f
(
x
)
−
f
(
x
∗
)
≥
σ
2
∥
x
−
x
∗
∥
2
,
∀
x
∈
d
o
m
(
f
)
f(\mathbf{x})-f(\mathbf{x}^*)\ge\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\,\forall\mathbf{x}\in\mathrm{dom}(f)
f(x)−f(x∗)≥2σ∥x−x∗∥2,∀x∈dom(f), 其中
x
∗
\mathbf{x}^*
x∗是(i)中
f
f
f的唯一极小点.
证明: (i) 因为
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是非空凸集, 从而根据第三章定理5, 存在
x
0
∈
r
i
(
d
o
m
(
f
)
)
\mathbf{x}_0\in\mathrm{ri(dom}(f))
x0∈ri(dom(f)), 从而再根据第三章定理6,
∂
f
(
x
0
)
≠
∅
\partial f(\mathbf{x}_0)\ne\emptyset
∂f(x0)=∅. 设
g
∈
∂
f
(
x
0
)
\mathbf{g}\in\partial f(\mathbf{x}_0)
g∈∂f(x0). 由定理6的(ii), 推出
f
(
x
)
≥
f
(
x
0
)
+
⟨
g
,
x
−
x
0
⟩
+
σ
2
∥
x
−
x
0
∥
2
,
∀
x
∈
E
.
f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}_0\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}.
f(x)≥f(x0)+⟨g,x−x0⟩+2σ∥x−x0∥2,∀x∈E.因为有限维空间中所有的范数都等价, 所以存在常数
C
>
0
C>0
C>0使得
∥
y
∥
≥
C
∥
y
∥
a
,
\Vert\mathbf{y}\Vert\ge\sqrt{C}\Vert\mathbf{y}\Vert_a,
∥y∥≥C∥y∥a,其中
∥
⋅
∥
a
\Vert\cdot\Vert_a
∥⋅∥a是与空间内积对应的欧式范数. 因此
f
(
x
)
≥
f
(
x
0
)
+
⟨
g
,
x
−
x
0
⟩
+
C
σ
2
∥
x
−
x
0
∥
a
2
,
∀
x
∈
E
,
f(\mathbf{x})\ge f(\mathbf{x}_0)+\langle\mathbf{g,x-x}_0\rangle+\frac{C\sigma}{2}\Vert\mathbf{x-x}_0\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E},
f(x)≥f(x0)+⟨g,x−x0⟩+2Cσ∥x−x0∥a2,∀x∈E,配方后可得
f
(
x
)
≥
f
(
x
0
)
−
1
2
C
σ
∥
g
∥
a
2
+
C
σ
2
∥
x
−
(
x
0
−
1
C
σ
g
)
∥
a
2
,
∀
x
∈
E
.
f(\mathbf{x})\ge f(\mathbf{x}_0)-\frac{1}{2C\sigma}\Vert\mathbf{g}\Vert_a^2+\frac{C\sigma}{2}\left\Vert\mathbf{x}-\left(\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g}\right)\right\Vert_a^2,\quad\forall\mathbf{x}\in\mathbb{E}.
f(x)≥f(x0)−2Cσ1∥g∥a2+2Cσ∥∥∥∥x−(x0−Cσ1g)∥∥∥∥a2,∀x∈E.特别地,
L
e
v
(
f
,
f
(
x
0
)
)
⊂
B
∥
⋅
∥
a
[
x
0
−
1
C
σ
g
,
1
C
σ
∥
g
∥
a
]
.
\mathrm{Lev}(f,f(\mathbf{x}_0))\subset B_{\Vert\cdot\Vert_a}\left[\mathbf{x}_0-\frac{1}{C\sigma}\mathbf{g},\frac{1}{C\sigma}\Vert\mathbf{g}\Vert_a\right].
Lev(f,f(x0))⊂B∥⋅∥a[x0−Cσ1g,Cσ1∥g∥a].由于
f
f
f是闭函数, 所以根据第二章定理1, 上述水平集是闭集(同时也是有界集). 因此
L
e
v
(
f
,
f
(
x
0
)
)
\mathrm{Lev}(f,f(\mathbf{x}_0))
Lev(f,f(x0))是紧集. 同时注意到
x
0
∈
L
e
v
(
f
,
f
(
x
0
)
)
\mathbf{x}_0\in\mathrm{Lev}(f,f(\mathbf{x}_0))
x0∈Lev(f,f(x0)). 所以
f
f
f在
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)上的最优点集等同于
f
f
f在非空紧集
L
e
v
(
f
,
f
(
x
0
)
)
\mathrm{Lev}(f,f(\mathbf{x}_0))
Lev(f,f(x0))上的最优点集. 由第二章定理4(闭函数的Weierstrass定理), 得知这样的全局极小点是存在的.
下面证明唯一性. 假设
x
~
,
x
^
\tilde\mathbf{x},\hat\mathbf{x}
x~,x^都是
f
f
f的全局极小点. 则
f
(
x
~
)
=
f
(
x
^
)
=
f
o
p
t
f(\tilde\mathbf{x})=f(\hat\mathbf{x})=f_{\mathrm{opt}}
f(x~)=f(x^)=fopt, 这里
f
o
p
t
f_{\mathrm{opt}}
fopt是
f
f
f的最小值. 由
f
f
f的
σ
\sigma
σ-强凸性,
f
o
p
t
≤
f
(
1
2
x
~
+
1
2
x
^
)
≤
1
2
f
(
x
~
)
+
1
2
f
(
x
^
)
−
σ
8
∥
x
~
−
x
^
∥
2
=
f
o
p
t
−
σ
8
∥
x
~
−
x
^
∥
2
,
f_{\mathrm{opt}}\le f\left(\frac{1}{2}\tilde\mathbf{x}+\frac{1}{2}\hat\mathbf{x}\right)\le\frac{1}{2}f(\tilde\mathbf{x})+\frac{1}{2}f(\hat\mathbf{x})-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2=f_{\mathrm{opt}}-\frac{\sigma}{8}\Vert\tilde\mathbf{x}-\hat\mathbf{x}\Vert^2,
fopt≤f(21x~+21x^)≤21f(x~)+21f(x^)−8σ∥x~−x^∥2=fopt−8σ∥x~−x^∥2,表明
x
~
=
x
^
\tilde\mathbf{x}=\hat\mathbf{x}
x~=x^.
(ii) 设 x ∗ \mathbf{x}^* x∗是(i)中 f f f的唯一全局极小点. 由Fermat最优性条件, 0 ∈ ∂ f ( x ∗ ) \mathbf{0}\in\partial f(\mathbf{x}^*) 0∈∂f(x∗). 再由定理6的(ii), f ( x ) − f ( x ∗ ) ≥ ⟨ 0 , x − x ∗ ⟩ + σ 2 ∥ x − x ∗ ∥ 2 = σ 2 ∥ x − x ∗ ∥ 2 , ∀ x ∈ E . f(\mathbf{x})-f(\mathbf{x}^*)\ge\langle\mathbf{0},\mathbf{x-x}^*\rangle+\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2=\frac{\sigma}{2}\Vert\mathbf{x-x}^*\Vert^2,\quad\forall\mathbf{x}\in\mathbb{E}. f(x)−f(x∗)≥⟨0,x−x∗⟩+2σ∥x−x∗∥2=2σ∥x−x∗∥2,∀x∈E.证毕.
3. 光滑性与强凸性的关系
3.1 共轭关联定理
光滑性与强凸性是靠共轭运算关联起来的. 粗略地讲, f f f是 σ \sigma σ-强凸函数当且仅当 f ∗ f^* f∗是 1 σ \frac{1}{\sigma} σ1-光滑函数.
定理8 (共轭关联定理) 设
σ
>
0
\sigma>0
σ>0. 则
(i) 若
f
:
E
→
R
f:\mathbb{E}\to\mathbb{R}
f:E→R为一
1
σ
\frac{1}{\sigma}
σ1-光滑凸函数, 则
f
∗
f^*
f∗是对偶范数
∥
⋅
∥
∗
\Vert\cdot\Vert_*
∥⋅∥∗下的
σ
\sigma
σ-强凸函数18;
(ii) 若
f
:
R
→
(
−
∞
,
∞
]
f:\mathbb{R}\to(-\infty,\infty]
f:R→(−∞,∞]为一正常闭
σ
\sigma
σ-强凸函数, 则
f
∗
:
E
∗
→
R
f^*:\mathbb{E}^*\to\mathbb{R}
f∗:E∗→R是对偶范数下的
1
σ
\frac{1}{\sigma}
σ1-光滑函数.
证明: (i) 假设 f : E → R f:\mathbb{E}\to\mathbb{R} f:E→R为一 1 σ \frac{1}{\sigma} σ1-光滑凸函数. 任取 y 1 , y 2 ∈ d o m ( ∂ f ∗ ) , v 1 ∈ ∂ f ∗ ( y 1 ) , v 2 ∈ ∂ f ∗ ( y 2 ) \mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2) y1,y2∈dom(∂f∗),v1∈∂f∗(y1),v2∈∂f∗(y2). 根据第四章的共轭次梯度定理以及 f f f的正常闭凸性, 就有 y 1 ∈ ∂ f ( v 1 ) , y 2 ∈ ∂ f ( v 2 ) \mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2) y1∈∂f(v1),y2∈∂f(v2), 再由 f f f的可微性, 就有 y 1 = ∇ f ( v 1 ) , y 2 = ∇ f ( v 2 ) \mathbf{y}_1=\nabla f(\mathbf{v}_1),\,\mathbf{y}_2=\nabla f(\mathbf{v}_2) y1=∇f(v1),y2=∇f(v2). 由定理2(i)与(iv)的等价性, 有 ⟨ y 1 − y 2 , v 1 − v 2 ⟩ ≥ σ ∥ y 1 − y 2 ∥ ∗ 2 . \langle\mathbf{y}_1-\mathbf{y}_2,\mathbf{v}_1-\mathbf{v}_2\rangle\ge\sigma\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*^2. ⟨y1−y2,v1−v2⟩≥σ∥y1−y2∥∗2.因为这一不等式对 ∀ y 1 , y 2 ∈ d o m ( ∂ f ∗ ) , v 1 ∈ ∂ f ∗ ( y 1 ) , v 2 ∈ ∂ f ∗ ( y 2 ) \forall\mathbf{y}_1,\mathbf{y}_2\in\mathrm{dom}(\partial f^*),\,\mathbf{v}_1\in\partial f^*(\mathbf{y}_1),\,\mathbf{v}_2\in\partial f^*(\mathbf{y}_2) ∀y1,y2∈dom(∂f∗),v1∈∂f∗(y1),v2∈∂f∗(y2)都成立, 由定理6(i)和(iii)的等价性, 就推出 f ∗ f^* f∗是对偶范数下的 σ \sigma σ-强凸函数.
(ii) 设 f f f是正常闭 σ \sigma σ-强凸函数. 再由共轭次梯度定理(或其推论), ∂ f ∗ ( y ) = arg max x ∈ E { ⟨ x , y ⟩ − f ( x ) } , ∀ y ∈ E ∗ . \partial f^*(\mathbf{y})=\arg\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{x})\},\quad\forall\mathbf{y}\in\mathbb{E}^*. ∂f∗(y)=argx∈Emax{⟨x,y⟩−f(x)},∀y∈E∗.根据 f f f的闭强凸性以及定理7的(i), 我们推出对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* ∀y∈E∗, ∂ f ∗ ( y ) \partial f^*(\mathbf{y}) ∂f∗(y)都是单点集. 于是根据第三章定理12, f ∗ f^* f∗在整个对偶空间 E ∗ \mathbb{E}^* E∗上就都是可微的. 现任取 y 1 , y 2 ∈ E ∗ \mathbf{y}_1,\mathbf{y}_2\in\mathbb{E}^* y1,y2∈E∗, 并记 v 1 = ∇ f ∗ ( y 1 ) , v 2 = ∇ f ∗ ( y 2 ) \mathbf{v}_1=\nabla f^*(\mathbf{y}_1),\,\mathbf{v}_2=\nabla f^*(\mathbf{y}_2) v1=∇f∗(y1),v2=∇f∗(y2). 再次利用共轭次梯度定理, 这些等式等价于 y 1 ∈ ∂ f ( v 1 ) , y 2 ∈ ∂ f ( v 2 ) \mathbf{y}_1\in\partial f(\mathbf{v}_1),\,\mathbf{y}_2\in\partial f(\mathbf{v}_2) y1∈∂f(v1),y2∈∂f(v2). 由定理6(i)与(iii)的等价性以及广义Cauchy-Schwarz不等式, ∥ y 1 − y 2 ∥ ∗ ⋅ ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ ≥ ⟨ y 1 − y 2 , ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ⟩ ≥ σ ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ 2 , \Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*\cdot\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\ge\langle\mathbf{y}_1-\mathbf{y}_2,\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\rangle\ge\sigma\Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert^2, ∥y1−y2∥∗⋅∥∇f∗(y1)−∇f∗(y2)∥≥⟨y1−y2,∇f∗(y1)−∇f∗(y2)⟩≥σ∥∇f∗(y1)−∇f∗(y2)∥2,于是 ∥ ∇ f ∗ ( y 1 ) − ∇ f ∗ ( y 2 ) ∥ ≤ 1 σ ∥ y 1 − y 2 ∥ ∗ . \Vert\nabla f^*(\mathbf{y}_1)-\nabla f^*(\mathbf{y}_2)\Vert\le\frac{1}{\sigma}\Vert\mathbf{y}_1-\mathbf{y}_2\Vert_*. ∥∇f∗(y1)−∇f∗(y2)∥≤σ1∥y1−y2∥∗.
3.2 强凸函数的例子
类似于在第四章我们利用共轭运算得到了一些函数的凸性, 这里我们也可以利用共轭关联定理得到许多重要函数的强凸性.
例10 (单位单纯形上的负熵函数) 考虑函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn→(−∞,∞]定义为 f ( x ) = { ∑ i = 1 n x i log x i , x ∈ Δ n , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right. f(x)={∑i=1nxilogxi,∞,x∈Δn,其它.根据第四章第4.10节我们知道, 此函数的共轭是对数求和指数函数 f ∗ ( y ) = log ( ∑ i = 1 n e y i ) f^*(\mathbf{y})=\log\left(\sum_{i=1}^ne^{y_i}\right) f∗(y)=log(∑i=1neyi)(从而使凸函数), 而这在例7中已经证明了, 是在 ℓ ∞ \ell_{\infty} ℓ∞-与 ℓ 2 \ell_2 ℓ2-范数下的 1 1 1-光滑函数. 由共轭关联定理, f f f就是 ℓ 1 \ell_1 ℓ1-和 ℓ 2 \ell_2 ℓ2-范数下的 1 1 1-强凸函数.
例11 (平方 ℓ p \ell_p ℓp-范数, p ∈ ( 1 , 2 ] p\in(1,2] p∈(1,2]) 考虑函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R定义为 f ( x ) = 1 2 ∥ x ∥ p 2 ( p ∈ ( 1 , 2 ] ) f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_p^2(p\in(1,2]) f(x)=21∥x∥p2(p∈(1,2]). 根据第四章第4.15节, f ∗ ( y ) = 1 2 ∥ y ∥ q 2 , q ≥ 2 : 1 p + 1 q = 1 f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert_q^2,\,q\ge2:\frac{1}{p}+\frac{1}{q}=1 f∗(y)=21∥y∥q2,q≥2:p1+q1=1. 由例5, f ∗ f^* f∗是 ℓ p \ell_p ℓp-范数下的 ( q − 1 ) (q-1) (q−1)-光滑函数, 再由共轭关联定理, 就有 f f f是 ℓ p \ell_p ℓp-范数下的 1 q − 1 = ( p − 1 ) \frac{1}{q-1}=(p-1) q−11=(p−1)-强凸函数.
例12 ( ℓ 2 \ell_2 ℓ2-范数下半球面函数) 考虑下半球面函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn→(−∞,∞], f ( x ) = { − 1 − ∥ x ∥ 2 2 , ∥ x ∥ 2 ≤ 1 , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{x}\Vert_2^2}, & \Vert\mathbf{x}\Vert_2\le1,\\\infty, & 其它.\end{array}\right. f(x)={−1−∥x∥22,∞,∥x∥2≤1,其它.根据第四章第4.13节, f f f的共轭函数是 f ∗ ( y ) = ∥ y ∥ 2 2 + 1 , f^*(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_2^2+1}, f∗(y)=∥y∥22+1,而例6告诉我们 f ∗ f^* f∗是 ℓ 2 \ell_2 ℓ2-范数下的 1 1 1-光滑函数. 因此由共轭关联定理, f f f是 ℓ 2 \ell_2 ℓ2-范数下的 1 1 1-强凸函数.
3.3 强凸参数计算小结
下表总结了本章碰到的所有强凸函数.
f ( x ) f(\mathbf{x}) f(x) | d o m ( f ) \mathrm{dom}(f) dom(f) | 强凸参数 | 范数 | 例号 |
---|---|---|---|---|
1 2 x T A x + 2 b T x + c ( A ∈ S + + n , b ∈ R n , c ∈ R ) \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+2\mathbf{b}^T\mathbf{x}+c\,(\mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}) 21xTAx+2bTx+c(A∈S++n,b∈Rn,c∈R) | R n \mathbb{R}^n Rn | λ min ( A ) \lambda_{\min}(\mathbf{A}) λmin(A) | ℓ 2 \ell_2 ℓ2 | 8 |
1 2 ∥ x ∥ 2 + δ C ( x ) ( ∅ ≠ C ⊂ E \frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x})\,(\emptyset\ne C\subset\mathbb{E} 21∥x∥2+δC(x)(∅=C⊂E凸 ) ) ) | C C C | 1 1 1 | 欧式范数 | 9 |
− 1 − ∥ x ∥ 2 2 -\sqrt{1-\Vert\mathbf{x}\Vert^2_2} −1−∥x∥22 | B ∥ ⋅ ∥ 2 [ 0 , 1 ] B_{\Vert\cdot\Vert_2}[\mathbf{0},1] B∥⋅∥2[0,1] | 1 1 1 | ℓ 2 \ell_2 ℓ2 | 12 |
1 2 ∥ x ∥ p 2 ( p ∈ ( 1 , 2 ] ) \frac{1}{2}\Vert\mathbf{x}\Vert_p^2\,(p\in(1,2]) 21∥x∥p2(p∈(1,2]) | R n \mathbb{R}^n Rn | p − 1 p-1 p−1 | ℓ p \ell_p ℓp | 11 |
∑ i = 1 n x i log x i \sum_{i=1}^nx_i\log x_i ∑i=1nxilogxi | Δ n \Delta_n Δn | 1 1 1 | ℓ 2 \ell_2 ℓ2或 ℓ 1 \ell_1 ℓ1 | 10 |
3.4 极小卷积的光滑性与可微性
本节我们将基于共轭关联定理, 证明在一定条件下, 一个凸函数和一个 L L L-光滑凸函数的极小卷积仍然是 L L L-光滑的. 特别地, 我们还将导出其梯度的表达式.
定理9 (极小卷积的光滑性) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为一正常闭凸函数,
ω
:
E
→
R
\omega:\mathbb{E}\to\mathbb{R}
ω:E→R为一
L
L
L-光滑凸函数. 假定
f
□
ω
f\square\omega
f□ω是实值的. 则有以下结论成立:
(i)
f
□
ω
f\square\omega
f□ω是
L
L
L-光滑的;
(ii) 设
x
∈
E
\mathbf{x}\in\mathbb{E}
x∈E, 并假定
u
(
x
)
\mathbf{u(x)}
u(x)是
min
u
{
f
(
u
)
+
ω
(
x
−
u
)
}
\min_{\mathbf{u}}\{f(\mathbf{u})+\omega(\mathbf{x-u})\}
umin{f(u)+ω(x−u)}的全局极小点. 则
∇
(
f
□
ω
)
(
x
)
=
∇
ω
(
x
−
u
(
x
)
)
\nabla(f\square\omega)(\mathbf{x})=\nabla\omega(\mathbf{x-u(x)})
∇(f□ω)(x)=∇ω(x−u(x)).
证明: (i) 根据第四章定理11, f □ ω = ( f ∗ + ω ∗ ) ∗ . f\square\omega=(f^*+\omega^*)^*. f□ω=(f∗+ω∗)∗.又因为 f , ω f,\omega f,ω是正常闭凸函数, 根据第四章定理1和定理2, 就推出 f ∗ , ω ∗ f^*,\omega^* f∗,ω∗也是正常闭凸函数. 由共轭关联定理, ω ∗ \omega^* ω∗是 1 L \frac{1}{L} L1-强凸函数. 因此, 由引理1, f ∗ + ω ∗ f^*+\omega^* f∗+ω∗是 1 L \frac{1}{L} L1-强凸函数. 同时作为两个闭函数的和, 它也是闭函数. 为使用共轭关联定理, 我们还需证明它是正常函数. 事实上, 根据第四章定理9, ( f □ ω ) ∗ = f ∗ + ω ∗ . (f\square\omega)^*=f^*+\omega^*. (f□ω)∗=f∗+ω∗.因为极小卷积函数 f □ ω f\square\omega f□ω是正常凸函数, 因此根据第四章定理2, f ∗ + ω ∗ f^*+\omega^* f∗+ω∗是正常函数. 此时, f ∗ + ω ∗ f^*+\omega^* f∗+ω∗是正常闭 1 L \frac{1}{L} L1-强凸函数, 由共轭关联定理, 就有 f □ ω = ( f ∗ + ω ∗ ) ∗ f\square\omega=(f^*+\omega^*)^* f□ω=(f∗+ω∗)∗是 L L L-光滑函数.
(ii) 设 x ∈ E \mathbf{x}\in\mathbb{E} x∈E, ( f □ ω ) ( x ) = f ( u ( x ) ) + ω ( x − u ( x ) ) . (f\square\omega)(\mathbf{x})=f(\mathbf{u(x)})+\omega(\mathbf{x}-\mathbf{u(x)}). (f□ω)(x)=f(u(x))+ω(x−u(x)).记 z ≡ ∇ ω ( x − u ( x ) ) \mathbf{z}\equiv\nabla\omega(\mathbf{x}-\mathbf{u(x)}) z≡∇ω(x−u(x)). 下证 ∇ ( f □ ω ) ( x ) = z \nabla(f\square\omega)(\mathbf{x})=\mathbf{z} ∇(f□ω)(x)=z. 这需要我们证明 lim ∥ ξ ∥ → 0 ∣ ϕ ( ξ ) ∣ / ∥ ξ ∥ = 0 \lim_{\Vert\bm{\xi}\Vert\to0}|\phi(\bm{\xi})|/\Vert\bm{\xi}\Vert=0 lim∥ξ∥→0∣ϕ(ξ)∣/∥ξ∥=0, 其中 ϕ ( ξ ) ≡ ( f □ ω ) ( x + ξ ) − ( f □ ω ) ( x ) − ⟨ ξ , z ⟩ \phi(\bm{\xi})\equiv(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangle ϕ(ξ)≡(f□ω)(x+ξ)−(f□ω)(x)−⟨ξ,z⟩. 由极小卷积的定义, ( f □ ω ) ( x + ξ ) ≤ f ( u ( x ) ) + ω ( x + ξ − u ( x ) ) . (f\square\omega)(\mathbf{x+\bm{\xi}})\le f(\mathbf{u(x)})+\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)}). (f□ω)(x+ξ)≤f(u(x))+ω(x+ξ−u(x)).于是, ϕ ( ξ ) = ( f □ ω ) ( x + ξ ) − ( f □ ω ) ( x ) − ⟨ ξ , z ⟩ ≤ ω ( x + ξ − u ( x ) ) − ω ( x − u ( x ) ) − ⟨ ξ , z ⟩ ≤ ⟨ ξ , ∇ ω ( x + ξ − u ( x ) ) ⟩ − ⟨ ξ , z ⟩ ( ω 的 梯 度 不 等 式 ) = ⟨ ξ , ∇ ω ( x + ξ − u ( x ) ) − ∇ ω ( x − u ( x ) ) ⟩ ≤ ∥ ξ ∥ ⋅ ∥ ∇ ω ( x + ξ − u ( x ) ) − ∇ ω ( x − u ( x ) ) ∥ ∗ ≤ L ∥ ξ ∥ 2 . ( ω 的 L − 光 滑 性 ) \begin{aligned}\phi(\bm{\xi})&=(f\square\omega)(\mathbf{x+\bm{\xi}})-(f\square\omega)(\mathbf{x})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\omega(\mathbf{x}-\mathbf{u(x)})-\langle\bm{\xi},\mathbf{z}\rangle\\&\le\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})\rangle-\langle\bm{\xi},\mathbf{z}\rangle\:(\omega的梯度不等式)\\&=\langle\bm{\xi},\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\rangle\\&\le\Vert\bm{\xi}\Vert\cdot\Vert\nabla\omega(\mathbf{x}+\bm{\xi}-\mathbf{u(x)})-\nabla\omega(\mathbf{x}-\mathbf{u(x)})\Vert_*\\&\le L\Vert\bm{\xi}\Vert^2.\:(\omega的L-光滑性)\end{aligned} ϕ(ξ)=(f□ω)(x+ξ)−(f□ω)(x)−⟨ξ,z⟩≤ω(x+ξ−u(x))−ω(x−u(x))−⟨ξ,z⟩≤⟨ξ,∇ω(x+ξ−u(x))⟩−⟨ξ,z⟩(ω的梯度不等式)=⟨ξ,∇ω(x+ξ−u(x))−∇ω(x−u(x))⟩≤∥ξ∥⋅∥∇ω(x+ξ−u(x))−∇ω(x−u(x))∥∗≤L∥ξ∥2.(ω的L−光滑性)下面仅需证明另一边: ϕ ( ξ ) ≥ − L ∥ ξ ∥ 2 \phi(\bm{\xi})\ge -L\Vert\bm{\xi}\Vert^2 ϕ(ξ)≥−L∥ξ∥2. 因为 f □ ω f\square\omega f□ω是凸函数, 从而 ϕ \phi ϕ也是. 因为 ϕ ( 0 ) = 0 \phi(\mathbf{0})=0 ϕ(0)=0, 所以 0 = ϕ ( 0 ) ≤ ϕ ( ξ ) + ϕ ( − ξ ) , ∀ ξ 0=\phi(\mathbf{0})\le\phi(\bm{\xi})+\phi(-\bm{\xi}),\,\forall\bm{\xi} 0=ϕ(0)≤ϕ(ξ)+ϕ(−ξ),∀ξ. 从而 ϕ ( ξ ) ≥ − ϕ ( − ξ ) ≥ − L ∥ ξ ∥ 2 \phi(\bm{\xi})\ge-\phi(-\bm{\xi})\ge-L\Vert\bm{\xi}\Vert^2 ϕ(ξ)≥−ϕ(−ξ)≥−L∥ξ∥2.
例13 ( 1 2 d C 2 \frac{1}{2}d_C^2 21dC2的 1 1 1-光滑性) 假设 E \mathbb{E} E是欧式空间, C ⊂ E C\subset\mathbb{E} C⊂E为一非空闭凸集. 考虑函数 φ C ( x ) = 1 2 d C 2 ( x ) \varphi_C(\mathbf{x})=\frac{1}{2}d_C^2(\mathbf{x}) φC(x)=21dC2(x). 我们已经在例3中证明了它是 1 1 1-光滑的. 这里我们再提供基于定理9的第二种证明. 因为 φ C = δ C □ h \varphi_C=\delta_C\square h φC=δC□h, 其中 h ( x ) = 1 2 ∥ x ∥ 2 h(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 h(x)=21∥x∥2, 且 h h h为实值 1 1 1-光滑凸函数, δ C \delta_C δC为正常闭凸函数. 于是由定理9, φ C \varphi_C φC是 1 1 1-光滑函数.
这里 ∥ A ∥ p , q = max { ∥ A x ∥ q : ∥ x ∥ p ≤ 1 } \Vert\mathbf{A}\Vert_{p,q}=\max\{\Vert\mathbf{Ax}\Vert_q:\Vert\mathbf{x}\Vert_p\le1\} ∥A∥p,q=max{∥Ax∥q:∥x∥p≤1}或可参见第一章. ↩︎
根据诱导范数的定义, 这样的 x ~ \tilde\mathbf{x} x~是存在的. ↩︎
事实上 ψ C \psi_C ψC的凸性并不需要 C C C是凸集; 但是投影算子的非增大性是需要的. ↩︎
从这一不等式我们可知, 下降引理实际上还告诉我们, 如果 ∇ f ( x ) \nabla f(\mathbf{x}) ∇f(x)与 y − x \mathbf{y-x} y−x成钝角且 ∥ x − y ∥ \Vert\mathbf{x-y}\Vert ∥x−y∥充分小, 则当 f f f从 x \mathbf{x} x移动到 y \mathbf{y} y时, 函数值至少下降 ⟨ ∇ f ( x ) , x − y ⟩ − L 2 ∥ x − y ∥ 2 \langle\nabla f(\mathbf{x}),\mathbf{x-y}\rangle-\frac{L}{2}\Vert\mathbf{x-y}\Vert^2 ⟨∇f(x),x−y⟩−2L∥x−y∥2. 这也是为什么称这个引理为下降引理的原因. ↩︎
定理2中关于函数凸性的假设是很关键的. 考虑 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R定义为 f ( x ) = − 1 2 ∥ x ∥ 2 2 f(\mathbf{x})=-\frac{1}{2}\Vert\mathbf{x}\Vert_2^2 f(x)=−21∥x∥22. 它在 ℓ 2 \ell_2 ℓ2-范数下是 1 1 1-光滑的, 但不是 L L L-光滑的( L < 1 L<1 L<1, 见例1). 但由于 f f f是凹函数, 因此 f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ f(\mathbf{y})\le f(\mathbf{x})+\langle\nabla f(\mathbf{x}),\mathbf{y-x}\rangle f(y)≤f(x)+⟨∇f(x),y−x⟩, 这表明定理2的(ii)对 L = 0 L=0 L=0成立. 但显然 f f f并不是 0 0 0-光滑函数. ↩︎
这里的“全空间”假设是为了在处理时的方便. ↩︎
特别地, 我们有 ∇ g x ( x ) = 0 \nabla g_{\mathbf{x}}(\mathbf{x})=\mathbf{0} ∇gx(x)=0, 再结合 g x g_{\mathbf{x}} gx是凸函数, 我们推出 x \mathbf{x} x是 g x g_{\mathbf{x}} gx的全局极小点: g x ( x ) ≤ g x ( z ) , ∀ z ∈ E . g_{\mathbf{x}}(\mathbf{x})\le g_{\mathbf{x}}(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}. gx(x)≤gx(z),∀z∈E. ↩︎
这里在 U U U上的二次连续可微意思是, f f f的二阶偏导数均在 U U U上连续. ↩︎
这里 [ x , y ] [\mathbf{x,y}] [x,y]是在第一章第五节中定义的闭线段, 而不是矩形盒. ↩︎
这里欧式空间的假设是关键的. 例如, 考虑单位单纯形上的负熵函数 f ( x ) = { ∑ i = 1 n x i log x i , x ∈ Δ n , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right. f(x)={∑i=1nxilogxi,∞,x∈Δn,其它.(之后我们会在例10中证明 f f f是 ℓ 1 \ell_1 ℓ1-范数下的 1 1 1-强凸函数) 注意 ℓ 1 \ell_1 ℓ1-范数与空间上的点积是不相容的. 这时函数 g ( x ) = f ( x ) − α ∥ x ∥ 1 2 g(\mathbf{x})=f(\mathbf{x})-\alpha\Vert\mathbf{x}\Vert_1^2 g(x)=f(x)−α∥x∥12对 ∀ α > 0 \forall\alpha>0 ∀α>0都是凸函数. 这是因为在 f f f的有效域上恒有 ∥ x ∥ 1 = 1 \Vert\mathbf{x}\Vert_1=1 ∥x∥1=1. 如果直接用定理5的结论, 会推出 f f f对 ∀ α > 0 \forall\alpha>0 ∀α>0都是 α \alpha α-强凸函数. 但一个函数是不可能如此的. ↩︎
证明可见Jean-Baptiste Hiriart-Urruty与Claude Lemarechal的专著《Convex Analysis and Minimization Algorithms I》的第26页定理4.2.4 ↩︎
证明可见R. Tyrrell Rockafellar的专著《Convex Analysis》的第45页定理6.1 ↩︎
这表明 f f f以一个严格凸二次函数为下界. ↩︎
(iii)与定理2的(iv)是十分相像的. 这也是建立光滑函数与强凸函数联系的关键. 而架起这一桥梁的是共轭运算. 这可见第四章的共轭次梯度定理. 详细的证明见定理8. ↩︎
存在性来自于线段原理. ↩︎
将 f f f的有效域设成全空间是为了在使用 f ∗ f^* f∗次微分时遇到不必要的麻烦. 而 f f f实值其实是保证了 f f f是闭函数. ↩︎