参考视频如下:
B站大佬视频,我只是学习记录的菜鸡
1. 概述
Baillon Haddad Theorem
白老爹定理
若
f
f
f凸函数可微,则有下列等价条件
- ∇ f , L − L i p s c h i t z \nabla f ,L-Lipschitz ∇f,L−Lipschitz连续
- g ( x ) = L 2 x T x − f ( x ) g(x)=\frac{L}{2}x^Tx-f(x) g(x)=2LxTx−f(x)是凸的:用一个二次函数 L 2 x T x − \frac{L}{2}x^Tx- 2LxTx−减去一个凸函数f(x)后还是凸
- ∇ f \nabla f ∇f有余强制性,即 ( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) ≥ 1 L ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ 2 (\nabla f(x)-\nabla f(y))^T(x-y)\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2 (∇f(x)−∇f(y))T(x−y)≥L1∣∣∇f(x)−∇f(y)∣∣2
2. 利普希茨连续的定义
L−Lipschitz
利普希茨连续的定义是:如果函数 f 在区间 Q 上以常数 L 利普希茨连续,那么对于 x,y ∈ Q ,有: ∣∣f (x)−f (y)∣∣ ≤ L∣∣x− y∣∣ 其中常数 L 称为 f 在区间 Q 上的 Lipschitz常数 。
3. 等价条件证明
3.1 条件1 --> 条件2
已知:
f
f
f凸函数可微,且
∇
f
,
L
−
L
i
p
s
c
h
i
t
z
\nabla f ,L-Lipschitz
∇f,L−Lipschitz连续
证明:
g
(
x
)
=
L
2
x
T
x
−
f
(
x
)
g(x)=\frac{L}{2}x^Tx-f(x)
g(x)=2LxTx−f(x)是凸的:
- 因为
g
(
x
)
=
L
2
x
T
x
−
f
(
x
)
g(x)=\frac{L}{2}x^Tx-f(x)
g(x)=2LxTx−f(x),求导可得:
∇ g ( x ) = L x − ∇ f ( x ) \begin{equation} \nabla g(x)=Lx-\nabla f(x) \end{equation} ∇g(x)=Lx−∇f(x) - 对于
∀
x
,
y
∈
R
n
,
\forall x,y \in \mathbb{R}^n,
∀x,y∈Rn,如下:
[ ∇ g ( x ) − ∇ g ( y ) ] T ( x − y ) = [ L x − ∇ f ( x ) − L y + ∇ f ( y ) ] T ( x − y ) \begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)=[Lx-\nabla f(x)-Ly+\nabla f(y)]^T(x-y) \end{equation} [∇g(x)−∇g(y)]T(x−y)=[Lx−∇f(x)−Ly+∇f(y)]T(x−y) - 整理可得,L为标量:
= L ( x − y ) T ( x − y ) − [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) \begin{equation} =L(x-y)^T(x-y)-[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation} =L(x−y)T(x−y)−[∇f(x)−∇f(y)]T(x−y) - 因为
a
T
b
=
∣
a
∣
⋅
∣
b
∣
⋅
cos
(
θ
)
a^Tb=|a|\cdot |b| \cdot \cos(\theta)
aTb=∣a∣⋅∣b∣⋅cos(θ),所以
− ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ⋅ ∣ ∣ x − y ∣ ∣ ≥ − [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) \begin{equation} -||\nabla f(x)-\nabla f(y)||\cdot||x-y|| \ge -[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation} −∣∣∇f(x)−∇f(y)∣∣⋅∣∣x−y∣∣≥−[∇f(x)−∇f(y)]T(x−y) - 代入整理可得:
[ ∇ g ( x ) − ∇ g ( y ) ] T ( x − y ) ≥ L ( x − y ) T ( x − y ) − ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ⋅ ∣ ∣ x − y ∣ ∣ \begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)\ge L(x-y)^T(x-y)-||\nabla f(x)-\nabla f(y)||\cdot||x-y|| \end{equation} [∇g(x)−∇g(y)]T(x−y)≥L(x−y)T(x−y)−∣∣∇f(x)−∇f(y)∣∣⋅∣∣x−y∣∣ - 由于
∇
f
,
L
−
L
i
p
s
c
h
i
t
z
\nabla f ,L-Lipschitz
∇f,L−Lipschitz连续,所以可得:
∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ≤ L ∣ ∣ x − y ∣ ∣ \begin{equation} ||\nabla f(x)-\nabla f(y)||\le L||x-y|| \end{equation} ∣∣∇f(x)−∇f(y)∣∣≤L∣∣x−y∣∣ - 代入可得:
[ ∇ g ( x ) − ∇ g ( y ) ] T ( x − y ) ≥ L ∣ ∣ x − y ∣ ∣ 2 − L ∣ ∣ x − y ∣ ∣ ⋅ ∣ ∣ x − y ∣ ∣ ≥ 0 \begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)\ge L||x-y||^2-L||x-y||\cdot||x-y|| \ge 0 \end{equation} [∇g(x)−∇g(y)]T(x−y)≥L∣∣x−y∣∣2−L∣∣x−y∣∣⋅∣∣x−y∣∣≥0 - 综上所述:
[ ∇ g ( x ) − ∇ g ( y ) ] T ( x − y ) ≥ 0 \begin{equation} [\nabla g(x)-\nabla g(y)]^T(x-y)\ge 0 \end{equation} [∇g(x)−∇g(y)]T(x−y)≥0 - 条件1 推 条件2 小结,:
g ( x ) = L 2 x T x − f ( x ) 是凸的 \begin{equation} g(x)=\frac{L}{2}x^Tx-f(x)是凸的 \end{equation} g(x)=2LxTx−f(x)是凸的
3.2 条件3 --> 条件1
已知:
∇
f
\nabla f
∇f有余强制性,即
(
∇
f
(
x
)
−
∇
f
(
y
)
)
T
(
x
−
y
)
≥
1
L
∣
∣
∇
f
(
x
)
−
∇
f
(
y
)
∣
∣
2
(\nabla f(x)-\nabla f(y))^T(x-y)\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2
(∇f(x)−∇f(y))T(x−y)≥L1∣∣∇f(x)−∇f(y)∣∣2
证明:
∇
f
,
L
−
L
i
p
s
c
h
i
t
z
\nabla f ,L-Lipschitz
∇f,L−Lipschitz连续,
∣
∣
∇
f
(
x
)
−
∇
f
(
y
)
∣
∣
≤
L
⋅
∣
∣
x
−
y
∣
∣
||\nabla f(x)-\nabla f(y)||\le L\cdot ||x-y||
∣∣∇f(x)−∇f(y)∣∣≤L⋅∣∣x−y∣∣
- 点积公式展开:
( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) = ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ⋅ ∣ ∣ x − y ∣ ∣ ⋅ cos ( θ ) , cos ( θ ) ≤ 1 \begin{equation} (\nabla f(x)-\nabla f(y))^T(x-y)=||\nabla f(x)-\nabla f(y)||\cdot ||x-y|| \cdot \cos(\theta),\cos(\theta)\le1 \end{equation} (∇f(x)−∇f(y))T(x−y)=∣∣∇f(x)−∇f(y)∣∣⋅∣∣x−y∣∣⋅cos(θ),cos(θ)≤1 - 可得不等式如下:
∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ⋅ ∣ ∣ x − y ∣ ∣ ≥ ( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) \begin{equation} ||\nabla f(x)-\nabla f(y)||\cdot ||x-y||\ge (\nabla f(x)-\nabla f(y))^T(x-y) \end{equation} ∣∣∇f(x)−∇f(y)∣∣⋅∣∣x−y∣∣≥(∇f(x)−∇f(y))T(x−y) - 代入条件3可得:
∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ⋅ ∣ ∣ x − y ∣ ∣ ≥ 1 L ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ 2 \begin{equation} ||\nabla f(x)-\nabla f(y)||\cdot ||x-y||\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2 \end{equation} ∣∣∇f(x)−∇f(y)∣∣⋅∣∣x−y∣∣≥L1∣∣∇f(x)−∇f(y)∣∣2 - 因为
∣
∣
∇
f
(
x
)
−
∇
f
(
y
)
∣
∣
>
0
||\nabla f(x)-\nabla f(y)||>0
∣∣∇f(x)−∇f(y)∣∣>0可得:
∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ≤ L ⋅ ∣ ∣ x − y ∣ ∣ \begin{equation} ||\nabla f(x)-\nabla f(y)||\le L\cdot ||x-y|| \end{equation} ∣∣∇f(x)−∇f(y)∣∣≤L⋅∣∣x−y∣∣
3.3 条件2 --> 条件3
3.1.1 证明思路
已知:
g
(
x
)
=
L
2
x
T
x
−
f
(
x
)
g(x)=\frac{L}{2}x^Tx-f(x)
g(x)=2LxTx−f(x)是凸的
证明:
∇
f
\nabla f
∇f有余强制性,即
(
∇
f
(
x
)
−
∇
f
(
y
)
)
T
(
x
−
y
)
≥
1
L
∣
∣
∇
f
(
x
)
−
∇
f
(
y
)
∣
∣
2
(\nabla f(x)-\nabla f(y))^T(x-y)\ge \frac{1}{L}||\nabla f(x)-\nabla f(y)||^2
(∇f(x)−∇f(y))T(x−y)≥L1∣∣∇f(x)−∇f(y)∣∣2
- 证明:
- 我们定义如下:
Δ 1 = f ( y ) − [ f ( x ) + ∇ f T ( x ) ( y − x ) ] \begin{equation} \Delta_1=f(y)-[f(x)+\nabla f^T(x)(y-x)] \end{equation} Δ1=f(y)−[f(x)+∇fT(x)(y−x)]
Δ 2 = f ( x ) − [ f ( y ) + ∇ f T ( y ) ( x − y ) ] \begin{equation} \Delta_2=f(x)-[f(y)+\nabla f^T(y)(x-y)] \end{equation} Δ2=f(x)−[f(y)+∇fT(y)(x−y)]
Δ 1 + Δ 2 = [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) \begin{equation} \Delta_1+\Delta_2=[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation} Δ1+Δ2=[∇f(x)−∇f(y)]T(x−y) - 假设我们能够证明如下:最重要!!!!!
Δ 1 ≥ 1 2 L [ ∇ f ( x ) − ∇ f ( y ) ] 2 ; Δ 2 ≥ 1 2 L [ ∇ f ( x ) − ∇ f ( y ) ] 2 \begin{equation} \Delta_1\ge \frac{1}{2L}[\nabla f(x)-\nabla f(y)]^2;\Delta_2\ge \frac{1}{2L}[\nabla f(x)-\nabla f(y)]^2 \end{equation} Δ1≥2L1[∇f(x)−∇f(y)]2;Δ2≥2L1[∇f(x)−∇f(y)]2 - 将上述式子相加可得条件2的结论:
Δ 1 + Δ 2 = [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) ≥ 1 L [ ∇ f ( x ) − ∇ f ( y ) ] 2 \begin{equation} \Delta_1+\Delta_2=[\nabla f(x)-\nabla f(y)]^T(x-y)\ge \frac{1}{L}[\nabla f(x)-\nabla f(y)]^2 \end{equation} Δ1+Δ2=[∇f(x)−∇f(y)]T(x−y)≥L1[∇f(x)−∇f(y)]2
3.1.2 证明过程:
-
因为我们定义 Δ 1 \Delta_1 Δ1表示如下:
Δ 1 = f ( y ) − [ f ( x ) + ∇ f T ( x ) ( y − x ) ] \begin{equation} \Delta_1=f(y)-[f(x)+\nabla f^T(x)(y-x)] \end{equation} Δ1=f(y)−[f(x)+∇fT(x)(y−x)] -
化简整理可得:
Δ 1 = f ( y ) − ∇ f T ( x ) y − [ f ( x ) − ∇ f T ( x ) x ] \begin{equation} \Delta_1=f(y)-\nabla f^T(x)y-[f(x)-\nabla f^T(x)x] \end{equation} Δ1=f(y)−∇fT(x)y−[f(x)−∇fT(x)x] -
我们定义一个新的函数如下:
h x ( z ) = f ( z ) − ∇ f T ( x ) z → Δ 1 = h x ( y ) − h x ( x ) \begin{equation} h_x(z)=f(z)-\nabla f^T(x)z\rightarrow \Delta_1=h_x(y)-h_x(x) \end{equation} hx(z)=f(z)−∇fT(x)z→Δ1=hx(y)−hx(x) -
因为 f ( z ) f(z) f(z)为凸函数, ∇ f T ( x ) z \nabla f^T(x)z ∇fT(x)z为关于z的仿射一次函数,所以可得: h x ( z ) h_x(z) hx(z)为凸函数
-
我们对 h x ( z ) h_x(z) hx(z)求导可得:
∇ h x ( z ) = ∇ f ( z ) − ∇ f ( x ) \begin{equation} \nabla h_x(z)=\nabla f(z)-\nabla f(x) \end{equation} ∇hx(z)=∇f(z)−∇f(x) -
我们可以看出,当 z = x z=x z=x时, ∇ h x ( z ) = ∇ f ( z ) − ∇ f ( z ) = 0 \nabla h_x(z)=\nabla f(z)-\nabla f(z)=0 ∇hx(z)=∇f(z)−∇f(z)=0,由于 h x ( z ) h_x(z) hx(z)为凸函数,可得:当z=x时候, h x ( z ) h_x(z) hx(z)取得最小值0,
arg min z = x h x ( z ) = 0 \begin{equation} \argmin\limits_{z=x}h_x(z)=0 \end{equation} z=xargminhx(z)=0 -
根据条件2 : g ( x ) = L 2 x T x − f ( x ) g(x)=\frac{L}{2}x^Tx-f(x) g(x)=2LxTx−f(x)是凸的
g ( z ) = L 2 z T z − f ( z ) ; f ( z ) = h x ( z ) + ∇ f T ( x ) z \begin{equation} g(z)=\frac{L}{2}z^Tz-f(z);f(z)=h_x(z)+\nabla f^T(x)z \end{equation} g(z)=2LzTz−f(z);f(z)=hx(z)+∇fT(x)z -
代入可得:
g ( z ) = L 2 z T z − h x ( z ) − ∇ f T ( x ) z \begin{equation} g(z)=\frac{L}{2}z^Tz-h_x(z)-\nabla f^T(x)z \end{equation} g(z)=2LzTz−hx(z)−∇fT(x)z -
整理可得:
g ( z ) + ∇ f T ( x ) z = L 2 ∣ ∣ z ∣ ∣ 2 − h x ( z ) \begin{equation} g(z)+\nabla f^T(x)z=\frac{L}{2}||z||^2-h_x(z) \end{equation} g(z)+∇fT(x)z=2L∣∣z∣∣2−hx(z) -
我们定义新的函数如下:
g x ( z ) = g ( z ) + ∇ f T ( x ) z \begin{equation} g_x(z)=g(z)+\nabla f^T(x)z \end{equation} gx(z)=g(z)+∇fT(x)z
g x ( z ) = L 2 ∣ ∣ z ∣ ∣ 2 − h x ( z ) \begin{equation} g_x(z)=\frac{L}{2}||z||^2-h_x(z) \end{equation} gx(z)=2L∣∣z∣∣2−hx(z) -
因为 g(z)我们条件为凸函数, ∇ f T ( x ) z \nabla f^T(x)z ∇fT(x)z仿射变换,所以可得 g x ( z ) g_x(z) gx(z)为凸函数,所以可得其导数:
∇ g ( z ) = L ∣ ∣ z ∣ ∣ − ∇ h x ( z ) \begin{equation} \nabla g(z)=L||z||-\nabla h_x(z) \end{equation} ∇g(z)=L∣∣z∣∣−∇hx(z)
g x ( z 2 ) ≥ g x ( z 1 ) + ∇ g x T ( z 1 ) ( z 2 − z 1 ) \begin{equation} g_x(z_2)\ge g_x(z_1)+\nabla g^T_x(z_1)(z_2-z_1) \end{equation} gx(z2)≥gx(z1)+∇gxT(z1)(z2−z1)
g x ( z 2 ) = L 2 ∣ ∣ z 2 ∣ ∣ 2 − h x ( z 2 ) \begin{equation} g_x(z_2)=\frac{L}{2}||z_2||^2-h_x(z_2) \end{equation} gx(z2)=2L∣∣z2∣∣2−hx(z2)
g x ( z 1 ) = L 2 ∣ ∣ z 1 ∣ ∣ 2 − h x ( z 1 ) \begin{equation} g_x(z_1)=\frac{L}{2}||z_1||^2-h_x(z_1) \end{equation} gx(z1)=2L∣∣z1∣∣2−hx(z1)
∇ g x T ( z 1 ) ( z 2 − z 1 ) = [ L z 1 − ∇ h x ( z 1 ) ] ( z 2 − z 1 ) \begin{equation} \nabla g^T_x(z_1)(z_2-z_1)=[Lz_1-\nabla h_x(z_1)](z_2-z_1) \end{equation} ∇gxT(z1)(z2−z1)=[Lz1−∇hx(z1)](z2−z1)
L 2 ∣ ∣ z 2 ∣ ∣ 2 − h x ( z 2 ) ≥ L 2 ∣ ∣ z 1 ∣ ∣ 2 − h x ( z 1 ) + [ L z 1 − ∇ h x ( z 1 ) ] ( z 2 − z 1 ) \begin{equation} \frac{L}{2}||z_2||^2-h_x(z_2)\ge \frac{L}{2}||z_1||^2-h_x(z_1)+[Lz_1-\nabla h_x(z_1)](z_2-z_1) \end{equation} 2L∣∣z2∣∣2−hx(z2)≥2L∣∣z1∣∣2−hx(z1)+[Lz1−∇hx(z1)](z2−z1) -
整理上述公式可得:
h x ( z 2 ) ≤ L 2 ∣ ∣ z 2 ∣ ∣ 2 − L 2 ∣ ∣ z 1 ∣ ∣ 2 + h x ( z 1 ) + [ ∇ h x ( z 1 ) − L z 1 ] ( z 2 − z 1 ) \begin{equation} h_x(z_2)\le \frac{L}{2}||z_2||^2-\frac{L}{2}||z_1||^2+h_x(z_1)+[\nabla h_x(z_1)-Lz_1](z_2-z_1) \end{equation} hx(z2)≤2L∣∣z2∣∣2−2L∣∣z1∣∣2+hx(z1)+[∇hx(z1)−Lz1](z2−z1) -
我们又要新定义一个关于 z 2 z_2 z2的二次函数如下:[将右边定义为一个函数]
-
这里将 z 2 z_2 z2当作变量, z 1 z_1 z1当作常数看待,就是一个抛物线函数了,并且我们定义L>0.那么就存在最小值
ϕ ( z 2 ) = L 2 ∣ ∣ z 2 ∣ ∣ 2 − L 2 ∣ ∣ z 1 ∣ ∣ 2 + h x ( z 1 ) + [ ∇ h x ( z 1 ) − L z 1 ] ( z 2 − z 1 ) \begin{equation} \phi(z_2)= \frac{L}{2}||z_2||^2-\frac{L}{2}||z_1||^2+h_x(z_1)+[\nabla h_x(z_1)-Lz_1](z_2-z_1) \end{equation} ϕ(z2)=2L∣∣z2∣∣2−2L∣∣z1∣∣2+hx(z1)+[∇hx(z1)−Lz1](z2−z1) -
求 ϕ ( z 2 ) \phi(z_2) ϕ(z2)的最小值,求导函数可得:
∇ ϕ ( z 2 ) = L z 2 + ∇ h x ( z 1 ) − L z 1 = 0 → z 2 m i n = z 1 − ∇ h x ( z 1 ) L \begin{equation} \nabla\phi(z_2)= Lz_2+\nabla h_x(z_1)-Lz_1=0\rightarrow z_{2min}=z_1-\frac{\nabla h_x(z_1)}{L} \end{equation} ∇ϕ(z2)=Lz2+∇hx(z1)−Lz1=0→z2min=z1−L∇hx(z1) -
代入方程可得:
ϕ ( z 2 m i n ) = ϕ ( z 1 − ∇ h x ( z 1 ) L ) = h x ( z 1 ) − 1 2 L ∣ ∣ ∇ h x ( z 1 ) ∣ ∣ 2 \begin{equation} \phi(z_{2min})=\phi(z_1-\frac{\nabla h_x(z_1)}{L})=h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation} ϕ(z2min)=ϕ(z1−L∇hx(z1))=hx(z1)−2L1∣∣∇hx(z1)∣∣2 -
综上所述,代入不等式中可得:
h x ( z 2 ) ≤ i n f { ϕ ( z 2 ) } = ϕ ( z 2 m i n ) = h x ( z 1 ) − 1 2 L ∣ ∣ ∇ h x ( z 1 ) ∣ ∣ 2 \begin{equation} h_x(z_2)\le inf\{ \phi(z_2) \}=\phi(z_{2min})= h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation} hx(z2)≤inf{ϕ(z2)}=ϕ(z2min)=hx(z1)−2L1∣∣∇hx(z1)∣∣2 -
整理可得:
h x ( z 2 ) ≤ h x ( z 1 ) − 1 2 L ∣ ∣ ∇ h x ( z 1 ) ∣ ∣ 2 \begin{equation} h_x(z_2)\le h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation} hx(z2)≤hx(z1)−2L1∣∣∇hx(z1)∣∣2 -
我们已经求过 h x ( z ) h_x(z) hx(z)取得最小值0,且在 z=x上取得,即所以可得:
h x ( x ) ≤ h x ( z 2 ) ≤ h x ( z 1 ) − 1 2 L ∣ ∣ ∇ h x ( z 1 ) ∣ ∣ 2 \begin{equation} h_x(x)\le h_x(z_2)\le h_x(z_1)-\frac{1}{2L}||\nabla h_x(z_1)||^2 \end{equation} hx(x)≤hx(z2)≤hx(z1)−2L1∣∣∇hx(z1)∣∣2 -
将 z 1 z_1 z1换为y可得:
h x ( x ) ≤ h x ( y ) − 1 2 L ∣ ∣ ∇ h x ( y ) ∣ ∣ 2 \begin{equation} h_x(x)\le h_x(y)-\frac{1}{2L}||\nabla h_x(y)||^2 \end{equation} hx(x)≤hx(y)−2L1∣∣∇hx(y)∣∣2 -
整理可得:
h x ( y ) − h x ( x ) ≥ ∣ ∣ ∇ h x ( y ) ∣ ∣ 2 2 L \begin{equation} h_x(y)-h_x(x)\ge \frac{||\nabla h_x(y)||^2}{2L} \end{equation} hx(y)−hx(x)≥2L∣∣∇hx(y)∣∣2 -
我们上面已经定义如下:
Δ 1 = h x ( y ) − h x ( x ) ; ∇ h x ( y ) = ∇ f ( y ) − ∇ f ( x ) \begin{equation} \Delta_1=h_x(y)-h_x(x);\nabla h_x(y)=\nabla f(y)-\nabla f(x) \end{equation} Δ1=hx(y)−hx(x);∇hx(y)=∇f(y)−∇f(x) -
整理后可得,居然跟第17公式一样,我们就这样完美证明了:
Δ 1 ≥ ∣ ∣ ∇ f ( y ) − ∇ f ( x ) ∣ ∣ 2 2 L \begin{equation} \Delta_1\ge \frac{||\nabla f(y)-\nabla f(x)||^2}{2L} \end{equation} Δ1≥2L∣∣∇f(y)−∇f(x)∣∣2 -
同理可证:
Δ 2 ≥ ∣ ∣ ∇ f ( y ) − ∇ f ( x ) ∣ ∣ 2 2 L \begin{equation} \Delta_2\ge \frac{||\nabla f(y)-\nabla f(x)||^2}{2L} \end{equation} Δ2≥2L∣∣∇f(y)−∇f(x)∣∣2 -
Δ 1 + Δ 2 \Delta_1+\Delta_2 Δ1+Δ2可得:
Δ
1
+
Δ
2
≥
∣
∣
∇
f
(
y
)
−
∇
f
(
x
)
∣
∣
2
L
\begin{equation} \Delta_1+\Delta_2\ge \frac{||\nabla f(y)-\nabla f(x)||^2}{L} \end{equation}
Δ1+Δ2≥L∣∣∇f(y)−∇f(x)∣∣2
Δ
1
+
Δ
2
=
[
∇
f
(
x
)
−
∇
f
(
y
)
]
T
(
x
−
y
)
\begin{equation} \Delta_1+\Delta_2=[\nabla f(x)-\nabla f(y)]^T(x-y) \end{equation}
Δ1+Δ2=[∇f(x)−∇f(y)]T(x−y)
- 综上所述可得:
[ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) ≥ ∣ ∣ ∇ f ( y ) − ∇ f ( x ) ∣ ∣ 2 L \begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)\ge \frac{||\nabla f(y)-\nabla f(x)||^2}{L} \end{equation} [∇f(x)−∇f(y)]T(x−y)≥L∣∣∇f(y)−∇f(x)∣∣2
!!!完结撒花!!! !!!完结撒花!!! !!!完结撒花!!!