\section{L-Smooth and Stongly Convex}
\subsection{L-Smooth}
Definition(L-smoothness): Let
L
≥
0
L \geq 0
L≥0. A function
f
:
E
→
(
−
∞
,
∞
]
f: \mathbb{E} \rightarrow(-\infty, \infty]
f:E→(−∞,∞] is said to be
L
L
L smooth over a set
D
⊆
E
D \subseteq \mathbb{E}
D⊆E if it is differentiable over
D
D
D and satisfies
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
≤
L
∥
x
−
y
∥
for all
x
,
y
∈
D
\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_* \leq L\|\mathbf{x}-\mathbf{y}\| \text { for all } \mathbf{x}, \mathbf{y} \in D
∥∇f(x)−∇f(y)∥∗≤L∥x−y∥ for all x,y∈D
The constant
L
L
L is called the smoothness parameter, and
∥
⋅
∥
∗
\|\cdot\|_*
∥⋅∥∗ denotes the dual norm on the dual space
E
∗
\mathbb{E}^*
E∗.
根据这个定义,我们可以为满足L-Smooth性质的函数出一个上界,这个上界是一个二次函数,这 个性质经常出现在收敛性的推导中出现,被称为Descent Lemma。
Lemma (descent lemma): Let
f
:
E
→
(
−
∞
,
∞
]
f: \mathbb{E} \rightarrow(-\infty, \infty]
f:E→(−∞,∞] be an
L
L
L-smooth function
(
L
≥
0
)
(L \geq 0)
(L≥0) over a given convex set
D
D
D. Then for any
x
,
y
∈
D
\mathbf{x}, \mathbf{y} \in D
x,y∈D,
f
(
y
)
≤
f
(
x
)
+
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
L
2
∥
x
−
y
∥
2
f(\mathbf{y}) \leq f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle+\frac{L}{2}\|\mathbf{x}-\mathbf{y}\|^2
f(y)≤f(x)+⟨∇f(x),y−x⟩+2L∥x−y∥2
Intuition 1: 通过观察图片,可以得发现原函数的最小会小于上界函数的最小 (对
(
b
)
(b)
(b) 左右两边同 时取最小)
f
(
x
∗
)
=
min
y
∈
R
n
f
(
y
)
≤
min
y
∈
R
n
{
f
(
x
)
+
⟨
∇
f
(
x
)
,
y
−
x
⟩
+
L
2
∥
y
−
x
∥
2
}
=
min
r
≥
0
{
f
(
x
)
−
r
∥
∇
f
(
x
)
∥
∗
+
L
2
r
2
}
=
f
(
x
)
−
1
2
L
∥
∇
f
(
x
)
∥
∗
2
\begin{aligned} f\left(\mathbf{x}^*\right) & =\min _{\mathbf{y} \in \mathbb{R}^n} f(\mathbf{y}) \leq \min _{\mathbf{y} \in \mathbb{R}^n}\left\{f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle+\frac{L}{2}\|\mathbf{y}-\mathbf{x}\|^2\right\} \\ & =\min _{r \geq 0}\left\{f(\mathbf{x})-r\|\nabla f(\mathbf{x})\|_*+\frac{L}{2} r^2\right\} \\ & =f(\mathbf{x})-\frac{1}{2 L}\|\nabla f(\mathbf{x})\|_*^2 \end{aligned}
f(x∗)=y∈Rnminf(y)≤y∈Rnmin{f(x)+⟨∇f(x),y−x⟩+2L∥y−x∥2}=r≥0min{f(x)−r∥∇f(x)∥∗+2Lr2}=f(x)−2L1∥∇f(x)∥∗2
(1)表明 f ( x ) − f ( x ∗ ) ≥ 1 2 L ∥ ∇ f ( x ) ∥ ∗ 2 f(\mathbf{x})-f\left(\mathbf{x}^*\right) \geq \frac{1}{2 L}\|\nabla f(\mathbf{x})\|_*^2 f(x)−f(x∗)≥2L1∥∇f(x)∥∗2, 也就是说:
- 当某个点的函数值与其最小值之间的差距小的时候,梯度不一定小;
- 而梯度小的时候, 函数值与最小值的差距会比较小。
注意到上面这个不等式对任意满足L-Smooth 的函数都成立,考虑函数 ϕ ( y ) = f ( y ) − ⟨ ∇ f ( x 0 ) , y ⟩ \phi(y)=f(y)-\left\langle\nabla f\left(x_0\right), y\right\rangle ϕ(y)=f(y)−⟨∇f(x0),y⟩ ,这也是一个L-Smooth 函数,因此我们代入 ( 1 ) (1) (1) ,可以得到另一 个很常用的等价于 ( a ) (a) (a) 的L-Smooth 性质如下:
f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ⟩ ≥ 1 2 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle \geq \frac{1}{2 L}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2 f(y)−f(x)−⟨∇f(x),y−x⟩≥2L1∥∇f(x)−∇f(y)∥∗2
另外,对 ( a ) (a) (a) 使用generalized Cauchy-Schwarz inequality,
⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≤ L ∥ x − y ∥ 2 \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle \leq L\|\mathbf{x}-\mathbf{y}\|^2 ⟨∇f(x)−∇f(y),x−y⟩≤L∥x−y∥2
交换 ( c ) (c) (c) 中 x , y \mathbf{x}, \mathbf{y} x,y 的位置可以得到如下关系:
⟨ ∇ f ( x ) − ∇ f ( y ) , x − y ⟩ ≥ 1 L ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ 2 \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle \geq \frac{1}{L}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2 ⟨∇f(x)−∇f(y),x−y⟩≥L1∥∇f(x)−∇f(y)∥∗2
这五个性质 ( a ) − ( e ) (a)-(e) (a)−(e) 是等价的,在上面的推导中给出了 ( a ) → ( b ) → ( c ) → ( e ) (a) \rightarrow(b) \rightarrow(c) \rightarrow(e) (a)→(b)→(c)→(e),很明显 ( e ) (e) (e) 可 以通过generalized Cauchy-Schwarz inequality得到。事实上我们可以把 ( d ) (d) (d) 揷在 ( a ) ( b ) (a)(b) (a)(b) 之间形 成逻辑上的闭环 ( a ) → ( d ) → ( b ) → ( c ) → ( e ) → ( a ) (a) \rightarrow(d) \rightarrow(b) \rightarrow(c) \rightarrow(e) \rightarrow(a) (a)→(d)→(b)→(c)→(e)→(a) 。
\subsection{Stongly Convex}
将在L-Smooth 部分得到的所有不等式变换方向并且将
L
L
L 替换为
μ
\mu
μ 就得到了Strongly Convex 函 数满足的性质:
一阶条件:
f
(
y
)
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
y
−
x
⟩
≥
μ
2
∥
x
−
y
∥
2
⟨
∇
f
(
x
)
−
∇
f
(
y
)
,
x
−
y
⟩
≥
μ
∥
x
−
y
∥
2
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
≥
μ
∥
x
−
y
∥
f
(
y
)
−
f
(
x
)
−
⟨
∇
f
(
x
)
,
y
−
x
⟩
≤
1
2
μ
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
⟨
∇
f
(
x
)
−
∇
f
(
y
)
,
x
−
y
⟩
≤
1
μ
∥
∇
f
(
x
)
−
∇
f
(
y
)
∥
∗
2
\begin{aligned} f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle & \geq \frac{\mu}{2}\|\mathbf{x}-\mathbf{y}\|^2 \\ \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle & \geq \mu\|\mathbf{x}-\mathbf{y}\|^2 \\ \|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_* & \geq \mu\|\mathbf{x}-\mathbf{y}\| \\ f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle & \leq \frac{1}{2 \mu}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2 \\ \langle\nabla f(\mathbf{x})-\nabla f(\mathbf{y}), \mathbf{x}-\mathbf{y}\rangle & \leq \frac{1}{\mu}\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\|_*^2 \end{aligned}
f(y)−f(x)−⟨∇f(x),y−x⟩⟨∇f(x)−∇f(y),x−y⟩∥∇f(x)−∇f(y)∥∗f(y)−f(x)−⟨∇f(x),y−x⟩⟨∇f(x)−∇f(y),x−y⟩≥2μ∥x−y∥2≥μ∥x−y∥2≥μ∥x−y∥≤2μ1∥∇f(x)−∇f(y)∥∗2≤μ1∥∇f(x)−∇f(y)∥∗2
\subsection{Polyak-Lojasiewicz 不等式}
另外我们还会有
f
(
x
)
−
f
(
x
∗
)
≤
1
2
μ
∥
∇
f
(
x
)
∥
∗
2
f(\mathbf{x})-f\left(\mathbf{x}^*\right) \leq \frac{1}{2 \mu}\|\nabla f(\mathbf{x})\|_*^2
f(x)−f(x∗)≤2μ1∥∇f(x)∥∗2,
也就是说:当某个点的梯度小的时候,函数值与最小值的差距会比较小,有时我们把梯度的范数当 作终止的判断条件。
我们称
f
(
x
)
−
f
(
x
∗
)
≤
1
2
μ
∥
∇
f
(
x
)
∥
∗
2
f(\mathbf{x})-f\left(\mathbf{x}^*\right) \leq \frac{1}{2 \mu}\|\nabla f(\mathbf{x})\|_*^2
f(x)−f(x∗)≤2μ1∥∇f(x)∥∗2 为
polyak-Lojasiewicz
(
P
L
)
(\mathrm{PL})
(PL) 条件。注意到满足强凸条件 的函数会满足PL条件,反之则不成立。
如果满足以下条件,则称函数满足 Polyak-Lojasiewicz 不等式:
∥
∇
f
(
x
)
∥
2
≥
μ
(
f
(
x
)
−
f
∗
)
∀
x
\|\nabla f(x)\|^2 \geq \mu\left(f(x)-f^*\right) \forall x
∥∇f(x)∥2≥μ(f(x)−f∗)∀x
其中
f
∗
f^*
f∗ 是最小函数值。
这意味着梯度范数的增长速度至少与函数值远离最优函数值的速度一样快。
此外,这意味着
f
(
x
)
f(x)
f(x) 的每个稳态点都是全局最小值。
梯度下降
梯度下降更新只是朝着负梯度的方向迈出了一步:
x
k
+
1
=
x
k
−
η
∇
f
(
x
k
)
x_{k+1}=x_k-\eta \nabla f\left(x_k\right)
xk+1=xk−η∇f(xk)
我们现在准备证明在 PL不等式下梯度下降的收敛性,即Karimi等人的定理1。
重新排列梯度下降更新会有所不同
x
k
+
1
−
x
k
=
−
η
∇
f
(
x
k
)
x_{k+1}-x_k=-\eta \nabla f\left(x_k\right)
xk+1−xk=−η∇f(xk)
在二次上界条件下使用梯度下降更新规则(来自梯度的Lipschitz连续性),我们得 到
f
(
x
k
+
1
)
≤
f
(
x
k
)
+
⟨
∇
f
(
x
k
)
,
x
k
+
1
−
x
k
⟩
+
L
2
∥
x
k
+
1
−
x
k
∥
2
=
f
(
x
k
)
+
⟨
∇
f
(
x
k
)
,
−
η
∇
f
(
x
k
)
⟩
+
L
2
∥
−
η
∇
f
(
x
k
)
∥
2
=
f
(
x
k
)
−
η
∥
∇
f
(
x
k
)
∥
2
+
η
2
(
L
2
)
∥
∇
f
(
x
k
)
∥
2
=
f
(
x
k
)
+
(
−
η
+
η
2
(
L
2
)
)
∥
∇
f
(
x
k
)
∥
2
→
f
(
x
k
+
1
)
−
f
(
x
k
)
≤
(
−
η
+
η
2
(
L
2
)
)
∥
∇
f
(
x
k
)
∥
2
\begin{aligned} f\left(x_{k+1}\right) & \leq f\left(x_k\right)+\left\langle\nabla f\left(x_k\right), x_{k+1}-x_k\right\rangle+\frac{L}{2}\left\|x_{k+1}-x_k\right\|^2 \\ & =f\left(x_k\right)+\left\langle\nabla f\left(x_k\right),-\eta \nabla f\left(x_k\right)\right\rangle+\frac{L}{2}\left\|-\eta \nabla f\left(x_k\right)\right\|^2 \\ & =f\left(x_k\right)-\eta\left\|\nabla f\left(x_k\right)\right\|^2+\eta^2\left(\frac{L}{2}\right)\left\|\nabla f\left(x_k\right)\right\|^2 \\ & =f\left(x_k\right)+\left(-\eta+\eta^2\left(\frac{L}{2}\right)\right)\left\|\nabla f\left(x_k\right)\right\|^2 \\ \rightarrow f\left(x_{k+1}\right)-f\left(x_k\right) & \leq\left(-\eta+\eta^2\left(\frac{L}{2}\right)\right)\left\|\nabla f\left(x_k\right)\right\|^2 \end{aligned}
f(xk+1)→f(xk+1)−f(xk)≤f(xk)+⟨∇f(xk),xk+1−xk⟩+2L∥xk+1−xk∥2=f(xk)+⟨∇f(xk),−η∇f(xk)⟩+2L∥−η∇f(xk)∥2=f(xk)−η∥∇f(xk)∥2+η2(2L)∥∇f(xk)∥2=f(xk)+(−η+η2(2L))∥∇f(xk)∥2≤(−η+η2(2L))∥∇f(xk)∥2
如果选择步长以使右侧的系数为负,则使用 Polyak-Lojasiewicz 不等式可以得到
如果选择步长以使右侧的系数为负,则使用 Polyak-Lojasiewicz 不等式可以得到
f
(
x
k
+
1
)
−
f
(
x
k
)
≤
(
−
η
+
η
2
L
2
)
μ
(
f
(
x
k
)
−
f
∗
)
f\left(x_{k+1}\right)-f\left(x_k\right) \leq\left(-\eta+\frac{\eta^2 L}{2}\right) \mu\left(f\left(x_k\right)-f^*\right)
f(xk+1)−f(xk)≤(−η+2η2L)μ(f(xk)−f∗)
允许步长的范围为
[
0
,
2
/
L
]
[0 , 2 / L]
[0,2/L] ,步长为
1
/
L
1 / L
1/L 时达到的最佳速率。在此选择下,我们获
f
(
x
k
+
1
)
−
f
(
x
k
)
≤
−
μ
2
L
(
f
(
x
k
)
−
f
∗
)
f\left(x_{k+1}\right)-f\left(x_k\right) \leq-\frac{\mu}{2 L}\left(f\left(x_k\right)-f^*\right)
f(xk+1)−f(xk)≤−2Lμ(f(xk)−f∗)
将
f
(
x
−
k
)
−
f
∗
f\left(x_{-} k\right)-f^*
f(x−k)−f∗ 添加到两侧得到
f
(
x
k
+
1
)
−
f
∗
≤
(
1
−
μ
2
L
)
(
f
(
x
k
)
−
f
∗
)
f\left(x_{k+1}\right)-f^* \leq\left(1-\frac{\mu}{2 L}\right)\left(f\left(x_k\right)-f^*\right)
f(xk+1)−f∗≤(1−2Lμ)(f(xk)−f∗)
除以
f
(
x
_
k
)
−
f
∗
f\left(x \_k\right)-f^*
f(x_k)−f∗ 得到线性 (几何) 收敛率
f
(
x
k
+
1
)
−
f
∗
f
(
x
k
)
−
f
∗
≤
1
−
μ
2
L
\frac{f\left(x_{k+1}\right)-f^*}{f\left(x_k\right)-f^*} \leq 1-\frac{\mu}{2 L}
f(xk)−f∗f(xk+1)−f∗≤1−2Lμ
这表明当前函数值和最小值之间的差异至少与几何级数的减尔速度一样快,其速率 由PL和Lipschitz常数的比率决定。