第十章: 临近梯度法 (第二部分)
文章目录
7. 快速临近梯度法——FISTA
7.1 算法
先前我们在定理5中证明了, PGM在假设条件1下的 O ( 1 / k ) O(1/k) O(1/k)函数值收敛速度. 本节我们介绍如何加速PGM, 以获得 O ( 1 / k 2 ) O(1/k^2) O(1/k2)的函数值收敛速度. 我们称这一算法为快速邻近梯度法(fast proximal gradient method), 也习惯称之为FISTA(fast iterative shrinkage-thresholding algorithm). 关于“FISTA”这一名称的由来, 可见下面的例3.
为了获得更好的收敛速度, 我们不仅要改变已有的算法, 还要对模型做额外的假设: 我们假设 f f f是全空间 E \mathbb{E} E上的凸 L f L_f Lf-光滑函数. 本节用到的假设条件可见下面的假设条件2.
假设条件2
(i)
g
:
E
→
(
−
∞
,
∞
]
g:\mathbb{E}\to(-\infty,\infty]
g:E→(−∞,∞]为正常闭凸函数;
(ii)
f
:
E
→
R
f:\mathbb{E}\to\mathbb{R}
f:E→R为凸
L
f
L_f
Lf-光滑函数;
(iii) 问题的最优解集非空, 记为
X
∗
X^*
X∗; 最优值记为
F
o
p
t
F_{\mathrm{opt}}
Fopt.
FISTA的算法描述如下1:
粗略地从FISTA的算法描述看, FISTA与原始的PGM的区别在于, FISTA使用了一种类似于“预估-校正”的格式: 先利用当前的
y
k
\mathbf{y}^k
yk经一步prox-grad运算得到预估
x
k
+
1
\mathbf{x}^{k+1}
xk+1; 之后计算自适应步长
t
k
+
1
t_{k+1}
tk+1, 校正得到
y
k
+
1
\mathbf{y}^{k+1}
yk+1. 其中的自适应步长起到了重要的作用.
同之前一样, 我们考虑两种选取 L k L_k Lk的方式: 常值、回溯. 这里我们考虑回溯B3准则, 而它实际上就是在 y k \mathbf{y}^k yk上的B2准则.
- 常值: L k ≡ L f , ∀ k L_k\equiv L_f,\,\forall k Lk≡Lf,∀k;
- 回溯(B3): 输入两个参数
(
s
,
η
)
(s,\eta)
(s,η), 其中
s
>
0
,
η
>
1
s>0,\,\eta>1
s>0,η>1. 令
L
−
1
:
=
s
L_{-1}:=s
L−1:=s. 按如下流程选取
L
k
(
k
≥
0
)
L_k(k\ge0)
Lk(k≥0):
- L k : = L k − 1 L_k:=L_{k-1} Lk:=Lk−1;
- 若 f ( T L k ( y k ) ) > f ( y k ) + ⟨ ∇ f ( y k ) , T L k ( y k ) − y k ⟩ + L k 2 ∥ T L k ( y k ) − y k ∥ 2 , f(T_{L_k}(\mathbf{y}^k))>f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_k}{2}\Vert T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\Vert^2, f(TLk(yk))>f(yk)+⟨∇f(yk),TLk(yk)−yk⟩+2Lk∥TLk(yk)−yk∥2,则 L k : = η L k L_k:=\eta L_k Lk:=ηLk.
换句话说, B2准则选取的 L k L_k Lk形如 L k = L k − 1 η i k L_k=L_{k-1}\eta^{i_k} Lk=Lk−1ηik, 其中 i k i_k ik是使得下面不等式成立的最小非负整数: f ( T L k − 1 η i k ( y k ) ) ≤ f ( y k ) + ⟨ ∇ f ( y k ) , T L k − 1 η i k ( y k ) − y k ⟩ + L k − 1 η i k 2 ∥ T L k − 1 η i k ( y k ) − y k ∥ 2 . f(T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k))\le f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_{k-1}\eta^{i_k}}{2}\left\Vert T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k)-\mathbf{y}^k\right\Vert^2. f(TLk−1ηik(yk))≤f(yk)+⟨∇f(yk),TLk−1ηik(yk)−yk⟩+2Lk−1ηik∥∥TLk−1ηik(yk)−yk∥∥2.
类似于前面, 在两种步长准则下, 对
∀
k
≥
0
\forall k\ge0
∀k≥0,
f
(
T
L
k
(
y
k
)
)
≤
f
(
y
k
)
+
⟨
∇
f
(
y
k
)
,
T
L
k
(
y
k
)
−
y
k
⟩
+
L
k
2
∥
T
L
k
(
y
k
)
−
y
k
∥
2
.
f(T_{L_k}(\mathbf{y}^k))\le f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_k}{2}\left\Vert T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\right\Vert^2.
f(TLk(yk))≤f(yk)+⟨∇f(yk),TLk(yk)−yk⟩+2Lk∥∥TLk(yk)−yk∥∥2.
同时也有
L
k
L_k
Lk的上下界:
β
L
f
≤
L
k
≤
α
L
f
\beta L_f\le L_k\le\alpha L_f
βLf≤Lk≤αLf, 其中
α
,
β
\alpha,\beta
α,β的定义同前.
下面的引理6给出了 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k≥0的性质. 这将会在证明改进的收敛速度起作用.
引理6 设 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k≥0为按如下递归格式定义的序列: t 0 = 1 , t k + 1 = 1 + 1 + 4 t k 2 2 , k ≥ 0. t_0=1,\,t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2},\quad k\ge0. t0=1,tk+1=21+1+4tk2,k≥0.则 t k ≥ k + 2 2 , ∀ k ≥ 0 t_k\ge\frac{k+2}{2},\,\forall k\ge0 tk≥2k+2,∀k≥0.
证明: 我们对下标 k k k用数学归纳证明. 当 k = 0 k=0 k=0时, 显然 t 0 = 1 ≥ 0 + 2 2 t_0=1\ge\frac{0+2}{2} t0=1≥20+2. 现设结论对 k k k成立, 即 t k ≥ k + 2 2 t_k\ge\frac{k+2}{2} tk≥2k+2. 下面我们证明 t k + 1 ≥ k + 3 2 t_{k+1}\ge\frac{k+3}{2} tk+1≥2k+3. 由递归公式与归纳假设, t k + 1 = 1 + 1 + 4 t k 2 2 ≥ 1 + 1 + ( k + 2 ) 2 2 ≥ 1 + ( k + 2 ) 2 2 = k + 3 2 . t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}\ge\frac{1+\sqrt{1+(k+2)^2}}{2}\ge\frac{1+\sqrt{(k+2)^2}}{2}=\frac{k+3}{2}. tk+1=21+1+4tk2≥21+1+(k+2)2≥21+(k+2)2=2k+3.于是得证.
7.2 FISTA的收敛性质
定理14 (FISTA的 O ( 1 / k 2 ) O(1/k^2) O(1/k2)收敛速度) 假定假设条件2成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由基于常值 L k ≡ L f , ∀ k ≥ 0 L_k\equiv L_f,\,\forall k\ge0 Lk≡Lf,∀k≥0或回溯B3 ( s , η ) : s > 0 , η > 1 (s,\eta):s>0,\,\eta>1 (s,η):s>0,η>1步长准则的FISTA生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ , k ≥ 1 \forall\mathbf{x}^*\in X^*,\,k\ge1 ∀x∗∈X∗,k≥1, F ( x k ) − F o p t ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 , F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}, F(xk)−Fopt≤(k+1)22αLf∥x0−x∗∥2,其中 α = { 1 , 常 值 , max { η , s L f } , 回 溯 . \alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right. α={1,max{η,Lfs},常值,回溯.
证明: 设 k ≥ 1 k\ge1 k≥1. 由于在两种步长准则下均有充分下降条件成立, 令prox-grad基本不等式中的 x = t k − 1 x ∗ + ( 1 − t k − 1 ) x k , y = y k , L = L k \mathbf{x}=t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k,\,L=L_k x=tk−1x∗+(1−tk−1)xk,y=yk,L=Lk, 我们有 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( x k + 1 ) ≥ L k 2 ∥ x k + 1 − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 + ℓ f ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k , y k ) ≥ L k 2 ∥ x k + 1 − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 ( f 是 凸 函 数 ) = L k 2 t k 2 ∥ t k x k + 1 − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 − L k 2 t k 2 ∥ t k y k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 . \begin{aligned}&F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\ge\frac{L_k}{2}\left\Vert\mathbf{x}^{k+1}-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2}\left\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\mathbf{y}^k)\\&\ge\frac{L_k}{2}\left\Vert\mathbf{x}^{k+1}-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2}\left\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2\,(f是凸函数)\\&=\frac{L_k}{2t_k^2}\left\Vert t_k\mathbf{x}^{k+1}-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2t_k^2}\left\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\right\Vert^2.\end{aligned} F(tk−1x∗+(1−tk−1)xk)−F(xk+1)≥2Lk∥∥xk+1−(tk−1x∗+(1−tk−1)xk)∥∥2−2Lk∥∥yk−(tk−1x∗+(1−tk−1)xk)∥∥2+ℓf(tk−1x∗+(1−tk−1)xk,yk)≥2Lk∥∥xk+1−(tk−1x∗+(1−tk−1)xk)∥∥2−2Lk∥∥yk−(tk−1x∗+(1−tk−1)xk)∥∥2(f是凸函数)=2tk2Lk∥∥tkxk+1−(x∗+(tk−1)xk)∥∥2−2tk2Lk∥∥tkyk−(x∗+(tk−1)xk)∥∥2.由于 F F F是凸函数以及 t k ≥ 1 , ∀ k ≥ 0 t_k\ge1,\forall k\ge0 tk≥1,∀k≥0, 所以 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ≤ t k − 1 F ( x ∗ ) + ( 1 − t k − 1 ) F ( x k ) . F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\le t_k^{-1}F(\mathbf{x}^*)+(1-t_k^{-1})F(\mathbf{x}^k). F(tk−1x∗+(1−tk−1)xk)≤tk−1F(x∗)+(1−tk−1)F(xk).记 v n ≡ F ( x n ) − F o p t v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}} vn≡F(xn)−Fopt. 则对 ∀ n ≥ 0 \forall n\ge0 ∀n≥0, F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( x k + 1 ) ≤ ( 1 − t k − 1 ) ( F ( x k ) − F ( x ∗ ) ) − ( F ( x k + 1 ) − F ( x ∗ ) ) = ( 1 − t k − 1 ) v k − v k + 1 . \begin{aligned}F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})&\le(1-t_k^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))\\&=(1-t_k^{-1})v_k-v_{k+1}.\end{aligned} F(tk−1x∗+(1−tk−1)xk)−F(xk+1)≤(1−tk−1)(F(xk)−F(x∗))−(F(xk+1)−F(x∗))=(1−tk−1)vk−vk+1.另一边, 代入 y k = x k + ( t k − 1 − 1 t k ) ( x k − x k − 1 ) \mathbf{y}^k=\mathbf{x}^k+\left(\frac{t_{k-1}-1}{t_k}\right)(\mathbf{x}^k-\mathbf{x}^{k-1}) yk=xk+(tktk−1−1)(xk−xk−1), ∥ t k y k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 = ∥ t k x k + ( t k − 1 − 1 ) ( x k − x k − 1 ) − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 = ∥ t k − 1 x k − ( x ∗ + ( t k − 1 − 1 ) x k − 1 ) ∥ 2 . \begin{aligned}\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2&=\Vert t_k\mathbf{x}^k+(t_{k-1}-1)(\mathbf{x}^k-\mathbf{x}^{k-1})-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2\\&=\Vert t_{k-1}\mathbf{x}^k-(\mathbf{x}^*+(t_{k-1}-1)\mathbf{x}^{k-1})\Vert^2.\end{aligned} ∥tkyk−(x∗+(tk−1)xk)∥2=∥tkxk+(tk−1−1)(xk−xk−1)−(x∗+(tk−1)xk)∥2=∥tk−1xk−(x∗+(tk−1−1)xk−1)∥2.记 u n = t n − 1 x n − ( x ∗ + ( t n − 1 − 1 ) x n − 1 ) , ∀ n ≥ 1 \mathbf{u}^n=t_{n-1}\mathbf{x}^n-(\mathbf{x}^*+(t_{n-1}-1)\mathbf{x}^{n-1}),\,\forall n\ge1 un=tn−1xn−(x∗+(tn−1−1)xn−1),∀n≥1. 则有 ( t k 2 − t k ) v k − t k 2 v k + 1 ≥ L k 2 ∥ u k + 1 ∥ 2 − L k 2 ∥ u k ∥ 2 . (t_k^2-t_k)v_k-t_k^2v_{k+1}\ge\frac{L_k}{2}\Vert\mathbf{u}^{k+1}\Vert^2-\frac{L_k}{2}\Vert\mathbf{u}^k\Vert^2. (tk2−tk)vk−tk2vk+1≥2Lk∥uk+1∥2−2Lk∥uk∥2.由 t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2可以推出 t k 2 − t k = t k − 1 2 t_k^2-t_k=t_{k-1}^2 tk2−tk=tk−12, 同时考虑到 L k ≥ L k − 1 L_k\ge L_{k-1} Lk≥Lk−1, 所以 2 L k − 1 t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ 2 L k t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ ∥ u k + 1 ∥ 2 − ∥ u k ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\frac{2}{L_k}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\Vert\mathbf{u}^{k+1}\Vert^2-\Vert\mathbf{u}^k\Vert^2. Lk−12tk−12vk−Lk2tk2vk+1≥Lk2tk−12vk−Lk2tk2vk+1≥∥uk+1∥2−∥uk∥2.于是移项可得 ∥ u k + 1 ∥ 2 + 2 L k t k 2 v k + 1 ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k , \Vert\mathbf{u}^{k+1}\Vert^2+\frac{2}{L_k}t_k^2v_{k+1}\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k, ∥uk+1∥2+Lk2tk2vk+1≤∥uk∥2+Lk−12tk−12vk,继续递推可得对 ∀ k ≥ 1 \forall k\ge1 ∀k≥1, ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ u 1 ∥ 2 + 2 L 0 t 0 2 v 1 = ∥ x 1 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) . \Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^1\Vert^2+\frac{2}{L_0}t_0^2v_1=\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}}). ∥uk∥2+Lk−12tk−12vk≤∥u1∥2+L02t02v1=∥x1−x∗∥2+L02(F(x1)−Fopt).继续在prox-grad基本不等式中令 x = x ∗ , y = y 0 , L = L 0 \mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{y}^0,\,L=L_0 x=x∗,y=y0,L=L0, 则 2 L 0 ( F ( x ∗ ) − F ( x 1 ) ) ≥ ∥ x 1 − x ∗ ∥ 2 − ∥ y 0 − x ∗ ∥ 2 + ℓ f ( x ∗ , y 0 ) ≥ ∥ x 1 − x ∗ ∥ 2 − ∥ y 0 − x ∗ ∥ 2 . \frac{2}{L_0}(F(\mathbf{x}^*)-F(\mathbf{x}^1))\ge\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2+\ell_f(\mathbf{x}^*,\mathbf{y}^0)\ge\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2. L02(F(x∗)−F(x1))≥∥x1−x∗∥2−∥y0−x∗∥2+ℓf(x∗,y0)≥∥x1−x∗∥2−∥y0−x∗∥2.又 y 0 = x 0 \mathbf{y}^0=\mathbf{x}^0 y0=x0, 所以 ∥ x 1 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) ≤ ∥ x 0 − x ∗ ∥ 2 . \Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}})\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. ∥x1−x∗∥2+L02(F(x1)−Fopt)≤∥x0−x∗∥2.代入之前的不等式即有 2 L k − 1 t k − 1 2 v k ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ x 0 − x ∗ ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. Lk−12tk−12vk≤∥uk∥2+Lk−12tk−12vk≤∥x0−x∗∥2.由 v k v_k vk的定义, L k 1 ≤ α L f L_{k_1}\le\alpha L_f Lk1≤αLf与引理6, 最终得到 F ( x k ) − F o p t ≤ L k − 1 ∥ x 0 − x ∗ ∥ 2 2 t k − 1 2 ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 . F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{L_{k-1}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{2t_{k-1}^2}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}. F(xk)−Fopt≤2tk−12Lk−1∥x0−x∗∥2≤(k+1)22αLf∥x0−x∗∥2.
由定理14的证明我们发现, 对于自适应步长序列 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k≥0, 我们真正用到的性质只有
- t k ≥ k + 2 2 t_k\ge\frac{k+2}{2} tk≥2k+2;
- t k 2 − t k ≤ t k − 1 2 t_k^2-t_k\le t_{k-1}^2 tk2−tk≤tk−12.
因此满足这两个性质的步长均可以得到FISTA的 O ( 1 / k 2 ) O(1/k^2) O(1/k2)收敛速度. 例如 t k = k + 2 2 t_k=\frac{k+2}{2} tk=2k+2.
7.3 FISTA应用实例
例3 考虑以下问题 min x ∈ R n f ( x ) + λ ∥ x ∥ 1 , \min_{\mathbf{x}\in\mathbb{R}^n}f(\mathbf{x})+\lambda\Vert\mathbf{x}\Vert_1, x∈Rnminf(x)+λ∥x∥1,其中 λ > 0 , f : R n → R \lambda>0,\,f:\mathbb{R}^n\to\mathbb{R} λ>0,f:Rn→R为凸 L f L_f Lf-光滑函数. 我们在例2中考虑过这个问题. 当时我们用PGM处理, 得到ISTA算法. 其更新格式(取步长为 1 L f \frac{1}{L_f} Lf1)为 x k + 1 = T λ L f ( x k − 1 L f ∇ f ( x k ) ) . \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_f}}\left(\mathbf{x}^k-\frac{1}{L_f}\nabla f(\mathbf{x}^k)\right). xk+1=TLfλ(xk−Lf1∇f(xk)).而若使用FISTA, 则更新格式分为以下3步:
- x k + 1 = T λ L f ( y k − 1 L f ∇ f ( y k ) ) \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_f}}\left(\mathbf{y}^k-\frac{1}{L_f}\nabla f(\mathbf{y}^k)\right) xk+1=TLfλ(yk−Lf1∇f(yk));
- t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2;
- y k + 1 = x k + 1 + ( t k − 1 t k + 1 ) ( x k + 1 − x k ) \mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k) yk+1=xk+1+(tk+1tk−1)(xk+1−xk).
事实上, 对于这一问题的快速临近梯度法才能称得上是FISTA. 这是因为它实质是上ISTA的加速版本. 不过本书中, 我们仍将FISTA指代为处理一般非光滑 g g g的快速临近梯度法.
例4 ( ℓ 1 \ell_1 ℓ1-正则最小二乘) 考虑例3的特殊情形: min x ∈ R n 1 2 ∥ A x − b ∥ 2 2 + λ ∥ x ∥ 1 , \min_{\mathbf{x}\in\mathbb{R}^n}\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2+\lambda\Vert\mathbf{x}\Vert_1, x∈Rnmin21∥Ax−b∥22+λ∥x∥1,其中 A ∈ R m × n , b ∈ R m , λ > 0 \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\lambda>0 A∈Rm×n,b∈Rm,λ>0. 易知函数 f ( x ) = 1 2 ∥ A x − b ∥ 2 2 f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2 f(x)=21∥Ax−b∥22是凸 L f L_f Lf-光滑函数, 其中 L f = ∥ A T A ∥ 2 , 2 = λ max ( A T A ) L_f=\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}=\lambda_{\max}(\mathbf{A}^T\mathbf{A}) Lf=∥ATA∥2,2=λmax(ATA). 对此问题, FISTA的更新格式分为以下3步:
- x k + 1 = T λ L k ( y k − 1 L k A T ( A y k − b ) ) \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_k}}\left(\mathbf{y}^k-\frac{1}{L_k}\mathbf{A}^T(\mathbf{A}\mathbf{y}^k-\mathbf{b})\right) xk+1=TLkλ(yk−Lk1AT(Ayk−b));
- t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2;
- y k + 1 = x k + 1 + ( t k − 1 t k + 1 ) ( x k + 1 − x k ) \mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k) yk+1=xk+1+(tk+1tk−1)(xk+1−xk).
ISTA的更新格式只有1步: x k + 1 = T λ L k ( x k − 1 L k A T ( A x k − b ) ) . \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_k}}\left(\mathbf{x}^k-\frac{1}{L_k}\mathbf{A}^T(\mathbf{Ax}^k-\mathbf{b})\right). xk+1=TLkλ(xk−Lk1AT(Axk−b)).两种方法的步长均可以选取为 L k ≡ λ max ( A T A ) L_k\equiv\lambda_{\max}(\mathbf{A}^T\mathbf{A}) Lk≡λmax(ATA).
为更清楚地说明FISTA与ISTA处理问题效果的差别, 我们按标准正态分布独立随机生成了 A ∈ R 100 × 110 \mathbf{A}\in\mathbb{R}^{100\times110} A∈R100×110的分量. 令 λ = 1 \lambda=1 λ=1. 我们设问题的真实解为 x true = e 3 − e 7 \mathbf{x}_{\text{true}}=\mathbf{e}_3-\mathbf{e}_7 xtrue=e3−e7, 从而 b = A x true \mathbf{b}=\mathbf{A}\mathbf{x}_{\text{true}} b=Axtrue. 从初始点 x = e \mathbf{x}=\mathbf{e} x=e出发, 运行ISTA与FISTA迭代200步.
我们同时也关注解的稀疏性. ℓ 1 \ell_1 ℓ1-正则已被广泛应用, 其中一个原因便是它可以促使算法输出较为稀疏的解2.
我们画出 { F ( x k ) − F o p t ) } k ≥ 0 \{F(\mathbf{x}^k)-F_{\mathrm{opt}})\}_{k\ge0} {F(xk)−Fopt)}k≥0以及迭代200次后输出的解.
不论从函数值收敛的速度, 还是输出解的稀疏性, FISTA在此问题上都要明显优于ISTA.
7.4 MFISTA
FISTA产生的函数值序列并不是单调下降的. 不过, 我们也可以修改原本的FISTA得到它的一种单调变体——MFISTA. 我们同时也希望MFISTA能到达与FISTA同样的收敛速度. 这便是本小节要说明的内容.
从上述算法描述即可知, 产生的函数值序列
{
F
(
x
k
}
k
≥
0
\{F(\mathbf{x}^k\}_{k\ge0}
{F(xk}k≥0是单调下降的. 同时, 为了满足©中的条件, 一种很自然的选择就是
x
k
+
1
∈
arg
min
{
F
(
x
)
:
x
=
x
k
,
z
k
}
\mathbf{x}^{k+1}\in\arg\min\{F(\mathbf{x}):\mathbf{x}=\mathbf{x}^k,\mathbf{z}^k\}
xk+1∈argmin{F(x):x=xk,zk}. 而在证明MFISTA的收敛速度时, 我们仅要用到
F
(
x
k
+
1
)
≤
F
(
z
k
)
F(\mathbf{x}^{k+1})\le F(\mathbf{z}^k)
F(xk+1)≤F(zk).
MFISTA收敛速度的证明与FISTA的是类似的.
定理15 (MFISTA的 O ( 1 / k 2 ) O(1/k^2) O(1/k2)收敛速度) 假定假设条件2成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由基于常值 L k ≡ L f , ∀ k ≥ 0 L_k\equiv L_f,\,\forall k\ge0 Lk≡Lf,∀k≥0或回溯B3 ( s , η ) : s > 0 , η > 1 (s,\eta):s>0,\eta>1 (s,η):s>0,η>1步长准则的MFISTA生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ , k ≥ 1 \forall\mathbf{x}^*\in X^*,\,k\ge1 ∀x∗∈X∗,k≥1, F ( x k ) − F o p t ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 , F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}, F(xk)−Fopt≤(k+1)22αLf∥x0−x∗∥2,其中 α = { 1 , 常 值 , max { η , s L f } , 回 溯 . \alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right. α={1,max{η,Lfs},常值,回溯.
证明: 设 k ≥ 1 k\ge1 k≥1. 由于在两种步长准则都满足充分下降条件, 在prox-grad基本不等式中令 x = t k − 1 x ∗ + ( 1 − t k − 1 ) x k , y = y k , L = L k \mathbf{x}=t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k,\,L=L_k x=tk−1x∗+(1−tk−1)xk,y=yk,L=Lk, 我们有 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( z k ) ≥ L k 2 ∥ z k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 + ℓ f ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k , y k ) ≥ L k 2 ∥ z k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 + ℓ f ( t k − 1 x ∗ ( f 是 凸 函 数 ) = L k 2 t k 2 ∥ t k z k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 − L k 2 t k 2 ∥ t k y k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 . \begin{aligned}&F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{z}^k)\\&\ge\frac{L_k}{2}\Vert\mathbf{z}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2-\frac{L_k}{2}\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\mathbf{y}^k)\\&\ge\frac{L_k}{2}\Vert\mathbf{z}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2-\frac{L_k}{2}\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*\,(f是凸函数)\\&=\frac{L_k}{2t_k^2}\Vert t_k\mathbf{z}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2-\frac{L_k}{2t_k^2}\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2.\end{aligned} F(tk−1x∗+(1−tk−1)xk)−F(zk)≥2Lk∥zk−(tk−1x∗+(1−tk−1)xk)∥2−2Lk∥yk−(tk−1x∗+(1−tk−1)xk)∥2+ℓf(tk−1x∗+(1−tk−1)xk,yk)≥2Lk∥zk−(tk−1x∗+(1−tk−1)xk)∥2−2Lk∥yk−(tk−1x∗+(1−tk−1)xk)∥2+ℓf(tk−1x∗(f是凸函数)=2tk2Lk∥tkzk−(x∗+(tk−1)xk)∥2−2tk2Lk∥tkyk−(x∗+(tk−1)xk)∥2.由 F F F是凸函数, t k ≥ 1 t_k\ge1 tk≥1, 我们有 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ≤ t k − 1 F ( x ∗ ) + ( 1 − t k − 1 ) F ( x k ) . F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\le t_k^{-1}F(\mathbf{x}^*)+(1-t_k^{-1})F(\mathbf{x}^k). F(tk−1x∗+(1−tk−1)xk)≤tk−1F(x∗)+(1−tk−1)F(xk).记 v n ≡ F ( x n ) − F o p t , ∀ n ≥ 0 v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}},\,\forall n\ge0 vn≡F(xn)−Fopt,∀n≥0. 由于 F ( x k + 1 ) ≤ F ( z k ) F(\mathbf{x}^{k+1})\le F(\mathbf{z}^k) F(xk+1)≤F(zk), 所以 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( z k ) ≤ ( 1 − t k − 1 ) ( F ( x k ) − F ( x ∗ ) ) − ( F ( x k + 1 ) − F ( x ∗ ) ) = ( 1 − t k − 1 ) v k − v k + 1 . \begin{aligned}F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{z}^k)&\le(1-t_k^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))\\&=(1-t_k^{-1})v_k-v_{k+1}.\end{aligned} F(tk−1x∗+(1−tk−1)xk)−F(zk)≤(1−tk−1)(F(xk)−F(x∗))−(F(xk+1)−F(x∗))=(1−tk−1)vk−vk+1.另一边, 由于 y k = x k + t k − 1 t k ( z k − 1 − x k ) + ( t k − 1 − 1 t k ) ( x k − x k − 1 ) \mathbf{y}^k=\mathbf{x}^k+\frac{t_{k-1}}{t_k}(\mathbf{z}^{k-1}-\mathbf{x}^k)+\left(\frac{t_{k-1}-1}{t_k}\right)(\mathbf{x}^k-\mathbf{x}^{k-1}) yk=xk+tktk−1(zk−1−xk)+(tktk−1−1)(xk−xk−1), 所以 t k y k − ( x ∗ + ( t k − 1 ) x k ) = t k − 1 z k − 1 − ( x ∗ + ( t k − 1 − 1 ) x k − 1 ) . t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)=t_{k-1}\mathbf{z}^{k-1}-(\mathbf{x}^*+(t_{k-1}-1)\mathbf{x}^{k-1}). tkyk−(x∗+(tk−1)xk)=tk−1zk−1−(x∗+(tk−1−1)xk−1).记 u n = t n − 1 z n − 1 − ( x ∗ + ( t n − 1 − 1 ) x n − 1 ) , ∀ n ≥ 1 \mathbf{u}^{n}=t_{n-1}\mathbf{z}^{n-1}-(\mathbf{x}^*+(t_{n-1}-1)\mathbf{x}^{n-1}),\,\forall n\ge1 un=tn−1zn−1−(x∗+(tn−1−1)xn−1),∀n≥1. 合起来就有 ( t k 2 − t k ) v k − t k 2 v k + 1 ≥ L k 2 ∥ u k + 1 ∥ 2 − L k 2 ∥ u k ∥ 2 . (t_k^2-t_k)v_k-t_k^2v_{k+1}\ge\frac{L_k}{2}\Vert\mathbf{u}^{k+1}\Vert^2-\frac{L_k}{2}\Vert\mathbf{u}^k\Vert^2. (tk2−tk)vk−tk2vk+1≥2Lk∥uk+1∥2−2Lk∥uk∥2.由于 t k 2 − t k = t k − 1 2 t_k^2-t_k=t_{k-1}^2 tk2−tk=tk−12以及 L k ≥ L k − 1 L_k\ge L_{k-1} Lk≥Lk−1, 因此 2 L k − 1 t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ 2 L k t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ ∥ u k + 1 ∥ 2 − ∥ u k ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\frac{2}{L_k}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\Vert\mathbf{u}^{k+1}\Vert^2-\Vert\mathbf{u}^k\Vert^2. Lk−12tk−12vk−Lk2tk2vk+1≥Lk2tk−12vk−Lk2tk2vk+1≥∥uk+1∥2−∥uk∥2.整理后可得 ∥ u k + 1 ∥ 2 + 2 L k t k 2 v k + 1 ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k , \Vert\mathbf{u}^{k+1}\Vert^2+\frac{2}{L_k}t_k^2v_{k+1}\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k, ∥uk+1∥2+Lk2tk2vk+1≤∥uk∥2+Lk−12tk−12vk,对指标 k k k递推可得, 对 ∀ k ≥ 1 \forall k\ge1 ∀k≥1, ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ u 1 ∥ 2 + 2 L 0 t 0 2 v 1 = ∥ z 0 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) . \Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^1\Vert^2+\frac{2}{L_0}t_0^2v_1=\Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}}). ∥uk∥2+Lk−12tk−12vk≤∥u1∥2+L02t02v1=∥z0−x∗∥2+L02(F(x1)−Fopt).再在prox-grad基本不等式中令 x = x ∗ , y = y 0 , L = L 0 \mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{y}^0,\,L=L_0 x=x∗,y=y0,L=L0并利用 f f f的凸性, 即得 2 L 0 ( F ( x ∗ ) − F ( z 0 ) ) ≥ ∥ z 0 − x ∗ ∥ 2 − ∥ y 0 − x ∗ ∥ 2 , \frac{2}{L_0}(F(\mathbf{x}^*)-F(\mathbf{z}^0))\ge\Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2, L02(F(x∗)−F(z0))≥∥z0−x∗∥2−∥y0−x∗∥2,因为 y 0 = x 0 , F ( x 1 ) ≤ F ( z 0 ) \mathbf{y}^0=\mathbf{x}^0,\,F(\mathbf{x}^1)\le F(\mathbf{z}^0) y0=x0,F(x1)≤F(z0), 所以 ∥ z 0 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) ≤ ∥ x 0 − x ∗ ∥ 2 . \Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}})\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. ∥z0−x∗∥2+L02(F(x1)−Fopt)≤∥x0−x∗∥2.代入可得 2 L k − 1 t k − 1 2 v k ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ x 0 − x ∗ ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. Lk−12tk−12vk≤∥uk∥2+Lk−12tk−12vk≤∥x0−x∗∥2.移项并利用 L k − 1 ≤ α L f L_{k-1}\le\alpha L_f Lk−1≤αLf, v k v_k vk的定义以及引理6, 即有 F ( x k ) − F o p t ≤ L k − 1 ∥ x 0 − x ∗ ∥ 2 2 t k − 1 2 ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 . F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{L_{k-1}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{2t_{k-1}^2}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}. F(xk)−Fopt≤2tk−12Lk−1∥x0−x∗∥2≤(k+1)22αLf∥x0−x∗∥2.
注意这个结果与FISTA的是一样的.
7.5 加权FISTA
我们在本章中默认空间是欧式空间, 但这并不意味着空间内积必定是点积. 现假定 E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 内积为 Q \mathbf{Q} Q-内积: ⟨ x , y ⟩ = x T Q y \langle\mathbf{x,y}\rangle=\mathbf{x}^T\mathbf{Qy} ⟨x,y⟩=xTQy, 其中 Q ∈ S + + n \mathbf{Q}\in\mathbb{S}_{++}^n Q∈S++n. 此时由第三章第3.3节的注4可得 ∇ f ( x ) = Q − 1 D f ( x ) , \nabla f(\mathbf{x})=\mathbf{Q}^{-1}D_f(\mathbf{x}), ∇f(x)=Q−1Df(x),其中 D f ( x ) = ( ∂ f ∂ x 1 ( x ) ∂ f ∂ x 2 ( x ) ⋮ ∂ f ∂ x n ( x ) ) . D_f(\mathbf{x})=\begin{pmatrix}\frac{\partial f}{\partial x_1}(\mathbf{x})\\\frac{\partial f}{\partial x_2}(\mathbf{x})\\\vdots\\\frac{\partial f}{\partial x_n}(\mathbf{x})\end{pmatrix}. Df(x)=⎝⎜⎜⎜⎜⎛∂x1∂f(x)∂x2∂f(x)⋮∂xn∂f(x)⎠⎟⎟⎟⎟⎞.我们假设 f f f对 Q \mathbf{Q} Q-范数是 L f Q L_f^{\mathbf{Q}} LfQ-光滑的, 即 ∥ Q − 1 D f ( x ) − Q − 1 D f ( y ) ∥ Q ≤ L f Q ∥ x − y ∥ Q , ∀ x , y ∈ R n . \Vert\mathbf{Q}^{-1}D_f(\mathbf{x})-\mathbf{Q}^{-1}D_f(\mathbf{y})\Vert_{\mathbf{Q}}\le L_f^{\mathbf{Q}}\Vert\mathbf{x-y}\Vert_{\mathbf{Q}},\quad\forall\mathbf{x,y}\in\mathbb{R}^n. ∥Q−1Df(x)−Q−1Df(y)∥Q≤LfQ∥x−y∥Q,∀x,y∈Rn.于是此时的FISTA更新格式变为以下3步:
- x k + 1 = p r o x 1 L f Q g ( y k − 1 L f Q Q − 1 D f ( y k ) ) \mathbf{x}^{k+1}=\mathrm{prox}_{\frac{1}{L_f^{\mathbf{Q}}g}}\left(\mathbf{y}^k-\frac{1}{L_f^{\mathbf{Q}}}\mathbf{Q}^{-1}D_f(\mathbf{y}^k)\right) xk+1=proxLfQg1(yk−LfQ1Q−1Df(yk));
- t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2;
- y k + 1 = x k + 1 + ( t k − 1 t k + 1 ) ( x k + 1 − x k ) \mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k) yk+1=xk+1+(tk+1tk−1)(xk+1−xk).
注意其中第1步的临近算子中的临近项要以 Q \mathbf{Q} Q-范数计算: p r o x h ( x ) = arg min u ∈ R n { h ( u ) + 1 2 ∥ u − x ∥ Q 2 } . \mathrm{prox}_h(\mathbf{x})=\arg\min_{\mathbf{u}\in\mathbb{R}^n}\left\{h(\mathbf{u})+\frac{1}{2}\Vert\mathbf{u-x}\Vert_{\mathbf{Q}}^2\right\}. proxh(x)=argu∈Rnmin{h(u)+21∥u−x∥Q2}.定理14的收敛结论就变成 F ( x k ) − F o p t ≤ 2 L f Q ∥ x 0 − x ∗ ∥ Q 2 ( k + 1 ) 2 . F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2L_f^{\mathbf{Q}}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert_{\mathbf{Q}}^2}{(k+1)^2}. F(xk)−Fopt≤(k+1)22LfQ∥x0−x∗∥Q2.
7.6 强凸情形下的重启FISTA
我们现在再来考虑FISTA在 f f f是 σ \sigma σ-强凸函数时的应用. 由定理12, PGM在强凸情形下的收敛速度由原来的 O ( 1 / k ) O(1/k) O(1/k)改进到线性收敛速度. 因此我们自然要问FISTA在强凸的情形下能获得多大的改进. 我们将会给出两种讨论的路线. 它们均能将收敛速度改进为线性的.
首先, 我们来看最有意思的一条路线: 重启FISTA.
重启FISTA本质上包含内外迭代: 每个外迭代包含
N
N
N个FISTA内迭代. 为避免混淆, 我们称外迭代为循环(cycle). 下面的定理16给出了重启FISTA的复杂度分析.
定理16 (重启FISTA的
O
(
κ
log
(
1
ϵ
)
)
O\left(\sqrt{\kappa}\log\left(\frac{1}{\epsilon}\right)\right)
O(κlog(ϵ1))复杂度) 假定假设条件2成立, 且
f
f
f是
σ
\sigma
σ-强凸函数
(
σ
>
0
)
(\sigma>0)
(σ>0). 设
{
z
k
}
k
≥
0
\{\mathbf{z}^k\}_{k\ge0}
{zk}k≥0为由
N
=
⌈
8
κ
−
1
⌉
N=\lceil\sqrt{8\kappa}-1\rceil
N=⌈8κ−1⌉的重启FISTA产生的外迭代序列, 其中
κ
=
L
f
σ
\kappa=\frac{L_f}{\sigma}
κ=σLf. 设
R
R
R为
∥
z
−
1
−
x
∗
∥
\Vert\mathbf{z}^{-1}-\mathbf{x}^*\Vert
∥z−1−x∗∥的一个上界, 其中
x
∗
\mathbf{x}^*
x∗为问题的唯一最优解. 则
(i) 对
∀
k
≥
0
\forall k\ge0
∀k≥0,
F
(
z
k
)
−
F
o
p
t
≤
L
f
R
2
2
(
1
2
)
k
;
F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^k;
F(zk)−Fopt≤2LfR2(21)k;(ii) 若
k
k
k满足
k
≥
8
κ
(
log
(
1
ϵ
)
log
(
2
)
+
log
(
L
f
R
2
)
log
(
2
)
)
,
k\ge\sqrt{8\kappa}\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right),
k≥8κ(log(2)log(ϵ1)+log(2)log(LfR2)),则经
k
k
k次FISTA迭代后, 有
F
(
z
⌊
k
N
⌋
)
−
F
o
p
t
≤
ϵ
.
F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\epsilon.
F(z⌊Nk⌋)−Fopt≤ϵ.
证明: (i) 由定理14, 对 ∀ n ≥ 0 \forall n\ge0 ∀n≥0, F ( z n + 1 ) − F o p t ≤ 2 L f ∥ z n − x ∗ ∥ 2 ( N + 1 ) 2 . F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{2L_f\Vert\mathbf{z}^n-\mathbf{x}^*\Vert^2}{(N+1)^2}. F(zn+1)−Fopt≤(N+1)22Lf∥zn−x∗∥2.因 f f f是 σ \sigma σ-强凸函数, 由强凸函数在极小点附近的增长性质(第五章定理7(ii)), F ( z n ) − F o p t ≥ σ 2 ∥ z n − x ∗ ∥ 2 , F(\mathbf{z}^n)-F_{\mathrm{opt}}\ge\frac{\sigma}{2}\Vert\mathbf{z}^n-\mathbf{x}^*\Vert^2, F(zn)−Fopt≥2σ∥zn−x∗∥2,合起来便有 F ( z n + 1 ) − F o p t ≤ 4 κ ( F ( z n ) − F o p t ) ( N + 1 ) 2 . F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{4\kappa(F(\mathbf{z}^n)-F_{\mathrm{opt}})}{(N+1)^2}. F(zn+1)−Fopt≤(N+1)24κ(F(zn)−Fopt).因为 n ≥ 8 κ − 1 n\ge\sqrt{8\kappa}-1 n≥8κ−1, 所以 4 κ ( N + 1 ) 2 ≤ 1 2 \frac{4\kappa}{(N+1)^2}\le\frac{1}{2} (N+1)24κ≤21, F ( z n + 1 ) − F o p t ≤ 1 2 ( F ( z n ) − F o p t ) F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{1}{2}(F(\mathbf{z}^n)-F_{\mathrm{opt}}) F(zn+1)−Fopt≤21(F(zn)−Fopt). 对指标 n n n递推即可得 F ( z k ) − F o p t ≤ ( 1 2 ) k ( F ( z 0 ) − F o p t ) . F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\left(\frac{1}{2}\right)^k(F(\mathbf{z}^0)-F_{\mathrm{opt}}). F(zk)−Fopt≤(21)k(F(z0)−Fopt).注意到 z 0 = T L f ( z − 1 ) \mathbf{z}^0=T_{L_f}(\mathbf{z}^{-1}) z0=TLf(z−1). 在prox-grad基本不等式中令 x = x ∗ , y = z − 1 , L = L f \mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{z}^{-1},\,L=L_f x=x∗,y=z−1,L=Lf, 并考虑到 f f f是凸函数, 就有 F ( x ∗ ) − F ( z 0 ) ≥ L f 2 ∥ x ∗ − z 0 ∥ 2 − L f 2 ∥ x ∗ − z − 1 ∥ 2 , F(\mathbf{x}^*)-F(\mathbf{z}^0)\ge\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^0\Vert^2-\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^{-1}\Vert^2, F(x∗)−F(z0)≥2Lf∥x∗−z0∥2−2Lf∥x∗−z−1∥2,因此 F ( z 0 ) − F o p t ≤ L f 2 ∥ x ∗ − z − 1 ∥ 2 ≤ L f R 2 2 . F(\mathbf{z}^0)-F_{\mathrm{opt}}\le\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^{-1}\Vert^2\le\frac{L_fR^2}{2}. F(z0)−Fopt≤2Lf∥x∗−z−1∥2≤2LfR2.于是 F ( z k ) − F o p t ≤ L f R 2 2 ( 1 2 ) k . F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^k. F(zk)−Fopt≤2LfR2(21)k.
(ii) 在FISTA迭代 k k k步后, 共经历 ⌊ k N ⌋ \lfloor\frac{k}{N}\rfloor ⌊Nk⌋次循环. 由(i), F ( z ⌊ k N ⌋ ) − F o p t ≤ L f R 2 2 ( 1 2 ) ⌊ k N ⌋ ≤ L f R 2 ( 1 2 ) k N . F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^{\lfloor\frac{k}{N}\rfloor}\le L_fR^2\left(\frac{1}{2}\right)^{\frac{k}{N}}. F(z⌊Nk⌋)−Fopt≤2LfR2(21)⌊Nk⌋≤LfR2(21)Nk.为使 F ( z ⌊ k N ⌋ ) − F o p t ≤ ϵ F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\epsilon F(z⌊Nk⌋)−Fopt≤ϵ, 只需 L f R 2 ( 1 2 ) k N ≤ ϵ ⇒ k ≥ N ( log ( 1 ϵ ) log ( 2 ) + log ( L f R 2 ) log ( 2 ) ) . L_fR^2\left(\frac{1}{2}\right)^{\frac{k}{N}}\le\epsilon\Rightarrow k\ge N\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right). LfR2(21)Nk≤ϵ⇒k≥N(log(2)log(ϵ1)+log(2)log(LfR2)).再因 N = ⌈ 8 κ − 1 ⌉ ≤ 8 κ N=\lceil\sqrt{8\kappa}-1\rceil\le\sqrt{8\kappa} N=⌈8κ−1⌉≤8κ, 即得证.
从定理16的证明我们可看出:
- N N N的选择不是唯一的. 只需满足 4 κ ( N + 1 ) 2 ≤ 1 ⇒ N ≥ 4 κ − 1. \frac{4\kappa}{(N+1)^2}\le1\Rightarrow N\ge\sqrt{4\kappa}-1. (N+1)24κ≤1⇒N≥4κ−1.
- 我们实际上只需要对 N N N设置下界. 定理16中对 N N N的上界用在(ii)的一个统一迭代次数估计上. 而若从 k ≥ N ( log ( 1 ϵ ) log ( 2 ) + log ( L f R 2 ) log ( 2 ) ) k\ge N\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right) k≥N(log(2)log(ϵ1)+log(2)log(LfR2))看, 我们也能知道一些额外的信息: 需要做 ⌈ log ( 1 ϵ ) log ( 2 ) + log ( L f R 2 ) log ( 2 ) ⌉ \left\lceil\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right\rceil ⌈log(2)log(ϵ1)+log(2)log(LfR2)⌉次循环.
7.7 强凸情形下的V-FISTA
本小节中我们将介绍FISTA的一个变体, V-FISTA. 相比于原来的FISTA, V-FISTA仅仅改动了校正步中的自适应步长. 我们会证明在 f f f是强凸函数时, V-FISTA可达到与重启FISTA同样的线性收敛速度.
V-FISTA的收敛速度证明类似于非强凸情形下FISTA的收敛速度证明.
定理17 (V-FISTA的 O ( ( 1 − 1 / κ ) k O((1-1/\sqrt{\kappa})^k O((1−1/κ)k收敛速度) 假定假设条件2成立, 且 f f f是 σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0). 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由V-FISTA生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ , k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 ∀x∗∈X∗,k≥0, F ( x k ) − F o p t ≤ ( 1 − 1 κ ) k ( F ( x 0 ) − F o p t + σ 2 ∥ x 0 − x ∗ ∥ 2 ) , F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\left(1-\frac{1}{\sqrt{\kappa}}\right)^k\left(F(\mathbf{x}^0)-F_{\mathrm{opt}}+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right), F(xk)−Fopt≤(1−κ1)k(F(x0)−Fopt+2σ∥x0−x∗∥2),其中 κ = L f σ > 1 \kappa=\frac{L_f}{\sigma}>1 κ=σLf>1.
证明: 由于充分下降条件对常值步长 L f L_f Lf成立, 因此对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} ∀x,y∈E, 我们有prox-grad基本不等式 F ( x ) − F ( T L f ( y ) ) ≥ L f 2 ∥ x − T L f ( y ) ∥ 2 − L f 2 ∥ x − y ∥ 2 + f ( x ) − f ( y ) − ⟨ ∇ f ( y ) , x − y ⟩ ≥ L f 2 ∥ x − T L f ( y ) ∥ 2 − L f 2 ∥ x − y ∥ 2 + σ 2 ∥ x − y ∥ 2 ( f 是 σ − 强 凸 函 数 ) . \begin{aligned}F(\mathbf{x})-F(T_{L_f}(\mathbf{y}))&\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f}{2}\Vert\mathbf{x-y}\Vert^2+f(\mathbf{x})-f(\mathbf{y})-\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\\&\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f}{2}\Vert\mathbf{x-y}\Vert^2+\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2\,(f是\sigma-强凸函数).\end{aligned} F(x)−F(TLf(y))≥2Lf∥x−TLf(y)∥2−2Lf∥x−y∥2+f(x)−f(y)−⟨∇f(y),x−y⟩≥2Lf∥x−TLf(y)∥2−2Lf∥x−y∥2+2σ∥x−y∥2(f是σ−强凸函数).因此, F ( x ) − F ( T L f ( y ) ) ≥ L f 2 ∥ x − T L f ( y ) ∥ 2 − L f − σ 2 ∥ x − y ∥ 2 . F(\mathbf{x})-F(T_{L_f}(\mathbf{y}))\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f-\sigma}{2}\Vert\mathbf{x-y}\Vert^2. F(x)−F(TLf(y))≥2Lf∥x−TLf(y)∥2−2Lf−σ∥x−y∥2.设 k ≥ 0 , t = κ = L f σ k\ge0,\,t=\sqrt{\kappa}=\sqrt{\frac{L_f}{\sigma}} k≥0,t=κ=σLf. 在上述不等式中令 x = t − 1 x ∗ + ( 1 − t − 1 ) x k , y = y k \mathbf{x}=t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k x=t−1x∗+(1−t−1)xk,y=yk, 则有 F ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) − F ( x k + 1 ) ≥ L f 2 ∥ x k + 1 − ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) ∥ 2 − L f − σ 2 ∥ y k − ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) ∥ 2 = L f 2 t 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 − L f − σ 2 t 2 ∥ t y k − ( x ∗ + ( t − 1 ) x k ) ∥ 2 . \begin{aligned}&F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\ge\frac{L_f}{2}\Vert\mathbf{x}^{k+1}-(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\Vert^2-\frac{L_f-\sigma}{2}\Vert\mathbf{y}^k-(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\Vert^2\\&=\frac{L_f}{2t^2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2-\frac{L_f-\sigma}{2t^2}\Vert t\mathbf{y}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned} F(t−1x∗+(1−t−1)xk)−F(xk+1)≥2Lf∥xk+1−(t−1x∗+(1−t−1)xk)∥2−2Lf−σ∥yk−(t−1x∗+(1−t−1)xk)∥2=2t2Lf∥txk+1−(x∗+(t−1)xk)∥2−2t2Lf−σ∥tyk−(x∗+(t−1)xk)∥2.由于 F F F是 σ \sigma σ-强凸函数以及 t > 1 t>1 t>1, 所以 F ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) ≤ t − 1 F ( x ∗ ) + ( 1 − t − 1 ) F ( x k ) − σ 2 t − 1 ( 1 − t − 1 ) ∥ x k − x ∗ ∥ 2 . F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\le t^{-1}F(\mathbf{x}^*)+(1-t^{-1})F(\mathbf{x}^k)-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2. F(t−1x∗+(1−t−1)xk)≤t−1F(x∗)+(1−t−1)F(xk)−2σt−1(1−t−1)∥xk−x∗∥2.记 v n ≡ F ( x n ) − F o p t , ∀ n ≥ 0 v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}},\,\forall n\ge0 vn≡F(xn)−Fopt,∀n≥0, F ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) − F ( x k + 1 ) ≤ ( 1 − t − 1 ) ( F ( x k ) − F ( x ∗ ) ) − ( F ( x k + 1 ) − F ( x ∗ ) ) − σ 2 t − 1 ( 1 − t − 1 ) ∥ x k − x ∗ ∥ 2 = ( 1 − t − 1 ) v k − v k + 1 − σ 2 t − 1 ( 1 − t − 1 ) ∥ x k − x ∗ ∥ 2 , \begin{aligned}&F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\le(1-t^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&=(1-t^{-1})v_k-v_{k+1}-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2,\end{aligned} F(t−1x∗+(1−t−1)xk)−F(xk+1)≤(1−t−1)(F(xk)−F(x∗))−(F(xk+1)−F(x∗))−2σt−1(1−t−1)∥xk−x∗∥2=(1−t−1)vk−vk+1−2σt−1(1−t−1)∥xk−x∗∥2,合起来就有 t ( t − 1 ) v k + L f − σ 2 ∥ t y k − ( x ∗ + ( t − 1 ) x k ) ∥ 2 − σ ( t − 1 ) 2 ∥ x k − x ∗ ∥ 2 ≥ t 2 v k + 1 + L f 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 . \begin{aligned}&t(t-1)v_k+\frac{L_f-\sigma}{2}\Vert t\mathbf{y}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2-\frac{\sigma(t-1)}{2}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&\ge t^2v_{k+1}+\frac{L_f}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned} t(t−1)vk+2Lf−σ∥tyk−(x∗+(t−1)xk)∥2−2σ(t−1)∥xk−x∗∥2≥t2vk+1+2Lf∥txk+1−(x∗+(t−1)xk)∥2.对 ∀ a , b ∈ E , β ∈ [ 0 , 1 ) \forall\mathbf{a,b}\in\mathbb{E},\,\beta\in[0,1) ∀a,b∈E,β∈[0,1): ∥ a + b ∥ 2 − β ∥ a ∥ 2 = ( 1 − β ) ∥ a + 1 1 − β b ∥ 2 − β 1 − β ∥ b ∥ 2 . \Vert\mathbf{a+b}\Vert^2-\beta\Vert\mathbf{a}\Vert^2=(1-\beta)\left\Vert\mathbf{a}+\frac{1}{1-\beta}\mathbf{b}\right\Vert^2-\frac{\beta}{1-\beta}\Vert\mathbf{b}\Vert^2. ∥a+b∥2−β∥a∥2=(1−β)∥∥∥∥a+1−β1b∥∥∥∥2−1−ββ∥b∥2.代入 a = x k − x ∗ , b = t ( y k − x k ) , β = σ ( t − 1 ) L f − σ \mathbf{a}=\mathbf{x}^k-\mathbf{x}^*,\,\mathbf{b}=t(\mathbf{y}^k-\mathbf{x}^k),\,\beta=\frac{\sigma(t-1)}{L_f-\sigma} a=xk−x∗,b=t(yk−xk),β=Lf−σσ(t−1), 我们有 L f − σ 2 ∥ t ( y k − x k ) + x k − x ∗ ∥ 2 − σ ( t − 1 ) 2 ∥ x k − x ∗ ∥ 2 = L f − σ 2 [ ∥ t ( y k − x k ) + x k − x ∗ ∥ 2 − σ ( t − 1 ) L f − σ ∥ x k − x ∗ ∥ 2 ] = L f − σ 2 [ L f − σ t L f − σ ∥ x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) ∥ 2 − σ ( t − 1 ) L f − σ t ∥ x k − x ∗ ∥ 2 ] ≤ L f − σ t 2 ∥ x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) ∥ 2 . \begin{aligned}&\frac{L_f-\sigma}{2}\Vert t(\mathbf{y}^k-\mathbf{x}^k)+\mathbf{x}^k-\mathbf{x}^*\Vert^2-\frac{\sigma(t-1)}{2}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&=\frac{L_f-\sigma}{2}\left[\Vert t(\mathbf{y}^k-\mathbf{x}^k)+\mathbf{x}^k-\mathbf{x}^*\Vert^2-\frac{\sigma(t-1)}{L_f-\sigma}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\right]\\&=\frac{L_f-\sigma}{2}\left[\frac{L_f-\sigma t}{L_f-\sigma}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2-\frac{\sigma(t-1)}{L_f-\sigma t}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\right]\\&\le\frac{L_f-\sigma t}{2}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2.\end{aligned} 2Lf−σ∥t(yk−xk)+xk−x∗∥2−2σ(t−1)∥xk−x∗∥2=2Lf−σ[∥t(yk−xk)+xk−x∗∥2−Lf−σσ(t−1)∥xk−x∗∥2]=2Lf−σ[Lf−σLf−σt∥∥∥∥xk−x∗+Lf−σtLf−σt(yk−xk)∥∥∥∥2−Lf−σtσ(t−1)∥xk−x∗∥2]≤2Lf−σt∥∥∥∥xk−x∗+Lf−σtLf−σt(yk−xk)∥∥∥∥2.于是不等式变成 t ( t − 1 ) v k + L f − σ t 2 ∥ x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) ∥ 2 ≥ t 2 v k + 1 + L f 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 . \begin{aligned}&t(t-1)v_k+\frac{L_f-\sigma t}{2}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2\\&\ge t^2v_{k+1}+\frac{L_f}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned} t(t−1)vk+2Lf−σt∥∥∥∥xk−x∗+Lf−σtLf−σt(yk−xk)∥∥∥∥2≥t2vk+1+2Lf∥txk+1−(x∗+(t−1)xk)∥2.
- 若 k ≥ 1 k\ge1 k≥1, 则 y k = x k + κ − 1 κ + 1 ( x k − x k − 1 ) , t = κ = L f σ \mathbf{y}^k=\mathbf{x}^k+\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}(\mathbf{x}^k-\mathbf{x}^{k-1}),\,t=\sqrt{\kappa}=\sqrt{\frac{L_f}{\sigma}} yk=xk+κ+1κ−1(xk−xk−1),t=κ=σLf, 代入其中可得 x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) = x k − x ∗ + L f − σ L f − σ t t ( t − 1 ) t + 1 ( x k − x k − 1 ) = x k − x ∗ + κ − 1 κ − κ κ ( κ − 1 ) κ + 1 ( x k − x k − 1 ) = x k − x ∗ + ( κ − 1 ) ( x k − x k − 1 ) = t x k − ( x ∗ + ( t − 1 ) x k − 1 ) . \begin{aligned}\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)&=\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}\frac{t(t-1)}{t+1}(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=\mathbf{x}^k-\mathbf{x}^*+\frac{\kappa-1}{\kappa-\sqrt{\kappa}}\frac{\sqrt{\kappa}(\sqrt{\kappa}-1)}{\sqrt{\kappa}+1}(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=\mathbf{x}^k-\mathbf{x}^*+(\sqrt{\kappa}-1)(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=t\mathbf{x}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^{k-1}).\end{aligned} xk−x∗+Lf−σtLf−σt(yk−xk)=xk−x∗+Lf−σtLf−σt+1t(t−1)(xk−xk−1)=xk−x∗+κ−κκ−1κ+1κ(κ−1)(xk−xk−1)=xk−x∗+(κ−1)(xk−xk−1)=txk−(x∗+(t−1)xk−1).
- 若 k = 0 k=0 k=0, 注意到 y 0 = x 0 \mathbf{y}^0=\mathbf{x}^0 y0=x0, 所以 x 0 − x ∗ + L f − σ L f − σ t t ( y 0 − x 0 ) = x 0 − x ∗ . \mathbf{x}^0-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^0-\mathbf{x}^0)=\mathbf{x}^0-\mathbf{x}^*. x0−x∗+Lf−σtLf−σt(y0−x0)=x0−x∗.
因此我们有 v k + 1 + σ 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 ≤ { ( 1 − 1 t ) [ v k + σ 2 ∥ t x k − ( x ∗ − ( x ∗ + ( t − 1 ) x k − 1 ) ∥ 2 ] , k ≥ 1 , ( 1 − 1 t ) [ v 0 + σ 2 ∥ x 0 − x ∗ ∥ 2 ] , k = 0. \begin{aligned}&v_{k+1}+\frac{\sigma}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2\\&\le\left\{\begin{array}{ll}\left(1-\frac{1}{t}\right)\left[v_k+\frac{\sigma}{2}\Vert t\mathbf{x}^k-(\mathbf{x}^*-(\mathbf{x}^*+(t-1)\mathbf{x}^{k-1})\Vert^2\right], & k\ge1,\\\left(1-\frac{1}{t}\right)\left[v_0+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right], & k=0.\end{array}\right.\end{aligned} vk+1+2σ∥txk+1−(x∗+(t−1)xk)∥2≤{(1−t1)[vk+2σ∥txk−(x∗−(x∗+(t−1)xk−1)∥2],(1−t1)[v0+2σ∥x0−x∗∥2],k≥1,k=0.因此对 ∀ k ≥ 0 \forall k\ge0 ∀k≥0, v k ≤ ( 1 − 1 t ) k ( v 0 + σ 2 ∥ x 0 − x ∗ ∥ 2 ) . v_k\le\left(1-\frac{1}{t}\right)^k\left(v_0+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right). vk≤(1−t1)k(v0+2σ∥x0−x∗∥2).由 v k v_k vk的定义即可得证.
8. 光滑化与S-FISTA
8.1 动机
在第八章和第九章中我们讨论了求解非光滑凸优化问题的 O ( 1 / ϵ 2 ) O(1/\epsilon^2) O(1/ϵ2)复杂度方法. 而在上一节中的FISTA则用于求解组合模型 min x ∈ E f ( x ) + g ( x ) , \min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x})+g(\mathbf{x}), x∈Eminf(x)+g(x),复杂度降为 O ( 1 / ϵ ) O(1/\sqrt{\epsilon}) O(1/ϵ), 其中 f f f是 L f L_f Lf-光滑函数, g g g为正常闭凸函数. 本节我们讨论如何将FISTA用于更加一般的非光滑凸问题, 并证明其复杂度为 O ( 1 / ϵ ) O(1/\epsilon) O(1/ϵ). 我们将要讨论的问题比原本的组合模型又多了一项: min { f ( x ) + h ( x ) + g ( x ) : x ∈ E } . \min\{f(\mathbf{x})+h(\mathbf{x})+g(\mathbf{x}):\mathbf{x}\in\mathbb{E}\}. min{f(x)+h(x)+g(x):x∈E}.这里函数 h h h是实值凸函数.
我们假设 h h h的临近算子不易求得(而之前对 g g g的隐含条件是其临近算子易求). 因此直接将FISTA用于组合模型 ( f , g + h ) (f,g+h) (f,g+h)是不现实的. 因此我们考虑先找 h h h的一个光滑逼近 h ~ \tilde h h~, 之后用FISTA求解组合问题 ( f + h ~ , g ) (f+\tilde h,g) (f+h~,g). 为此, 我们先介绍光滑逼近(smooth approximation)和可光滑性(smoothability)的概念.
8.2 可光滑函数与光滑逼近
定义2 (可光滑函数) 我们称凸函数
h
:
E
→
R
h:\mathbb{E}\to\mathbb{R}
h:E→R是
(
α
,
β
)
(\alpha,\beta)
(α,β)-可光滑的
(
α
,
β
>
0
)
(\alpha,\beta>0)
(α,β>0), 若对
∀
μ
>
0
\forall\mu>0
∀μ>0, 存在凸可微函数
h
μ
:
E
→
R
h_{\mu}:\mathbb{E}\to\mathbb{R}
hμ:E→R使得
(i)
h
μ
(
x
)
≤
h
(
x
)
≤
h
μ
(
x
)
+
β
μ
,
∀
x
∈
E
h_{\mu}(\mathbf{x})\le h(\mathbf{x})\le h_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E}
hμ(x)≤h(x)≤hμ(x)+βμ,∀x∈E;
(ii)
h
μ
h_{\mu}
hμ是
α
μ
\frac{\alpha}{\mu}
μα-光滑函数.
这里的
h
μ
h_{\mu}
hμ称作是
h
h
h对参数
(
α
,
β
)
(\alpha,\beta)
(α,β)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近.
例5 ( ∥ x ∥ 2 \Vert\mathbf{x}\Vert_2 ∥x∥2的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:Rn→R定义为 h ( x ) = ∥ x ∥ 2 h(\mathbf{x})=\Vert\mathbf{x}\Vert_2 h(x)=∥x∥2. 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, 定义 h μ ( x ) = ∥ x ∥ 2 2 + μ 2 − μ h_{\mu}(\mathbf{x})=\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}-\mu hμ(x)=∥x∥22+μ2−μ. 则对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n ∀x∈Rn, h μ ( x ) = ∥ x ∥ 2 2 + μ 2 − μ ≤ ∥ x ∥ 2 + μ − μ = ∥ x ∥ 2 = h ( x ) , h ( x ) = ∥ x ∥ 2 ≤ ∥ x ∥ 2 2 + μ 2 = h μ ( x ) + μ , \begin{aligned}h_{\mu}(\mathbf{x})&=\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}-\mu\le\Vert\mathbf{x}\Vert_2+\mu-\mu=\Vert\mathbf{x}\Vert_2=h(\mathbf{x}),\\h(\mathbf{x})&=\Vert\mathbf{x}\Vert_2\le\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}=h_{\mu}(\mathbf{x})+\mu,\end{aligned} hμ(x)h(x)=∥x∥22+μ2−μ≤∥x∥2+μ−μ=∥x∥2=h(x),=∥x∥2≤∥x∥22+μ2=hμ(x)+μ,这表明定义2中的(i)对 β = 1 \beta=1 β=1成立. 下证(ii)对 α = 1 \alpha=1 α=1成立. 根据第五章例6, 函数 φ ( x ) = ∥ x ∥ 2 2 + 1 \varphi(\mathbf{x})=\sqrt{\Vert\mathbf{x}\Vert_2^2+1} φ(x)=∥x∥22+1是 1 1 1-光滑的, 所以 h μ ( x ) = μ φ ( x / μ ) − μ h_{\mu}(\mathbf{x})=\mu\varphi(\mathbf{x}/\mu)-\mu hμ(x)=μφ(x/μ)−μ是 1 μ \frac{1}{\mu} μ1-光滑的. 根据定义2, h μ h_{\mu} hμ是 h h h对参数 ( 1 , 1 ) (1,1) (1,1)的 1 μ \frac{1}{\mu} μ1-光滑逼近, h h h是 ( 1 , 1 ) (1,1) (1,1)-可光滑的.
例6 ( max i { x i } \max_i\{x_i\} maxi{xi}的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:Rn→R定义为 h ( x ) = max { x 1 , x 2 , … , x n } h(\mathbf{x})=\max\{x_1,x_2,\ldots,x_n\} h(x)=max{x1,x2,…,xn}. 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, 定义 h μ ( x ) = μ log ( ∑ i = 1 n e x i / μ ) − μ log n . h_{\mu}(\mathbf{x})=\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)-\mu\log n. hμ(x)=μlog(i=1∑nexi/μ)−μlogn.则对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n ∀x∈Rn, h μ ( x ) = μ log ( ∑ i = 1 n e x i / μ ) − μ log n ≤ μ log ( n e max i { x i } / μ ) − μ log n = h ( x ) , h ( x ) = max i { x i } ≤ μ log ( ∑ i = 1 n e x i / μ ) = h μ ( x ) + μ log n . \begin{aligned}h_{\mu}(\mathbf{x})&=\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)-\mu\log n\\&\le\mu\log\left(ne^{\max_i\{x_i\}/\mu}\right)-\mu\log n=h(\mathbf{x}),\\h(\mathbf{x})&=\max_i\{x_i\}\le\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)=h_{\mu}(\mathbf{x})+\mu\log n.\end{aligned} hμ(x)h(x)=μlog(i=1∑nexi/μ)−μlogn≤μlog(nemaxi{xi}/μ)−μlogn=h(x),=imax{xi}≤μlog(i=1∑nexi/μ)=hμ(x)+μlogn.再根据第五章例7, φ ( x ) = log ( ∑ i = 1 n e x i ) \varphi(\mathbf{x})=\log(\sum_{i=1}^ne^{x_i}) φ(x)=log(∑i=1nexi)是 1 1 1-光滑的, 从而 h μ ( x ) = μ φ ( x / μ ) − μ log n h_{\mu}(\mathbf{x})=\mu\varphi(\mathbf{x}/\mu)-\mu\log n hμ(x)=μφ(x/μ)−μlogn是 1 μ \frac{1}{\mu} μ1-光滑的. 根据定义2, h μ h_{\mu} hμ是 h h h对参数 ( 1 , log n ) (1,\log n) (1,logn)的 1 μ \frac{1}{\mu} μ1-光滑逼近, h h h是 ( 1 , log n ) (1,\log n) (1,logn)-可光滑的.
定理18 (光滑逼近的运算法则)
(i) 设
h
1
,
h
2
:
E
→
R
h^1,h^2:\mathbb{E}\to\mathbb{R}
h1,h2:E→R为凸函数,
γ
1
,
γ
2
≥
0
\gamma_1,\gamma_2\ge0
γ1,γ2≥0. 假设对
∀
μ
>
0
\forall\mu>0
∀μ>0,
h
μ
i
h_{\mu}^i
hμi是
h
i
h^i
hi对参数
(
α
i
,
β
i
)
(\alpha_i,\beta_i)
(αi,βi)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近,
i
=
1
,
2
i=1,2
i=1,2. 则
γ
1
h
μ
1
+
γ
2
h
μ
2
\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2
γ1hμ1+γ2hμ2是
γ
1
h
1
+
γ
2
h
2
\gamma_1h^1+\gamma_2h^2
γ1h1+γ2h2对参数
(
γ
1
α
1
+
γ
2
α
2
,
γ
1
β
1
+
γ
2
β
2
)
(\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2)
(γ1α1+γ2α2,γ1β1+γ2β2)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近.
(ii) 设
A
:
E
→
V
\mathcal{A}:\mathbb{E}\to\mathbb{V}
A:E→V为欧式空间
E
,
V
\mathbb{E},\mathbb{V}
E,V之间的线性映射. 设
h
:
V
→
R
h:\mathbb{V}\to\mathbb{R}
h:V→R为一凸函数, 定义
q
(
x
)
≡
h
(
A
(
x
)
+
b
)
,
q(\mathbf{x})\equiv h(\mathcal{A}(\mathbf{x})+\mathbf{b}),
q(x)≡h(A(x)+b),其中
b
∈
V
\mathbf{b}\in\mathbb{V}
b∈V. 假设对
∀
μ
>
0
\forall\mu>0
∀μ>0,
h
μ
h_{\mu}
hμ为
h
h
h对参数
(
α
,
β
)
(\alpha,\beta)
(α,β)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近. 则
q
μ
(
x
)
≡
h
μ
(
A
(
x
)
+
b
)
q_{\mu}(\mathbf{x})\equiv h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})
qμ(x)≡hμ(A(x)+b)是
q
q
q对参数
(
α
∥
A
∥
2
,
β
)
(\alpha\Vert\mathcal{A}\Vert^2,\beta)
(α∥A∥2,β)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近.
证明: (i) 由定义, h μ i ( i = 1 , 2 ) h_{\mu}^{i}(i=1,2) hμi(i=1,2)是凸 α i μ \frac{\alpha_i}{\mu} μαi-光滑函数, 且 h μ i ( x ) ≤ h i ( x ) ≤ h μ i ( x ) + β i μ , ∀ x ∈ E h_{\mu}^i(\mathbf{x})\le h^i(\mathbf{x})\le h_{\mu}^i(\mathbf{x})+\beta_i\mu,\,\forall\mathbf{x}\in\mathbb{E} hμi(x)≤hi(x)≤hμi(x)+βiμ,∀x∈E. 因此 γ 1 h μ 1 + γ 2 h μ 2 \gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2 γ1hμ1+γ2hμ2是凸函数, 且对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} ∀x,y∈E γ 1 h μ 1 ( x ) + γ 2 h μ 2 ( x ) ≤ γ 1 h 1 ( x ) + γ 2 h 2 ( x ) ≤ γ 1 h μ 1 ( x ) + γ 2 h μ 2 ( x ) + ( γ 1 β 1 + γ 2 β 2 ) μ , \gamma_1h_{\mu}^1(\mathbf{x})+\gamma_2h_{\mu}^2(\mathbf{x})\le\gamma_1h^1(\mathbf{x})+\gamma_2h^2(\mathbf{x})\le\gamma_1h_{\mu}^1(\mathbf{x})+\gamma_2h_{\mu}^2(\mathbf{x})+(\gamma_1\beta_1+\gamma_2\beta_2)\mu, γ1hμ1(x)+γ2hμ2(x)≤γ1h1(x)+γ2h2(x)≤γ1hμ1(x)+γ2hμ2(x)+(γ1β1+γ2β2)μ,以及 ∥ ∇ ( γ 1 h μ 1 + γ 2 h μ 2 ) ( x ) − ∇ ( γ 1 h μ 1 + γ 2 h μ 2 ) ( y ) ∥ ≤ γ 1 ∥ ∇ h μ 1 ( x ) − ∇ h μ 1 ( y ) ∥ + γ ∥ ∇ h μ 2 ( x ) − ∇ h μ 2 ( y ) ∥ ≤ γ 1 α 1 μ ∥ x − y ∥ + γ 2 α 2 μ ∥ x − y ∥ = γ 1 α 1 + γ 2 α 2 μ ∥ x − y ∥ , \begin{aligned}\Vert\nabla(\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2)(\mathbf{x})-\nabla(\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2)(\mathbf{y})\Vert\le&\gamma_1\Vert\nabla h_{\mu}^1(\mathbf{x})-\nabla h_{\mu}^1(\mathbf{y})\Vert\\+&\gamma\Vert\nabla h_{\mu}^2(\mathbf{x})-\nabla h_{\mu}^2(\mathbf{y})\Vert\\\le&\gamma_1\frac{\alpha_1}{\mu}\Vert\mathbf{x-y}\Vert+\gamma_2\frac{\alpha_2}{\mu}\Vert\mathbf{x-y}\Vert\\=&\frac{\gamma_1\alpha_1+\gamma_2\alpha_2}{\mu}\Vert\mathbf{x-y}\Vert,\end{aligned} ∥∇(γ1hμ1+γ2hμ2)(x)−∇(γ1hμ1+γ2hμ2)(y)∥≤+≤=γ1∥∇hμ1(x)−∇hμ1(y)∥γ∥∇hμ2(x)−∇hμ2(y)∥γ1μα1∥x−y∥+γ2μα2∥x−y∥μγ1α1+γ2α2∥x−y∥,这表明 γ 1 h μ 1 + γ 2 h μ 2 \gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2 γ1hμ1+γ2hμ2是 γ 1 h 1 + γ 2 h 2 \gamma_1h^1+\gamma_2h^2 γ1h1+γ2h2对参数 ( γ 1 α 1 + γ 2 α 2 , γ 1 β 1 + γ 2 β 2 ) (\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2) (γ1α1+γ2α2,γ1β1+γ2β2)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
(ii) 因 h μ h_{\mu} hμ是 h h h对参数 ( α , β ) (\alpha,\beta) (α,β)的 1 μ \frac{1}{\mu} μ1-光滑逼近, 因此 h μ h_{\mu} hμ是凸 α μ \frac{\alpha}{\mu} μα-光滑函数, 且对 ∀ y ∈ V \forall\mathbf{y}\in\mathbb{V} ∀y∈V, h μ ( y ) ≤ h ( y ) ≤ h μ ( y ) + β μ . h_{\mu}(\mathbf{y})\le h(\mathbf{y})\le h_{\mu}(\mathbf{y})+\beta\mu. hμ(y)≤h(y)≤hμ(y)+βμ.设 x ∈ E \mathbf{x}\in\mathbb{E} x∈E, 并代入 y = A ( x ) + b \mathbf{y}=\mathcal{A}(\mathbf{x})+\mathbf{b} y=A(x)+b就有 q μ ( x ) ≤ q ( x ) ≤ q μ ( x ) + β μ . q_{\mu}(\mathbf{x})\le q(\mathbf{x})\le q_{\mu}(\mathbf{x})+\beta\mu. qμ(x)≤q(x)≤qμ(x)+βμ.另外, 由 h μ h_{\mu} hμ的 α μ \frac{\alpha}{\mu} μα-光滑性, 我们有对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} ∀x,y∈E, ∥ ∇ q μ ( x ) − ∇ q μ ( y ) ∥ = ∥ A T ∇ h μ ( A ( x ) + b ) − A T ∇ h μ ( A ( y ) + b ) ∥ ≤ ∥ A T ∥ ⋅ ∥ ∇ h μ ( A ( x ) + b ) − ∇ h μ ( A ( y ) + b ) ∥ ≤ α μ ∥ A T ∥ ⋅ ∥ A ( x ) + b − A ( y ) − b ∥ ≤ α μ ∥ A T ∥ ⋅ ∥ A ∥ ⋅ ∥ x − y ∥ = α ∥ A ∥ 2 μ ∥ x − y ∥ , \begin{aligned}\Vert\nabla q_{\mu}(\mathbf{x})-\nabla q_{\mu}(\mathbf{y})\Vert&=\Vert\mathcal{A}^T\nabla h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})-\mathcal{A}^T\nabla h_{\mu}(\mathcal{A}(\mathbf{y})+\mathbf{b})\Vert\\&\le\Vert\mathcal{A}^T\Vert\cdot\Vert\nabla h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})-\nabla h_{\mu}(\mathcal{A}(\mathbf{y})+\mathbf{b})\Vert\\&\le\frac{\alpha}{\mu}\Vert\mathcal{A}^T\Vert\cdot\Vert\mathcal{A}(\mathbf{x})+\mathbf{b}-\mathcal{A}(\mathbf{y})-\mathbf{b}\Vert\\&\le\frac{\alpha}{\mu}\Vert\mathcal{A}^T\Vert\cdot\Vert\mathcal{A}\Vert\cdot\Vert\mathbf{x-y}\Vert\\&=\frac{\alpha\Vert\mathcal{A}\Vert^2}{\mu}\Vert\mathbf{x-y}\Vert,\end{aligned} ∥∇qμ(x)−∇qμ(y)∥=∥AT∇hμ(A(x)+b)−AT∇hμ(A(y)+b)∥≤∥AT∥⋅∥∇hμ(A(x)+b)−∇hμ(A(y)+b)∥≤μα∥AT∥⋅∥A(x)+b−A(y)−b∥≤μα∥AT∥⋅∥A∥⋅∥x−y∥=μα∥A∥2∥x−y∥,这表明 q μ q_{\mu} qμ是 q q q对参数 ( α ∥ A ∥ 2 , β ) (\alpha\Vert\mathcal{A}\Vert^2,\beta) (α∥A∥2,β)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
推论4 (保可光滑性运算)
(i) 设
h
1
,
h
2
:
E
→
R
h^1,h^2:\mathbb{E}\to\mathbb{R}
h1,h2:E→R为凸函数,
γ
1
,
γ
2
≥
0
\gamma_1,\gamma_2\ge0
γ1,γ2≥0. 假设对
h
i
h^i
hi是
(
α
i
,
β
i
)
(\alpha_i,\beta_i)
(αi,βi)-可光滑的,
i
=
1
,
2
i=1,2
i=1,2. 则
γ
1
h
1
+
γ
2
h
2
\gamma_1h^1+\gamma_2h^2
γ1h1+γ2h2是
(
γ
1
α
1
+
γ
2
α
2
,
γ
1
β
1
+
γ
2
β
2
)
(\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2)
(γ1α1+γ2α2,γ1β1+γ2β2)-可光滑的.
(ii) 设
A
:
E
→
V
\mathcal{A}:\mathbb{E}\to\mathbb{V}
A:E→V为欧式空间
E
,
V
\mathbb{E},\mathbb{V}
E,V之间的线性映射. 设
h
:
V
→
R
h:\mathbb{V}\to\mathbb{R}
h:V→R为一凸函数, 定义
q
(
x
)
≡
h
(
A
(
x
)
+
b
)
,
q(\mathbf{x})\equiv h(\mathcal{A}(\mathbf{x})+\mathbf{b}),
q(x)≡h(A(x)+b),其中
b
∈
V
\mathbf{b}\in\mathbb{V}
b∈V. 假设
h
h
h为
(
α
,
β
)
(\alpha,\beta)
(α,β)-可光滑函数. 则
q
q
q是
(
α
∥
A
∥
2
,
β
)
(\alpha\Vert\mathcal{A}\Vert^2,\beta)
(α∥A∥2,β)可光滑的.
例7 ( ∥ A x + b ∥ 2 \Vert\mathbf{Ax+b}\Vert_2 ∥Ax+b∥2的光滑逼近) 设 q : R n → R q:\mathbb{R}^n\to\mathbb{R} q:Rn→R定义为 q ( x ) = ∥ A x + b ∥ 2 q(\mathbf{x})=\Vert\mathbf{Ax+b}\Vert_2 q(x)=∥Ax+b∥2, 其中 A ∈ R m × n , b ∈ R m \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m A∈Rm×n,b∈Rm. 则 q ( x ) = g ( A x + b ) q(\mathbf{x})=g(\mathbf{Ax+b}) q(x)=g(Ax+b), 其中 g : R m → R g:\mathbb{R}^m\to\mathbb{R} g:Rm→R定义为 g ( y ) = ∥ y ∥ 2 g(\mathbf{y})=\Vert\mathbf{y}\Vert_2 g(y)=∥y∥2. 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, 由例5, g μ ( y ) = ∥ y ∥ 2 2 + μ 2 − μ g_{\mu}(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_2^2+\mu^2}-\mu gμ(y)=∥y∥22+μ2−μ是 g g g对参数 ( 1 , 1 ) (1,1) (1,1)的 1 μ \frac{1}{\mu} μ1-光滑逼近, 从而再由定理18(ii), q μ ( x ) ≡ g μ ( A x + b ) = ∥ A x + b ∥ 2 2 + μ 2 − μ q_{\mu}(\mathbf{x})\equiv g_{\mu}(\mathbf{Ax+b})=\sqrt{\Vert\mathbf{Ax+b}\Vert_2^2+\mu^2}-\mu qμ(x)≡gμ(Ax+b)=∥Ax+b∥22+μ2−μ就是 q q q对参数 ( ∥ A ∥ 2 , 2 2 , 1 ) (\Vert\mathbf{A}\Vert_{2,2}^2,1) (∥A∥2,22,1)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
例8 (分片线性函数的光滑逼近) 设 q : R n → R q:\mathbb{R}^n\to\mathbb{R} q:Rn→R定义为 q ( x ) = max i = 1 , … , m { a i T x + b i } q(\mathbf{x})=\max_{i=1,\ldots,m}\{\mathbf{a}_i^T\mathbf{x}+b_i\} q(x)=maxi=1,…,m{aiTx+bi}, 其中 a i ∈ R n , b i ∈ R , i = 1 , 2 , … , m \mathbf{a}_i\in\mathbb{R}^n,\,b_i\in\mathbb{R},\,i=1,2,\ldots,m ai∈Rn,bi∈R,i=1,2,…,m. 则 q ( x ) = g ( A x + b ) q(\mathbf{x})=g(\mathbf{Ax+b}) q(x)=g(Ax+b), 其中 g ( y ) = max { y 1 , y 2 , … , y m } g(\mathbf{y})=\max\{y_1,y_2,\ldots,y_m\} g(y)=max{y1,y2,…,ym}, A = ( a 1 , a 2 , … , a m ) T \mathbf{A}=\begin{pmatrix}\mathbf{a}_1,\mathbf{a}_2,\ldots,\mathbf{a}_m\end{pmatrix}^T A=(a1,a2,…,am)T, b = ( b 1 , b 2 , … , b m ) T \mathbf{b}=(b_1,b_2,\ldots,b_m)^T b=(b1,b2,…,bm)T. 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, 由例6, g μ ( y ) = μ log ( ∑ i = 1 m e y i / μ ) − μ log m g_{\mu}(\mathbf{y})=\mu\log(\sum_{i=1}^me^{y_i/\mu})-\mu\log m gμ(y)=μlog(∑i=1meyi/μ)−μlogm是 g g g对参数 ( 1 , log m ) (1,\log m) (1,logm)的 1 μ \frac{1}{\mu} μ1-光滑逼近. 因此再由定理18(ii), q μ ( x ) = g μ ( A x + b ) = μ log ( ∑ i = 1 m e ( a i T x + b i ) / μ ) − μ log m q_{\mu}(\mathbf{x})=g_{\mu}(\mathbf{Ax+b})=\mu\log\left(\sum_{i=1}^me^{(\mathbf{a}_i^T\mathbf{x}+b_i)/\mu}\right)-\mu\log m qμ(x)=gμ(Ax+b)=μlog(i=1∑me(aiTx+bi)/μ)−μlogm是 q q q对参数 ( ∥ A ∥ 2 , 2 2 , log m ) (\Vert\mathbf{A}\Vert_{2,2}^2,\log m) (∥A∥2,22,logm)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
例9 (光滑参数是最好的吗?) 考虑绝对值函数 q : R → R q:\mathbb{R}\to\mathbb{R} q:R→R定义为 q ( x ) = ∣ x ∣ q(x)=|x| q(x)=∣x∣. 由例5, 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, 函数 x 2 + μ 2 − μ \sqrt{x^2+\mu^2}-\mu x2+μ2−μ是 q q q对参数 ( 1 , 1 ) (1,1) (1,1)的 1 μ \frac{1}{\mu} μ1-光滑逼近. 下面我们考虑另一种利用定理18的构造 q q q的光滑逼近的方法. 注意到 q ( x ) = { x , − x } q(x)=\{x,-x\} q(x)={x,−x}. 于是由例8, 函数 q μ ( x ) = μ log ( e x / μ + e − x / μ ) − μ log 2 q_{\mu}(x)=\mu\log(e^{x/\mu}+e^{-x/\mu})-\mu\log 2 qμ(x)=μlog(ex/μ+e−x/μ)−μlog2是 q q q对参数 ( ∥ A ∥ 2 , 2 2 , log 2 ) (\Vert\mathbf{A}\Vert_{2,2}^2,\log 2) (∥A∥2,22,log2)的 1 μ \frac{1}{\mu} μ1-光滑逼近, 其中 A = ( 1 − 1 ) \mathbf{A}=\begin{pmatrix}1\\-1\end{pmatrix} A=(1−1). 由于 ∥ A ∥ 2 , 2 2 = 2 \Vert\mathbf{A}\Vert_{2,2}^2=2 ∥A∥2,22=2, 所以 q μ q_{\mu} qμ是 q q q对参数 ( 2 , log 2 ) (2,\log 2) (2,log2)的 1 μ \frac{1}{\mu} μ1-光滑逼近. 一个自然的问题是, 这些光滑参数是不是满足定义的最小参数3.
考虑 q μ q_{\mu} qμ的情形. 首先由于 lim x → ∞ q ( x ) − q μ ( x ) = μ log 2 \lim_{x\to\infty}q(x)-q_{\mu}(x)=\mu\log 2 limx→∞q(x)−qμ(x)=μlog2, 所以 β \beta β是最好的. 而对 ∀ x ∈ R \forall x\in\mathbb{R} ∀x∈R, q 1 ′ ′ ( x ) = 4 ( e x + e − x ) 2 . q_1''(x)=\frac{4}{(e^x+e^{-x})^2}. q1′′(x)=(ex+e−x)24.因此 ∣ q 1 ′ ′ ( x ) ∣ ≤ 1 , ∀ x ∈ R |q_1''(x)|\le1,\,\forall x\in\mathbb{R} ∣q1′′(x)∣≤1,∀x∈R. 根据第五章定理4, 就知道 q 1 q_1 q1是 1 1 1-光滑函数. 于是 q μ ( x ) = μ q 1 ( x / μ ) q_{\mu}(\mathbf{x})=\mu q_1(\mathbf{x}/\mu) qμ(x)=μq1(x/μ)是 1 μ \frac{1}{\mu} μ1-光滑函数. 这表明 q μ q_{\mu} qμ实际上也是 q q q对参数 ( 1 , log 2 ) (1,\log 2) (1,log2)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
8.3 再看Moreau包络
任意给定一实值Lipschitz连续的凸函数 h : E → R h:\mathbb{E}\to\mathbb{R} h:E→R, 它的一个最自然的 1 μ \frac{1}{\mu} μ1-光滑逼近就是其Moreau包络 M h μ M_h^{\mu} Mhμ. 本小节就是要说明这一点. 回顾第六章第7节中Moreau分解的定义: M h μ ( x ) = min u ∈ E { h ( u ) + 1 2 μ ∥ x − u ∥ 2 } . M_h^{\mu}(\mathbf{x})=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})+\frac{1}{2\mu}\Vert\mathbf{x-u}\Vert^2\right\}. Mhμ(x)=u∈Emin{h(u)+2μ1∥x−u∥2}.
定理19 (实值Lipschitz连续凸函数的可光滑性) 设 h : E → R h:\mathbb{E}\to\mathbb{R} h:E→R是满足 ∣ h ( x ) − h ( y ) ∣ ≤ ℓ h ∥ x − y ∥ , ∀ x , y ∈ E |h(\mathbf{x})-h(\mathbf{y})|\le\ell_h\Vert\mathbf{x-y}\Vert,\quad\forall\mathbf{x,y}\in\mathbb{E} ∣h(x)−h(y)∣≤ℓh∥x−y∥,∀x,y∈E的凸函数. 则对 ∀ μ > 0 \forall\mu>0 ∀μ>0, M h μ M_h^{\mu} Mhμ是 h h h对参数 ( 1 , ℓ h 2 2 ) (1,\frac{\ell_h^2}{2}) (1,2ℓh2)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
证明: 根据第七章定理22, M h μ M_h^{\mu} Mhμ是 1 μ \frac{1}{\mu} μ1-光滑函数. 下面验证定义2的(i). 对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} ∀x∈E, M h μ ( x ) = min u ∈ E { h ( u ) + 1 2 μ ∥ u − x ∥ 2 } ≤ h ( x ) + 1 2 μ ∥ x − x ∥ 2 = h ( x ) . M_h^{\mu}(\mathbf{x})=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\le h(\mathbf{x})+\frac{1}{2\mu}\Vert\mathbf{x-x}\Vert^2=h(\mathbf{x}). Mhμ(x)=u∈Emin{h(u)+2μ1∥u−x∥2}≤h(x)+2μ1∥x−x∥2=h(x).任取 g x ∈ ∂ h ( x ) \mathbf{g}_{\mathbf{x}}\in\partial h(\mathbf{x}) gx∈∂h(x). 由于 h h h是 ℓ h \ell_h ℓh-Lipschitz连续函数, 根据第三章定理23, 就有 ∥ g x ∥ ≤ ℓ h \Vert\mathbf{g}_{\mathbf{x}}\Vert\le\ell_h ∥gx∥≤ℓh. 于是 M h μ ( x ) − h ( x ) = min u ∈ E { h ( u ) − h ( x ) + 1 2 μ ∥ u − x ∥ 2 } ≥ min u ∈ E { ⟨ g x , u − x ⟩ + 1 2 μ ∥ u − x ∥ 2 } = − μ 2 ∥ g x ∥ 2 ≥ − ℓ h 2 2 μ . \begin{aligned}M_h^{\mu}(\mathbf{x})-h(\mathbf{x})&=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})-h(\mathbf{x})+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\\&\ge\min_{\mathbf{u}\in\mathbb{E}}\left\{\langle\mathbf{g}_{\mathbf{x}},\mathbf{u-x}\rangle+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\\&=-\frac{\mu}{2}\Vert\mathbf{g}_{\mathbf{x}}\Vert^2\\&\ge-\frac{\ell_h^2}{2}\mu.\end{aligned} Mhμ(x)−h(x)=u∈Emin{h(u)−h(x)+2μ1∥u−x∥2}≥u∈Emin{⟨gx,u−x⟩+2μ1∥u−x∥2}=−2μ∥gx∥2≥−2ℓh2μ.这就证明了定义2的(i): M h μ ( x ) ≤ h ( x ) ≤ M h μ ( x ) + ℓ h 2 2 μ . M_h^{\mu}(\mathbf{x})\le h(\mathbf{x})\le M_h^{\mu}(\mathbf{x})+\frac{\ell_h^2}{2}\mu. Mhμ(x)≤h(x)≤Mhμ(x)+2ℓh2μ.
推论5 设 h : E → R h:\mathbb{E}\to\mathbb{R} h:E→R是 ℓ h \ell_h ℓh-Lipschitz连续的凸函数. 则 h h h是 ( 1 , ℓ h 2 2 ) (1,\frac{\ell_h^2}{2}) (1,2ℓh2)-可光滑的.
例10 ( ℓ 2 \ell_2 ℓ2-范数的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:Rn→R定义为 h ( x ) = ∥ x ∥ 2 h(\mathbf{x})=\Vert\mathbf{x}\Vert_2 h(x)=∥x∥2. 则 h h h是凸函数且其Lipschitz常数为 ℓ h = 1 \ell_h=1 ℓh=1. 于是由定理19, 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, 其Moreau包络(也就是Huber函数, 可见第六章例25) M h μ ( x ) = H μ ( x ) = { 1 2 μ ∥ x ∥ 2 2 , ∥ x ∥ 2 ≤ μ , ∥ x ∥ 2 − μ 2 , ∥ x ∥ 2 > μ M_h^{\mu}(\mathbf{x})=H_{\mu}(\mathbf{x})=\left\{\begin{array}{ll}\frac{1}{2\mu}\Vert\mathbf{x}\Vert_2^2, & \Vert\mathbf{x}\Vert_2\le\mu,\\\Vert\mathbf{x}\Vert_2-\frac{\mu}{2}, & \Vert\mathbf{x}\Vert_2>\mu\end{array}\right. Mhμ(x)=Hμ(x)={2μ1∥x∥22,∥x∥2−2μ,∥x∥2≤μ,∥x∥2>μ就是 h h h对参数 ( 1 , 1 2 ) (1,\frac{1}{2}) (1,21)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
例11 ( ℓ 1 \ell_1 ℓ1-范数的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:Rn→R定义为 h ( x ) = ∥ x ∥ 1 h(\mathbf{x})=\Vert\mathbf{x}\Vert_1 h(x)=∥x∥1. 则 h h h是凸函数且其Lipschitz常数为 n \sqrt{n} n4. 于是由定理19, 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, h h h的Moreau包络 M h μ ( x ) = ∑ i = 1 n H μ ( x i ) M_h^{\mu}(\mathbf{x})=\sum_{i=1}^nH_{\mu}(x_i) Mhμ(x)=i=1∑nHμ(xi)就是 h h h对参数 ( 1 , n 2 ) (1,\frac{n}{2}) (1,2n)的 1 μ \frac{1}{\mu} μ1-光滑逼近.
例12 (绝对值函数的光滑逼近) 我们再来考虑绝对值函数 h ( x ) = ∣ x ∣ h(x)=|x| h(x)=∣x∣. 到现在为止我们已经讨论了 h h h的三种 1 μ \frac{1}{\mu} μ1-光滑逼近:
- 例5: h μ 1 ( x ) = x 2 + μ 2 − μ , ( α , β ) = ( 1 , 1 ) h_{\mu}^1(x)=\sqrt{x^2+\mu^2}-\mu,\,(\alpha,\beta)=(1,1) hμ1(x)=x2+μ2−μ,(α,β)=(1,1);
- 例9: h μ 2 ( x ) = μ log ( e x / μ + e − x / μ ) − μ log 2 , ( α , β ) = ( 1 , log 2 ) h_{\mu}^2(x)=\mu\log(e^{x/\mu}+e^{-x/\mu})-\mu\log 2,\,(\alpha,\beta)=(1,\log 2) hμ2(x)=μlog(ex/μ+e−x/μ)−μlog2,(α,β)=(1,log2);
- 例10: h μ 3 ( x ) = H μ ( x ) , ( α , β ) = ( 1 , 1 2 ) h_{\mu}^3(x)=H_{\mu}(x),\,(\alpha,\beta)=(1,\frac{1}{2}) hμ3(x)=Hμ(x),(α,β)=(1,21).
三者的 α \alpha α参数相同; 相比之下 h μ 3 h_{\mu}^3 hμ3的 β \beta β最小. 所以Huber函数时这三者中最好的 1 μ \frac{1}{\mu} μ1-光滑逼近. 这从图像上也可以看出(下图是 μ = 0.2 \mu=0.2 μ=0.2的情形).
8.4 S-FISTA
现在, 我们考虑模型问题 min x ∈ E { H ( x ) ≡ f ( x ) + h ( x ) + g ( x ) } . \min_{\mathbf{x}\in\mathbb{E}}\{H(\mathbf{x})\equiv f(\mathbf{x})+h(\mathbf{x})+g(\mathbf{x})\}. x∈Emin{H(x)≡f(x)+h(x)+g(x)}.我们对其做如下假设:
假设条件3
(i)
f
:
E
→
R
f:\mathbb{E}\to\mathbb{R}
f:E→R是
L
f
L_f
Lf-光滑函数
(
L
f
>
0
)
(L_f>0)
(Lf>0);
(ii)
h
:
E
→
R
h:\mathbb{E}\to\mathbb{R}
h:E→R是
(
α
,
β
)
(\alpha,\beta)
(α,β)-可光滑函数
(
α
,
β
>
0
)
(\alpha,\beta>0)
(α,β>0). 对
∀
μ
>
0
\forall\mu>0
∀μ>0,
h
μ
h_{\mu}
hμ表示
h
h
h对参数
(
α
,
β
)
(\alpha,\beta)
(α,β)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近;
(iii)
g
:
E
→
(
−
∞
,
∞
]
g:\mathbb{E}\to(-\infty,\infty]
g:E→(−∞,∞]是正常闭凸函数;
(iv)
H
H
H水平集有界: 对
∀
δ
>
0
\forall\delta>0
∀δ>0, 存在
R
δ
>
0
R_{\delta}>0
Rδ>0使得
∥
x
∥
≤
R
δ
,
∀
x
:
H
(
x
)
≤
δ
.
\Vert\mathbf{x}\Vert\le R_{\delta},\quad\forall\mathbf{x}:H(\mathbf{x})\le\delta.
∥x∥≤Rδ,∀x:H(x)≤δ.(v) 问题最优解集非空, 记为
X
∗
X^*
X∗; 最优值记为
H
o
p
t
H_{\mathrm{opt}}
Hopt5.
S-FISTA的思想就是对光滑化的模型 ( μ > 0 ) (\mu>0) (μ>0) min x ∈ E { H μ ( x ) ≡ f ( x ) + h μ ( x ) ⏟ F μ ( x ) + g ( x ) } \min_{\mathbf{x}\in\mathbb{E}}\{H_{\mu}(\mathbf{x})\equiv \underbrace{f(\mathbf{x})+h_{\mu}(\mathbf{x})}_{F_{\mu}(\mathbf{x})}+g(\mathbf{x})\} x∈Emin{Hμ(x)≡Fμ(x) f(x)+hμ(x)+g(x)}应用FISTA. 实际上, 利用任何一种收敛速度为 O ( 1 / k 2 ) O(1/k^2) O(1/k2)的加速方法都是可以的, 而我们仅考虑带常值步长的FISTA. 注意到 F μ F_{\mu} Fμ的Lipschitz常数为 L f + α μ L_f+\frac{\alpha}{\mu} Lf+μα, 因此步长取为 1 L f + α μ \frac{1}{L_f+\frac{\alpha}{\mu}} Lf+μα1.
下面的结果表明, 给定精度
ϵ
>
0
\epsilon>0
ϵ>0, 我们可以选取光滑参数
μ
\mu
μ使得S-FISTA的复杂度为
O
(
1
/
ϵ
)
O(1/\epsilon)
O(1/ϵ).
定理20 (S-FISTA的 O ( 1 / ϵ ) O(1/\epsilon) O(1/ϵ)复杂度) 假定加假设条件3成立. 设 ϵ ∈ ( 0 , ϵ ˉ ) , ϵ ˉ > 0 \epsilon\in(0,\bar\epsilon),\,\bar\epsilon>0 ϵ∈(0,ϵˉ),ϵˉ>0. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0是由S-FISTA生成的迭代序列, 其中光滑参数6 μ = α β ϵ α β + α β + L f ϵ . \mu=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}. μ=βααβ+αβ+Lfϵϵ.则若 k ≥ 2 2 α β Γ 1 ϵ + 2 L f Γ 1 ϵ , k\ge2\sqrt{2\alpha\beta\Gamma}\frac{1}{\epsilon}+\sqrt{2L_f\Gamma}\frac{1}{\sqrt{\epsilon}}, k≥22αβΓϵ1+2LfΓϵ1,其中 Γ = ( R H ( x 0 ) + ϵ ˉ 2 + ∥ x 0 ∥ ) 2 \Gamma=\left(R_{H(\mathbf{x}^0)+\frac{\bar\epsilon}{2}}+\Vert\mathbf{x}^0\Vert\right)^2 Γ=(RH(x0)+2ϵˉ+∥x0∥)2, 就有 H ( x k ) − H o p t ≤ ϵ H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon H(xk)−Hopt≤ϵ.
证明: 由S-FISTA的定义, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0是将FISTA应用于 ( F μ , g , x 0 ) (F_{\mu},g,\mathbf{x}^0) (Fμ,g,x0)上得到的迭代序列. 注意到 arg min x ∈ E H μ ( x ) = arg min x ∈ E { H μ ( x ) : H μ ( x ) ≤ H μ ( x 0 ) } . \arg\min_{\mathbf{x}\in\mathbb{E}}H_{\mu}(\mathbf{x})=\arg\min_{\mathbf{x}\in\mathbb{E}}\{H_{\mu}(\mathbf{x}):H_{\mu}(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)\}. argx∈EminHμ(x)=argx∈Emin{Hμ(x):Hμ(x)≤Hμ(x0)}.因为 H μ H_{\mu} Hμ是闭函数, 因此右端问题的可行集 C ≡ { x ∈ E : H μ ( x ) ≤ H μ ( x 0 ) } C\equiv\{\mathbf{x}\in\mathbb{E}:H_{\mu}(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)\} C≡{x∈E:Hμ(x)≤Hμ(x0)}是闭集. 下面我们证明它也是有界集. 事实上, 由于 h μ h_{\mu} hμ是 h h h对参数 ( α , β ) (\alpha,\beta) (α,β)的 1 μ \frac{1}{\mu} μ1-光滑逼近, 因此 h ( x ) ≤ h μ ( x ) + β μ , ∀ x ∈ E ⇒ H ( x ) ≤ H μ ( x ) + β μ , ∀ x ∈ E h(\mathbf{x})\le h_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E}\Rightarrow H(\mathbf{x})\le H_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E} h(x)≤hμ(x)+βμ,∀x∈E⇒H(x)≤Hμ(x)+βμ,∀x∈E. 因此 C ⊂ { x ∈ E : H ( x ) ≤ H μ ( x 0 ) + β μ } , C\subset\{\mathbf{x}\in\mathbb{E}:H(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)+\beta\mu\}, C⊂{x∈E:H(x)≤Hμ(x0)+βμ},这结合假设条件3的(iv)即得 C C C是有界集, 从而是紧集. 根据闭函数的Weierstrass定理, H μ H_{\mu} Hμ就可在某个 x μ ∗ \mathbf{x}_{\mu}^* xμ∗取到极小. 记最优值为 H μ , o p t H_{\mu,\mathrm{opt}} Hμ,opt. 由定理14, 由 F μ F_{\mu} Fμ是 ( L f + α μ ) (L_f+\frac{\alpha}{\mu}) (Lf+μα)-光滑函数, 就有 H μ ( x k ) − H μ , o p t ≤ 2 ( L f + α μ ) ∥ x 0 − x μ ∗ ∥ 2 ( k + 1 ) 2 = 2 ( L f + α μ ) Λ ( k + 1 ) 2 , H_{\mu}(\mathbf{x}^k)-H_{\mu,\mathrm{opt}}\le2\left(L_f+\frac{\alpha}{\mu}\right)\frac{\Vert\mathbf{x}^0-\mathbf{x}_{\mu}^*\Vert^2}{(k+1)^2}=2\left(L_f+\frac{\alpha}{\mu}\right)\frac{\Lambda}{(k+1)^2}, Hμ(xk)−Hμ,opt≤2(Lf+μα)(k+1)2∥x0−xμ∗∥2=2(Lf+μα)(k+1)2Λ,其中 Λ = ∥ x 0 − x μ ∗ ∥ 2 \Lambda=\Vert\mathbf{x}^0-\mathbf{x}_{\mu}^*\Vert^2 Λ=∥x0−xμ∗∥2. 再次由 h μ h_{\mu} hμ的逼近性质, 对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} ∀x∈E, H μ ( x ) ≤ H ( x ) ≤ H μ ( x ) + β μ . H_{\mu}(\mathbf{x})\le H(\mathbf{x})\le H_{\mu}(\mathbf{x})+\beta\mu. Hμ(x)≤H(x)≤Hμ(x)+βμ.特别地, 可以推出 H o p t ≥ H μ , o p t , H ( x k ) ≤ H μ ( x k ) + β μ , k = 0 , 1 , … . H_{\mathrm{opt}}\ge H_{\mu,\mathrm{opt}},\quad H(\mathbf{x}^k)\le H_{\mu}(\mathbf{x}^k)+\beta\mu,\,k=0,1,\ldots. Hopt≥Hμ,opt,H(xk)≤Hμ(xk)+βμ,k=0,1,….所以 H ( x k ) − H o p t ≤ H μ ( x k ) + β μ − H μ , o p t ≤ 2 L f Λ ( k + 1 ) 2 + 2 α Λ ( k + 1 ) 2 1 μ + β μ ≤ 2 L f Λ k 2 + ( 2 α Λ k 2 ) 1 μ + β μ . \begin{aligned}H(\mathbf{x}^k)-H_{\mathrm{opt}}&\le H_{\mu}(\mathbf{x}^k)+\beta\mu-H_{\mu,\mathrm{opt}}\le2L_f\frac{\Lambda}{(k+1)^2}+\frac{2\alpha\Lambda}{(k+1)^2}\frac{1}{\mu}+\beta\mu\\&\le2L_f\frac{\Lambda}{k^2}+\left(\frac{2\alpha\Lambda}{k^2}\right)\frac{1}{\mu}+\beta\mu.\end{aligned} H(xk)−Hopt≤Hμ(xk)+βμ−Hμ,opt≤2Lf(k+1)2Λ+(k+1)22αΛμ1+βμ≤2Lfk2Λ+(k22αΛ)μ1+βμ.因此对于一给定 K > 0 K>0 K>0, 对 ∀ k ≥ K \forall k\ge K ∀k≥K, 均有 H ( x k ) − H o p t ≤ 2 L f Λ K 2 + ( 2 α Λ K 2 ) 1 μ + β μ . H(\mathbf{x}^k)-H_{\mathrm{opt}}\le 2L_f\frac{\Lambda}{K^2}+\left(\frac{2\alpha\Lambda}{K^2}\right)\frac{1}{\mu}+\beta\mu. H(xk)−Hopt≤2LfK2Λ+(K22αΛ)μ1+βμ.上式中, 有两个参数未定: μ , Λ \mu,\Lambda μ,Λ.
- 确定 μ \mu μ: 由于上式对 ∀ μ > 0 \forall\mu>0 ∀μ>0都成立, 所以可对右端对 μ \mu μ求最小, 得到 μ = 2 α Λ β 1 K . \mu=\sqrt{\frac{2\alpha\Lambda}{\beta}}\frac{1}{K}. μ=β2αΛK1.代入可得 H ( x k ) − H o p t ≤ 2 L f Λ K 2 + 2 2 α β Λ 1 K . H(\mathbf{x}^k)-H_{\mathrm{opt}}\le 2L_f\frac{\Lambda}{K^2}+2\sqrt{2\alpha\beta\Lambda}\frac{1}{K}. H(xk)−Hopt≤2LfK2Λ+22αβΛK1.因此, 为使 x k \mathbf{x}^k xk为 ϵ \epsilon ϵ-最优解 ( ∀ k ≥ K ) (\forall k\ge K) (∀k≥K), 只需 2 L f Λ K 2 + 2 2 α β Λ 1 K ≤ ϵ . 2L_f\frac{\Lambda}{K^2}+2\sqrt{2\alpha\beta\Lambda}\frac{1}{K}\le\epsilon. 2LfK2Λ+22αβΛK1≤ϵ.令 t = 2 Λ K t=\frac{\sqrt{2\Lambda}}{K} t=K2Λ, 则上式变成 L f t 2 + 2 α β t − ϵ ≤ 0 , L_ft^2+2\sqrt{\alpha\beta}t-\epsilon\le0, Lft2+2αβt−ϵ≤0,因为 t > 0 t>0 t>0, 所以等价于 2 Λ K = t ≤ − α β + α β + L f ϵ L f = ϵ α β + α β + L f ϵ . \frac{\sqrt{2\Lambda}}{K}=t\le\frac{-\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}{L_f}=\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}. K2Λ=t≤Lf−αβ+αβ+Lfϵ=αβ+αβ+Lfϵϵ.因此只需 K K K满足 K ≥ 2 Λ α β + 2 Λ α β + 2 Λ L f ϵ ϵ . K\ge\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}. K≥ϵ2Λαβ+2Λαβ+2ΛLfϵ.特别地, 记 K = K 1 ≡ 2 Λ α β + 2 Λ α β + 2 Λ L f ϵ ϵ , K=K_1\equiv\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}, K=K1≡ϵ2Λαβ+2Λαβ+2ΛLfϵ,从而 μ \mu μ取 μ = 2 α Λ β 1 K 1 = α β ϵ α β + α β + L f ϵ ≤ α β ϵ α β + α β ≤ ϵ ˉ 2 β . \mu=\sqrt{\frac{2\alpha\Lambda}{\beta}}\frac{1}{K_1}=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}\le\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta}}\le\frac{\bar\epsilon}{2\beta}. μ=β2αΛK11=βααβ+αβ+Lfϵϵ≤βααβ+αβϵ≤2βϵˉ.
- 确定 Λ \Lambda Λ: 由上述推导可得当 k ≥ K 1 k\ge K_1 k≥K1时, H ( x k ) − H o p t ≤ ϵ H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon H(xk)−Hopt≤ϵ. 由 H , H μ H,H_{\mu} H,Hμ的关系进一步可得 H ( x μ ∗ ) − β μ ≤ H μ ( x μ ∗ ) = H μ , o p t ≤ H o p t ≤ H ( x 0 ) ⇒ H ( x μ ∗ ) ≤ H ( x 0 ) + ϵ ˉ 2 . H(\mathbf{x}_{\mu}^*)-\beta\mu\le H_{\mu}(\mathbf{x}_{\mu}^*)=H_{\mu,\mathrm{opt}}\le H_{\mathrm{opt}}\le H(\mathbf{x}^0)\Rightarrow H(\mathbf{x}_{\mu}^*)\le H(\mathbf{x}^0)+\frac{\bar\epsilon}{2}. H(xμ∗)−βμ≤Hμ(xμ∗)=Hμ,opt≤Hopt≤H(x0)⇒H(xμ∗)≤H(x0)+2ϵˉ.由假设条件3(iv), ∥ x μ ∗ ∥ ≤ R δ \Vert\mathbf{x}_{\mu}^*\Vert\le R_{\delta} ∥xμ∗∥≤Rδ, 其中 δ = H ( x 0 ) + ϵ ˉ 2 \delta=H(\mathbf{x}^0)+\frac{\bar\epsilon}{2} δ=H(x0)+2ϵˉ. 因此 Λ = ∥ x μ ∗ − x 0 ∥ 2 ≤ ( R δ + ∥ x 0 ∥ ) 2 = Γ \Lambda=\Vert\mathbf{x}_{\mu}^*-\mathbf{x}^0\Vert^2\le(R_{\delta}+\Vert\mathbf{x}^0\Vert)^2=\Gamma Λ=∥xμ∗−x0∥2≤(Rδ+∥x0∥)2=Γ. 最后再考虑 K 1 K_1 K1中的 Λ \Lambda Λ: K 1 = 2 Λ α β + 2 Λ α β + 2 Λ L f ϵ ϵ ≤ 2 2 Λ α β + 2 Λ L f ϵ ϵ ( γ + δ ≤ γ + δ , ∀ γ , δ ≥ 0 ) ≤ 2 2 Γ α β + 2 Γ L f ϵ ϵ ≡ K 2 . \begin{aligned}K_1&=\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}\\ &\le\frac{2\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda L_f\epsilon}}{\epsilon}\,(\sqrt{\gamma+\delta}\le\sqrt{\gamma}+\sqrt{\delta},\,\forall\gamma,\delta\ge0)\\ &\le\frac{2\sqrt{2\Gamma\alpha\beta}+\sqrt{2\Gamma L_f\epsilon}}{\epsilon}\\ &\equiv K_2.\end{aligned} K1=ϵ2Λαβ+2Λαβ+2ΛLfϵ≤ϵ22Λαβ+2ΛLfϵ(γ+δ≤γ+δ,∀γ,δ≥0)≤ϵ22Γαβ+2ΓLfϵ≡K2.所以对 ∀ k ≥ K 2 \forall k\ge K_2 ∀k≥K2, 都有 H ( x k ) − H o p t ≤ ϵ H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon H(xk)−Hopt≤ϵ. 得证.
例13 考虑问题 min x ∈ E { h ( x ) : x ∈ C } , \min_{\mathbf{x}\in\mathbb{E}}\{h(\mathbf{x}):\mathbf{x}\in C\}, x∈Emin{h(x):x∈C},其中 C C C为非空闭凸集, h : E → R h:\mathbb{E}\to\mathbb{R} h:E→R为凸 ℓ h \ell_h ℓh-Lipschitz函数. 此问题是本节讨论模型中 f ≡ 0 , g = δ C f\equiv0,\,g=\delta_C f≡0,g=δC时的特例. 由定理19, 对 ∀ μ > 0 \forall\mu>0 ∀μ>0, Moreau包络 M h μ M_h^{\mu} Mhμ是 h h h对参数 ( α , β ) = ( 1 , ℓ h 2 2 ) (\alpha,\beta)=(1,\frac{\ell_h^2}{2}) (α,β)=(1,2ℓh2)的 1 μ \frac{1}{\mu} μ1-光滑逼近. 另外, 根据第六章定理22, ∇ M h μ ( x ) = 1 μ ( x − p r o x μ h ( x ) ) \nabla M_h^{\mu}(\mathbf{x})=\frac{1}{\mu}(\mathbf{x}-\mathrm{prox}_{\mu h}(\mathbf{x})) ∇Mhμ(x)=μ1(x−proxμh(x)). 所以我们取 h μ = M h μ h_{\mu}=M_h^{\mu} hμ=Mhμ, 从而 F μ = f + h μ = M h μ F_{\mu}=f+h_{\mu}=M_h^{\mu} Fμ=f+hμ=Mhμ. 由定理20, 注意到 L f = 0 L_f=0 Lf=0, 令 μ = α β ϵ α β + α β + L f ϵ = α β ϵ α β + α β = ϵ 2 β = ϵ ℓ h 2 , \mu=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta}}=\frac{\epsilon}{2\beta}=\frac{\epsilon}{\ell_h^2}, μ=βααβ+αβ+Lfϵϵ=βααβ+αβϵ=2βϵ=ℓh2ϵ,则经过量阶为 O ( 1 / ϵ ) O(1/\epsilon) O(1/ϵ)次迭代后, S-FISTA即可得到 ϵ \epsilon ϵ-最优解. 此处步长为 1 L ~ \frac{1}{\tilde L} L~1, 其中 L ~ = α μ = 1 μ \tilde L=\frac{\alpha}{\mu}=\frac{1}{\mu} L~=μα=μ1. S-FISTA的主要更新格式为 x k + 1 = p r o x 1 L ~ g ( y k − 1 L ~ ∇ F μ ( y k ) ) = P C ( y k − 1 L ~ μ ( y k − p r o x μ h ( y k ) ) ) = P C ( p r o x μ h ( y k ) ) . \begin{aligned}\mathbf{x}^{k+1}&=\mathrm{prox}_{\frac{1}{\tilde L}g}\left(\mathbf{y}^k-\frac{1}{\tilde L}\nabla F_{\mu}(\mathbf{y}^k)\right)=P_C\left(\mathbf{y}^k-\frac{1}{\tilde L\mu}(\mathbf{y}^k-\mathrm{prox}_{\mu h}(\mathbf{y}^k))\right)\\&=P_C(\mathrm{prox}_{\mu h}(\mathbf{y}^k)).\end{aligned} xk+1=proxL~1g(yk−L~1∇Fμ(yk))=PC(yk−L~μ1(yk−proxμh(yk)))=PC(proxμh(yk)).此时S-FISTA变成:
例14 考虑问题
(
P
)
min
x
∈
R
n
{
1
2
∥
A
x
−
b
∥
2
2
+
∥
D
x
∥
1
+
λ
∥
x
∥
1
}
,
(\text{P})\quad\min_{\mathbf{x}\in\mathbb{R}^n}\left\{\frac{1}{2}\Vert\mathbf{Ax-b}\Vert^2_2+\Vert\mathbf{Dx}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\right\},
(P)x∈Rnmin{21∥Ax−b∥22+∥Dx∥1+λ∥x∥1},其中
A
∈
R
m
×
n
,
b
∈
R
m
,
D
∈
R
p
×
n
,
λ
>
0
\mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\mathbf{D}\in\mathbb{R}^{p\times n},\,\lambda>0
A∈Rm×n,b∈Rm,D∈Rp×n,λ>0. 问题
(
P
)
(\text{P})
(P)相当于本节模型中
f
(
x
)
=
1
2
∥
A
x
−
b
∥
2
2
,
h
(
x
)
=
∥
D
x
∥
1
,
g
(
x
)
=
λ
∥
x
∥
1
f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2,\,h(\mathbf{x})=\Vert\mathbf{Dx}\Vert_1,\,g(\mathbf{x})=\lambda\Vert\mathbf{x}\Vert_1
f(x)=21∥Ax−b∥22,h(x)=∥Dx∥1,g(x)=λ∥x∥1. 易知
f
f
f是凸函数且
L
f
L_f
Lf-光滑
(
L
f
=
∥
A
T
A
∥
2
,
2
=
∥
A
∥
2
,
2
2
)
(L_f=\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}=\Vert\mathbf{A}\Vert_{2,2}^2)
(Lf=∥ATA∥2,2=∥A∥2,22),
g
g
g正常闭凸,
h
h
h实值凸且目标函数的水平集是有界的. 因此假设条件3成立. 注意到
h
(
x
)
=
q
(
D
x
)
h(\mathbf{x})=q(\mathbf{Dx})
h(x)=q(Dx), 其中
q
:
R
p
→
R
q:\mathbb{R}^p\to\mathbb{R}
q:Rp→R定义为
q
(
y
)
=
∥
y
∥
1
q(\mathbf{y})=\Vert\mathbf{y}\Vert_1
q(y)=∥y∥1. 由例11, 对
∀
μ
>
0
\forall\mu>0
∀μ>0,
q
μ
(
y
)
=
M
q
μ
(
y
)
=
∑
i
=
1
p
H
μ
(
y
i
)
q_{\mu}(\mathbf{y})=M_q^{\mu}(\mathbf{y})=\sum_{i=1}^pH_{\mu}(y_i)
qμ(y)=Mqμ(y)=∑i=1pHμ(yi)是
q
q
q对参数
(
1
,
p
2
)
(1,\frac{p}{2})
(1,2p)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近. 再由定理18(ii),
q
μ
(
D
x
)
q_{\mu}(\mathbf{Dx})
qμ(Dx)就是
h
h
h对参数
(
α
,
β
)
=
(
∥
D
∥
2
,
2
2
,
p
2
)
(\alpha,\beta)=(\Vert\mathbf{D}\Vert_{2,2}^2,\frac{p}{2})
(α,β)=(∥D∥2,22,2p)的
1
μ
\frac{1}{\mu}
μ1-光滑逼近.
令 h μ ( x ) = M q μ ( D x ) , F μ ( x ) = f ( x ) + h μ ( x ) h_{\mu}(\mathbf{x})=M_q^{\mu}(\mathbf{Dx}),\,F_{\mu}(\mathbf{x})=f(\mathbf{x})+h_{\mu}(\mathbf{x}) hμ(x)=Mqμ(Dx),Fμ(x)=f(x)+hμ(x). 由定理20, 令 μ = α β ϵ α β + α β + L f ϵ = 2 ∥ D ∥ 2 , 2 p ⋅ ϵ ∥ D ∥ 2 , 2 2 p + ∥ D ∥ 2 , 2 2 p + 2 ∥ A T A ∥ 2 , 2 ϵ . \begin{aligned}\mu&=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}\\&=\frac{2\Vert\mathbf{D}\Vert_{2,2}}{\sqrt{p}}\cdot\frac{\epsilon}{\sqrt{\Vert\mathbf{D}\Vert_{2,2}^2p}+\sqrt{\Vert\mathbf{D}\Vert_{2,2}^2p+2\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}\epsilon}}.\end{aligned} μ=βααβ+αβ+Lfϵϵ=p2∥D∥2,2⋅∥D∥2,22p+∥D∥2,22p+2∥ATA∥2,2ϵϵ.此时 ∇ F μ ( x ) = ∇ f ( x ) + D T ∇ M q μ ( D x ) = ∇ f ( x ) + 1 μ D T ( D x − p r o x μ q ( D x ) ) = ∇ f ( x ) + 1 μ D T ( D x − T μ ( D x ) ) . \begin{aligned}\nabla F_{\mu}(\mathbf{x})&=\nabla f(\mathbf{x})+\mathbf{D}^T\nabla M_q^{\mu}(\mathbf{Dx})\\&=\nabla f(\mathbf{x})+\frac{1}{\mu}\mathbf{D}^T(\mathbf{Dx}-\mathrm{prox}_{\mu q}(\mathbf{Dx}))\\&=\nabla f(\mathbf{x})+\frac{1}{\mu}\mathbf{D}^T(\mathbf{Dx}-\mathcal{T}_{\mu}(\mathbf{Dx})).\end{aligned} ∇Fμ(x)=∇f(x)+DT∇Mqμ(Dx)=∇f(x)+μ1DT(Dx−proxμq(Dx))=∇f(x)+μ1DT(Dx−Tμ(Dx)).此时S-FISTA变成:
注意问题
(
P
)
(\text{P})
(P)由于其特殊结构, 实际上让我们能够确切地算出定理20中出现的常数
Γ
\Gamma
Γ. 事实上, 若
H
(
x
)
≤
α
H(\mathbf{x})\le\alpha
H(x)≤α, 则
λ
∥
x
∥
2
≤
λ
∥
x
∥
1
≤
1
2
∥
A
x
−
b
∥
2
2
+
∥
D
x
∥
1
+
λ
∥
x
∥
1
≤
α
,
\lambda\Vert\mathbf{x}\Vert_2\le\lambda\Vert\mathbf{x}\Vert_1\le\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_{2}^2+\Vert\mathbf{Dx}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\le\alpha,
λ∥x∥2≤λ∥x∥1≤21∥Ax−b∥22+∥Dx∥1+λ∥x∥1≤α,因此
R
α
R_{\alpha}
Rα可以取为
α
λ
\frac{\alpha}{\lambda}
λα, 进一步就可以计算出
Γ
\Gamma
Γ.
9. 非欧情形下的临近梯度法
本节, 我们讨论空间不是欧式空间的情形. 我们考虑两种处理方法, 它们分别针对不同形式的问题:
- 利用梯度下降法的变体, 求解光滑无约束问题;
- 基于Bregman距离(见第九章定义1), 修改PGM, 求解组合问题.
9.1 非欧梯度下降法
考虑无约束问题 min { f ( x ) : x ∈ E } , \min\{f(\mathbf{x}):\mathbf{x}\in\mathbb{E}\}, min{f(x):x∈E},其中我们假设 f f f对于所处空间的范数是 L f L_f Lf-光滑的.
首先我们回忆以下梯度下降法, 其迭代格式为 x k + 1 = x k − t k ∇ f ( x k ) . \mathbf{x}^{k+1}=\mathbf{x}^k-t_k\nabla f(\mathbf{x}^k). xk+1=xk−tk∇f(xk).正如我们在上一章讨论的, 在非欧空间中使用这一格式存在逻辑上的问题: x k ∈ E , ∇ f ( x k ) ∈ E ∗ \mathbf{x}^k\in\mathbb{E},\,\nabla f(\mathbf{x}^k)\in\mathbb{E}^* xk∈E,∇f(xk)∈E∗. 注意到 E , E ∗ \mathbb{E},\mathbb{E}^* E,E∗在元素上是一一对应的7, 因此我们在使用上述格式时, 完全可以把 ∇ f ( x k ) \nabla f(\mathbf{x}^k) ∇f(xk)当做其在 E \mathbb{E} E中的对应(这个对应不一定好找), 代入后再去运算. 但是这里, 我们考虑将上式中的 ∇ f ( x k ) \nabla f(\mathbf{x}^k) ∇f(xk)替换成其在 E \mathbb{E} E中的“原始对等元(primal counterpart)”. 我们先给出原始对等元的定义: 对 ∀ a ∈ E ∗ \forall\mathbf{a}\in\mathbb{E}^* ∀a∈E∗, a \mathbf{a} a的原始对等元(集合)为 Λ a = arg max v ∈ E { ⟨ a , v ⟩ : ∥ v ∥ ≤ 1 } . \Lambda_{\mathbf{a}}=\arg\max_{\mathbf{v}\in\mathbb{E}}\{\langle\mathbf{a,v}\rangle:\Vert\mathbf{v}\Vert\le1\}. Λa=argv∈Emax{⟨a,v⟩:∥v∥≤1}.下面的引理列出了 Λ a \Lambda_{\mathbf{a}} Λa的一些基本性质. 它们都可以由原始对等元及对偶范数的定义推出.
引理7 (原始对等元集合的性质) 设
a
∈
E
∗
\mathbf{a}\in\mathbb{E}^*
a∈E∗.
(i) 若
a
≠
0
\mathbf{a\ne0}
a=0, 则
∥
a
†
∥
=
1
,
∀
a
†
∈
Λ
a
\Vert\mathbf{a}^{\dagger}\Vert=1,\,\forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}}
∥a†∥=1,∀a†∈Λa;
(ii) 若
a
=
0
\mathbf{a=0}
a=0, 则
Λ
a
=
B
∥
⋅
∥
[
0
,
1
]
\Lambda_{\mathbf{a}}=B_{\Vert\cdot\Vert}[\mathbf{0},1]
Λa=B∥⋅∥[0,1];
(iii)
⟨
a
,
a
†
⟩
=
∥
a
∥
∗
,
∀
a
†
∈
Λ
a
\langle\mathbf{a},\mathbf{a}^{\dagger}\rangle=\Vert\mathbf{a}\Vert_*,\,\forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}}
⟨a,a†⟩=∥a∥∗,∀a†∈Λa;
(iv)
Λ
a
=
∂
h
(
a
)
\Lambda_{\mathbf{a}}=\partial h(\mathbf{a})
Λa=∂h(a),其中
h
(
⋅
)
=
∥
⋅
∥
∗
h(\cdot)=\Vert\cdot\Vert_*
h(⋅)=∥⋅∥∗.
证明: 由对偶范数的定义即得(iii)成立. 若 a = 0 \mathbf{a=0} a=0, 则 ⟨ a , v ⟩ ≡ 0 , ∀ v : ∥ v ∥ ≤ 1 \langle\mathbf{a,v}\rangle\equiv0,\,\forall\mathbf{v}:\Vert\mathbf{v}\Vert\le1 ⟨a,v⟩≡0,∀v:∥v∥≤1. 因此必然有 Λ a = B ∥ ⋅ ∥ [ 0 , 1 ] \Lambda_{\mathbf{a}}=B_{\Vert\cdot\Vert}[\mathbf{0},1] Λa=B∥⋅∥[0,1]; 若 a ≠ 0 \mathbf{a\ne0} a=0, 假设 ∥ a † ∥ ≤ 1 , ∃ a † ∈ Λ a \Vert\mathbf{a}^{\dagger}\Vert\le1,\,\exists\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} ∥a†∥≤1,∃a†∈Λa. 则 ∥ a ∥ ∗ = ⟨ a , a † ⟩ ≤ ∥ a ∥ ∗ ∥ a † ∥ < ∥ a ∥ ∗ \Vert\mathbf{a}\Vert_*=\langle\mathbf{a},\mathbf{a}^{\dagger}\rangle\le\Vert\mathbf{a}\Vert_*\Vert\mathbf{a}^{\dagger}\Vert<\Vert\mathbf{a}\Vert_* ∥a∥∗=⟨a,a†⟩≤∥a∥∗∥a†∥<∥a∥∗, 矛盾. 所以(i),(ii)得证. (iv)是共轭次梯度定理(第四章定理12)的推论. 注意由第四章4.12节, 我们有 h ∗ ( v ) = δ B ∥ ⋅ ∥ [ 0 , 1 ] ( v ) . h^*(\mathbf{v})=\delta_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{v}). h∗(v)=δB∥⋅∥[0,1](v).因此对 ∀ a † ∈ Λ a \forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} ∀a†∈Λa, 由(iii), ⟨ a , a † ⟩ = h ( a ) + δ B ∥ ⋅ ∥ [ 0 , 1 ] ( a † ) = h ( a ) + h ∗ ( a † ) . \langle\mathbf{a},\mathbf{a}^{\dagger}\rangle=h(\mathbf{a})+\delta_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{a}^{\dagger})=h(\mathbf{a})+h^*(\mathbf{a}^{\dagger}). ⟨a,a†⟩=h(a)+δB∥⋅∥[0,1](a†)=h(a)+h∗(a†).所以 a † ∈ ∂ h ( a ) \mathbf{a}^{\dagger}\in\partial h(\mathbf{a}) a†∈∂h(a). 由 a † ∈ Λ a \mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} a†∈Λa的任意性, 就有 Λ a = ∂ h ( a ) \Lambda_{\mathbf{a}}=\partial h(\mathbf{a}) Λa=∂h(a).
例15 设 E = R n \mathbb{E}=\mathbb{R}^n E=Rn中的范数为欧式 ℓ 2 \ell_2 ℓ2-范数. 此时对 ∀ a ≠ 0 \forall\mathbf{a\ne0} ∀a=0, 由引理7的(iv), Λ a = { a ∥ a ∥ 2 } . \Lambda_{\mathbf{a}}=\left\{\frac{\mathbf{a}}{\Vert\mathbf{a}\Vert_2}\right\}. Λa={∥a∥2a}.
例16 设 E = R n \mathbb{E}=\mathbb{R}^n E=Rn中的范数为 ℓ 1 \ell_1 ℓ1-范数. 此时对 ∀ a ≠ 0 \forall\mathbf{a\ne0} ∀a=0, 根据第三章例18, Λ a = ∂ ∥ ⋅ ∥ ∞ ( a ) = { ∑ i ∈ I ( a ) λ i s g n ( a i ) e i : ∑ i ∈ I ( a ) λ i = 1 , λ j ≥ 0 , j ∈ I ( a ) } , \Lambda_{\mathbf{a}}=\partial\Vert\cdot\Vert_{\infty}(\mathbf{a})=\left\{\sum_{i\in I(\mathbf{a})}\lambda_i\mathrm{sgn}(a_i)\mathbf{e}_i:\sum_{i\in I(\mathbf{a})}\lambda_i=1,\,\lambda_j\ge0,\,j\in I(\mathbf{a})\right\}, Λa=∂∥⋅∥∞(a)=⎩⎨⎧i∈I(a)∑λisgn(ai)ei:i∈I(a)∑λi=1,λj≥0,j∈I(a)⎭⎬⎫,其中 I ( a ) = arg max i = 1 , 2 , … , n ∣ a i ∣ I(\mathbf{a})=\arg\max_{i=1,2,\ldots,n}|a_i| I(a)=argmaxi=1,2,…,n∣ai∣.
例17 设 E = R n \mathbb{E}=\mathbb{R}^n E=Rn中的范数为 ℓ ∞ \ell_{\infty} ℓ∞-范数. 则对 ∀ a ≠ 0 \forall\mathbf{a\ne0} ∀a=0, 根据第三章例11, Λ a = ∂ ∥ ⋅ ∥ 1 ( a ) = { z ∈ R n : z i = s g n ( a i ) , i ∈ I ≠ ( a ) ; ∣ z j ∣ ≤ 1 , j ∈ I 0 ( a ) } , \Lambda_{\mathbf{a}}=\partial\Vert\cdot\Vert_1(\mathbf{a})=\left\{\mathbf{z}\in\mathbb{R}^n:z_i=\mathrm{sgn}(a_i),\,i\in I_{\ne}(\mathbf{a});\,|z_j|\le1,\,j\in I_0(\mathbf{a})\right\}, Λa=∂∥⋅∥1(a)={z∈Rn:zi=sgn(ai),i∈I=(a);∣zj∣≤1,j∈I0(a)},其中 I ≠ ( a ) = { i ∈ { 1 , 2 , … , n } : a i ≠ 0 } , I 0 ( a ) = { i ∈ { 1 , 2 , … , n } : a i = 0 } . I_{\ne}(\mathbf{a})=\{i\in\{1,2,\ldots,n\}:a_i\ne0\},\,I_0(\mathbf{a})=\{i\in\{1,2,\ldots,n\}:a_i=0\}. I=(a)={i∈{1,2,…,n}:ai=0},I0(a)={i∈{1,2,…,n}:ai=0}.
所谓的非欧梯度下降法, 实际就是把梯度下降法中的 ∇ f ( x k ) \nabla f(\mathbf{x}^k) ∇f(xk)替换成某个 ∇ f ( x k ) † ∈ Λ ∇ f ( x k ) \nabla f(\mathbf{x}^k)^{\dagger}\in\Lambda_{\nabla f(\mathbf{x}^k)} ∇f(xk)†∈Λ∇f(xk).
我们先证明非欧梯度下降法的充分下降引理. 其过程基本与引理1相同.
引理8 (非欧梯度下降法的充分下降引理) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:E→R为一 L f L_f Lf-光滑函数, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由非欧梯度下降法生成的迭代序列. 则对 ∀ k ≥ 0 \forall k\ge0 ∀k≥0, f ( x k ) − f ( x k + 1 ) ≥ L k − L f 2 L k 2 ∥ ∇ f ( x k ) ∥ ∗ 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge\frac{L_k-\frac{L_f}{2}}{L_k^2}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2. f(xk)−f(xk+1)≥Lk2Lk−2Lf∥∇f(xk)∥∗2.
证明: 由 L f L_f Lf-光滑函数的下降引理, f ( x k + 1 ) ≤ f ( x k ) + ⟨ ∇ f ( x k ) , x k + 1 − x k ⟩ + L f 2 ∥ x k + 1 − x k ∥ 2 = f ( x k ) − ∥ ∇ f ( x k ) ∥ ∗ L k ⟨ ∇ f ( x k ) , ∇ f ( x k ) † ⟩ + L f ∥ ∇ f ( x k ) ∥ ∗ 2 2 L k 2 = 引 理 7 ( iii ) f ( x k ) − ∥ ∇ f ( x k ) ∥ ∗ 2 L k + L f ∥ ∇ f ( x k ) ∥ ∗ 2 2 L k 2 = f ( x k ) − L k − L f 2 L k 2 ∥ ∇ f ( x k ) ∥ ∗ 2 . \begin{aligned}f(\mathbf{x}^{k+1})&\le f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}^{k+1}-\mathbf{x}^k\rangle+\frac{L_f}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2\\&=f(\mathbf{x}^k)-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_k}\langle\nabla f(\mathbf{x}^k),\nabla f(\mathbf{x}^k)^{\dagger}\rangle+\frac{L_f\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{2L_k^2}\\&\overset{引理7(\text{iii})}{=}f(\mathbf{x}^k)-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{L_k}+\frac{L_f\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{2L_k^2}\\&=f(\mathbf{x}^k)-\frac{L_k-\frac{L_f}{2}}{L_k^2}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2.\end{aligned} f(xk+1)≤f(xk)+⟨∇f(xk),xk+1−xk⟩+2Lf∥xk+1−xk∥2=f(xk)−Lk∥∇f(xk)∥∗⟨∇f(xk),∇f(xk)†⟩+2Lk2Lf∥∇f(xk)∥∗2=引理7(iii)f(xk)−Lk∥∇f(xk)∥∗2+2Lk2Lf∥∇f(xk)∥∗2=f(xk)−Lk2Lk−2Lf∥∇f(xk)∥∗2.
我们考虑三种步长准则: 常值、回溯、精确线搜索.
- 常值: L k ≡ L ˉ ∈ ( L f 2 , ∞ ) , ∀ k L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right),\,\forall k Lk≡Lˉ∈(2Lf,∞),∀k;
- 回溯B4: 输入参数
(
s
,
γ
,
η
)
:
s
>
0
,
γ
∈
(
0
,
1
)
,
η
>
1
(s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1
(s,γ,η):s>0,γ∈(0,1),η>1. 按如下流程选取
L
k
L_k
Lk:
- L k : = s L_k:=s Lk:=s;
- 若
f
(
x
k
)
−
f
(
x
k
−
∥
∇
f
(
x
k
)
∥
∗
L
k
∇
f
(
x
k
)
†
)
<
γ
L
k
∥
∇
f
(
x
k
)
∥
∗
2
,
f(\mathbf{x}^k)-f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_k}\nabla f(\mathbf{x}^k)^{\dagger}\right)<\frac{\gamma}{L_k}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2,
f(xk)−f(xk−Lk∥∇f(xk)∥∗∇f(xk)†)<Lkγ∥∇f(xk)∥∗2,则
L
k
:
=
η
L
k
L_k:=\eta L_k
Lk:=ηLk.
换句话说, L k L_k Lk选取为 L k = s η i k L_k=s\eta^{i_k} Lk=sηik, 其中 i k i_k ik为使 f ( x k ) − f ( x k − ∥ ∇ f ( x k ) ∥ ∗ ∥ s η i k ∇ f ( x k ) † ) ≥ γ s η i k ∥ ∇ f ( x k ) ∥ ∗ 2 f(\mathbf{x}^k)-f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*\Vert}{s\eta^{i_k}}\nabla f(\mathbf{x}^k)^{\dagger}\right)\ge\frac{\gamma}{s\eta^{i_k}}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2 f(xk)−f(xk−sηik∥∇f(xk)∥∗∥∇f(xk)†)≥sηikγ∥∇f(xk)∥∗2成立的最小非负整数.
- 精确线搜索: L k ∈ arg min L > 0 f ( x k − ∥ ∇ f ( x k ) ∥ ∗ L ∇ f ( x k ) † ) L_k\in\arg\min_{L>0}f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L}\nabla f(\mathbf{x}^k)^{\dagger}\right) Lk∈argminL>0f(xk−L∥∇f(xk)∥∗∇f(xk)†).
类似地, 我们可以证明回溯B4准则下步长的上界 L k ≤ max { s , η L f 2 ( 1 − γ ) } . L_k\le\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}. Lk≤max{s,2(1−γ)ηLf}.
9.1.1 非凸情形下的收敛性分析
下面的引理9和定理21类似于引理5和定理3.
引理9 (具体步长准则下非欧梯度下降法的充分下降引理) 设 f f f为 L f L_f Lf-光滑函数, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由基于常值 ( L k ≡ L ˉ ∈ ( L f 2 , ∞ ) ) \left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right) (Lk≡Lˉ∈(2Lf,∞))、回溯B4 ( ( s , γ , η ) : s > 0 , γ ∈ ( 0 , 1 ) , η > 1 ) ((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1) ((s,γ,η):s>0,γ∈(0,1),η>1)或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则对 ∀ k ≥ 0 \forall k\ge0 ∀k≥0, f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 , f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2, f(xk)−f(xk+1)≥M∥∇f(xk)∥∗2,其中 M = { L ˉ − L f 2 ( L ˉ ) 2 , 常 值 , γ max { s , η L f 2 ( 1 − γ ) } , 回 溯 , 1 2 L f , 精 确 线 搜 索 . M=\left\{\begin{array}{ll}\dfrac{\bar L-\frac{L_f}{2}}{(\bar L)^2}, & 常值,\\\dfrac{\gamma}{\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}}, & 回溯,\\\dfrac{1}{2L_f}, & 精确线搜索.\end{array}\right. M=⎩⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎧(Lˉ)2Lˉ−2Lf,max{s,2(1−γ)ηLf}γ,2Lf1,常值,回溯,精确线搜索.
证明: 常值和回溯B4步长准则下的结论是显然的. 我们考虑精确线搜素准则. 由精确线搜索的最优性, 我们有 f ( x k + 1 ) ≤ f ( x ~ k ) f(\mathbf{x}^{k+1})\le f(\tilde\mathbf{x}^k) f(xk+1)≤f(x~k), 其中 x ~ k = x k − ∥ ∇ f ( x k ) ∥ ∗ L f ∇ f ( x k ) † \tilde\mathbf{x}^k=\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_f}\nabla f(\mathbf{x}^k)^{\dagger} x~k=xk−Lf∥∇f(xk)∥∗∇f(xk)†. 因此 f ( x k ) − f ( x k + 1 ) ≥ f ( x k ) − f ( x ~ k ) ≥ 1 2 L f ∥ ∇ f ( x k ) ∥ ∗ 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge f(\mathbf{x}^k)-f(\tilde\mathbf{x}^k)\ge\frac{1}{2L_f}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2. f(xk)−f(xk+1)≥f(xk)−f(x~k)≥2Lf1∥∇f(xk)∥∗2.得证.
定理21 (非凸情形下非欧梯度下降法的收敛性) 设
f
f
f为
L
f
L_f
Lf-光滑函数,
{
x
k
}
k
≥
0
\{\mathbf{x}^k\}_{k\ge0}
{xk}k≥0为由基于常值
(
L
k
≡
L
ˉ
∈
(
L
f
2
,
∞
)
)
\left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right)
(Lk≡Lˉ∈(2Lf,∞))、回溯B4
(
(
s
,
γ
,
η
)
:
s
>
0
,
γ
∈
(
0
,
1
)
,
η
>
1
)
((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1)
((s,γ,η):s>0,γ∈(0,1),η>1)或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则
(i) 函数值序列
{
f
(
x
k
)
}
k
≥
0
\{f(\mathbf{x}^k)\}_{k\ge0}
{f(xk)}k≥0单调递减; 另外,
f
(
x
k
+
1
)
<
f
(
x
k
)
f(\mathbf{x}^{k+1})<f(\mathbf{x}^k)
f(xk+1)<f(xk)当且仅当
∇
f
(
x
k
)
≠
0
\nabla f(\mathbf{x}^k)\ne\mathbf{0}
∇f(xk)=0;
(ii) 若函数值序列
{
f
(
x
k
)
}
k
≥
0
\{f(\mathbf{x}^k)\}_{k\ge0}
{f(xk)}k≥0有下界, 则
∇
f
(
x
k
)
→
0
\nabla f(\mathbf{x}^k)\to\mathbf{0}
∇f(xk)→0;
(iii) 若最优值有限, 记为
f
o
p
t
f_{\mathrm{opt}}
fopt, 则
min
n
=
0
,
1
,
…
,
k
∥
∇
f
(
x
k
)
∥
∗
≤
f
(
x
0
)
−
f
o
p
t
M
(
k
+
1
)
,
\min_{n=0,1,\ldots,k}\Vert\nabla f(\mathbf{x}^k)\Vert_*\le\frac{\sqrt{f(\mathbf{x}^0)-f_{\mathrm{opt}}}}{\sqrt{M(k+1)}},
n=0,1,…,kmin∥∇f(xk)∥∗≤M(k+1)f(x0)−fopt,其中
M
M
M如引理9中定义;
(iv)
{
x
k
}
k
≥
0
\{\mathbf{x}^k\}_{k\ge0}
{xk}k≥0的所有聚点都是问题的稳定点.
证明: (i) 由引理9, f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 , f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2, f(xk)−f(xk+1)≥M∥∇f(xk)∥∗2,其中 M > 0 M>0 M>0. 于是显然有函数值序列单调递减. 另外, 若 ∇ f ( x k ) ≠ 0 \nabla f(\mathbf{x}^k)\ne\mathbf{0} ∇f(xk)=0, 则 f ( x k ) > f ( x k + 1 ) f(\mathbf{x}^k)>f(\mathbf{x}^{k+1}) f(xk)>f(xk+1); 若 ∇ f ( x k ) = 0 \nabla f(\mathbf{x}^k)=\mathbf{0} ∇f(xk)=0, 则 x k + 1 = x k \mathbf{x}^{k+1}=\mathbf{x}^k xk+1=xk, 从而 f ( x k + 1 ) = f ( x k ) f(\mathbf{x}^{k+1})=f(\mathbf{x}^k) f(xk+1)=f(xk).
(ii) 由于函数值序列单调递减且下有界, 所以收敛. 特别由Cauchy收敛准则, f ( x k ) − f ( x k + 1 ) → 0 f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\to0 f(xk)−f(xk+1)→0. 结合引理9就有 ∇ f ( x k ) → 0 \nabla f(\mathbf{x}^k)\to\mathbf{0} ∇f(xk)→0.
(iii) 由于对 ∀ n ≥ 0 \forall n\ge0 ∀n≥0, f ( x n ) − f ( x n + 1 ) ≥ M ∥ ∇ f ( x n ) ∥ ∗ 2 . f(\mathbf{x}^n)-f(\mathbf{x}^{n+1})\ge M\Vert\nabla f(\mathbf{x}^n)\Vert_*^2. f(xn)−f(xn+1)≥M∥∇f(xn)∥∗2.对指标 n = 0 , 1 , … , k n=0,1,\ldots,k n=0,1,…,k求和即得 f ( x 0 ) − f ( x k + 1 ) ≥ M ∑ n = 0 k ∥ ∇ f ( x n ) ∥ ∗ 2 ≥ ( k + 1 ) M min n = 0 , 1 , … , k ∥ ∇ f ( x n ) ∥ ∗ 2 . f(\mathbf{x}^0)-f(\mathbf{x}^{k+1})\ge M\sum_{n=0}^k\Vert\nabla f(\mathbf{x}^n)\Vert_*^2\ge(k+1)M\min_{n=0,1,\ldots,k}\Vert\nabla f(\mathbf{x}^n)\Vert_*^2. f(x0)−f(xk+1)≥Mn=0∑k∥∇f(xn)∥∗2≥(k+1)Mn=0,1,…,kmin∥∇f(xn)∥∗2.再由 f ( x k + 1 ) ≥ f o p t f(\mathbf{x}^{k+1})\ge f_{\mathrm{opt}} f(xk+1)≥fopt, 移项即得(iii).
(iv) 设 x ˉ \bar\mathbf{x} xˉ为 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0的一个聚点. 则存在子列 { x k j } j ≥ 0 \{\mathbf{x}^{k_j}\}_{j\ge0} {xkj}j≥0收敛于 x ˉ \bar\mathbf{x} xˉ. 对 ∀ j ≥ 0 \forall j\ge0 ∀j≥0, ∥ ∇ f ( x ˉ ) ∥ ∗ ≤ ∥ ∇ f ( x k j ) − ∇ f ( x ˉ ) ∥ ∗ + ∥ ∇ f ( x k j ) ∥ ∗ ≤ L f ∥ x k j − x ˉ ∥ + ∥ ∇ f ( x k j ) ∥ ∗ → 0. \Vert\nabla f(\bar\mathbf{x})\Vert_*\le\Vert\nabla f(\mathbf{x}^{k_j})-\nabla f(\bar\mathbf{x})\Vert_*+\Vert\nabla f(\mathbf{x}^{k_j})\Vert_*\le L_f\Vert\mathbf{x}^{k_j}-\bar\mathbf{x}\Vert+\Vert\nabla f(\mathbf{x}^{k_j})\Vert_*\to0. ∥∇f(xˉ)∥∗≤∥∇f(xkj)−∇f(xˉ)∥∗+∥∇f(xkj)∥∗≤Lf∥xkj−xˉ∥+∥∇f(xkj)∥∗→0.所以 ∇ f ( x ˉ ) = 0 ⇔ x ˉ \nabla f(\bar\mathbf{x})=\mathbf{0}\Leftrightarrow\bar\mathbf{x} ∇f(xˉ)=0⇔xˉ是稳定点.
9.1.2 凸情形下的收敛性分析
为分析凸情形下的收敛性, 我们额外需要一个类似于有界性的假设.
假设条件4
(i)
f
:
E
→
R
f:\mathbb{E}\to\mathbb{R}
f:E→R是
凸
L
f
凸L_f
凸Lf-光滑函数;
(ii) 问题
min
x
∈
E
f
(
x
)
\min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x})
x∈Eminf(x)的最优解集非空, 记为
X
∗
X^*
X∗; 最优值记为
f
o
p
t
f_{\mathrm{opt}}
fopt;
(iii) 对
∀
α
>
0
\forall\alpha>0
∀α>0, 存在
R
α
>
0
R_{\alpha}>0
Rα>0, 使得
max
x
,
x
∗
{
∥
x
∗
−
x
∥
:
f
(
x
)
≤
α
,
x
∗
∈
X
∗
}
≤
R
α
.
\max_{\mathbf{x},\mathbf{x}^*}\{\Vert\mathbf{x}^*-\mathbf{x}\Vert:f(\mathbf{x})\le\alpha,\,\mathbf{x}^*\in X^*\}\le R_{\alpha}.
x,x∗max{∥x∗−x∥:f(x)≤α,x∗∈X∗}≤Rα.意即
f
f
f的任一水平集与最优解集
X
∗
X^*
X∗的最大距离均有上界.
为证明收敛速度, 我们需要下面的引理10、11.
引理10 假定假设条件4成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由基于常值 ( L k ≡ L ˉ ∈ ( L f 2 , ∞ ) ) \left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right) (Lk≡Lˉ∈(2Lf,∞))、回溯B4 ( ( s , γ , η ) : s > 0 , γ ∈ ( 0 , 1 ) , η > 1 ) ((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1) ((s,γ,η):s>0,γ∈(0,1),η>1)或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则 f ( x k ) − f ( x k + 1 ) ≥ 1 C ( f ( x k ) − f o p t ) 2 , f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge\frac{1}{C}(f(\mathbf{x}^k)-f_{\mathrm{opt}})^2, f(xk)−f(xk+1)≥C1(f(xk)−fopt)2,其中 C = { R α 2 L ˉ 2 L ˉ − L f 2 , 常 值 , R α 2 γ max { s , η L f 2 ( 1 − γ ) } , 回 溯 , 2 R α 2 L f , 精 确 线 搜 索 , C=\left\{\begin{array}{ll}\frac{R_{\alpha}^2\bar L^2}{\bar L-\frac{L_f}{2}}, & 常值,\\\frac{R_{\alpha}^2}{\gamma}\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}, & 回溯,\\2R_{\alpha}^2L_f, & 精确线搜索,\end{array}\right. C=⎩⎪⎪⎨⎪⎪⎧Lˉ−2LfRα2Lˉ2,γRα2max{s,2(1−γ)ηLf},2Rα2Lf,常值,回溯,精确线搜索, α = f ( x 0 ) \alpha=f(\mathbf{x}^0) α=f(x0).
证明: 注意由定理21(i), { f ( x k ) } k ≥ 0 \{f(\mathbf{x}^k)\}_{k\ge0} {f(xk)}k≥0单调递减; 特别地, 对 ∀ k ≥ 0 \forall k\ge0 ∀k≥0, f ( x k ) ≤ f ( x 0 ) f(\mathbf{x}^k)\le f(\mathbf{x}^0) f(xk)≤f(x0). 因此对 ∀ x ∗ ∈ X ∗ , k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 ∀x∗∈X∗,k≥0, ∥ x k − x ∗ ∥ ≤ R α , \Vert\mathbf{x}^k-\mathbf{x}^*\Vert\le R_{\alpha}, ∥xk−x∗∥≤Rα,其中 α = f ( x 0 ) \alpha=f(\mathbf{x}^0) α=f(x0). 一方面我们注意到, 由引理9, f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2. f(xk)−f(xk+1)≥M∥∇f(xk)∥∗2.另一方面由凸函数的性质以及Cauchy-Schwarz不等式, 对 ∀ x ∗ ∈ X ∗ \forall\mathbf{x}^*\in X^* ∀x∗∈X∗, f ( x k ) − f o p t = f ( x k ) − f ( x ∗ ) ≤ ⟨ ∇ f ( x k ) , x k − x ∗ ⟩ ≤ ∥ ∇ f ( x k ) ∥ ∗ ∥ x k − x ∗ ∥ ≤ R α ∥ ∇ f ( x k ) ∥ ∗ . \begin{aligned}f(\mathbf{x}^k)-f_{\mathrm{opt}}&=f(\mathbf{x}^k)-f(\mathbf{x}^*)\\&\le\langle\nabla f(\mathbf{x}^k),\mathbf{x}^k-\mathbf{x}^*\rangle\\&\le\Vert\nabla f(\mathbf{x}^k)\Vert_*\Vert\mathbf{x}^k-\mathbf{x}^*\Vert\\&\le R_{\alpha}\Vert\nabla f(\mathbf{x}^k)\Vert_*.\end{aligned} f(xk)−fopt=f(xk)−f(x∗)≤⟨∇f(xk),xk−x∗⟩≤∥∇f(xk)∥∗∥xk−x∗∥≤Rα∥∇f(xk)∥∗.因此就有 f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 ≥ M R α 2 ( f ( x k ) − f o p t ) 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2\ge\frac{M}{R_{\alpha}^2}(f(\mathbf{x}^k)-f_{\mathrm{opt}})^2. f(xk)−f(xk+1)≥M∥∇f(xk)∥∗2≥Rα2M(f(xk)−fopt)2.将 M M M的定义代入即可得证.
引理11 设 { a k } k ≥ 0 \{a_k\}_{k\ge0} {ak}k≥0为非负实数列, 且存在 γ > 0 \gamma>0 γ>0, 对 ∀ k ≥ 0 \forall k\ge0 ∀k≥0, a k − a k + 1 ≥ 1 γ a k 2 . a_k-a_{k+1}\ge\frac{1}{\gamma}a_k^2. ak−ak+1≥γ1ak2.则对 ∀ k ≥ 1 \forall k\ge1 ∀k≥1, a k ≤ γ k . a_k\le\frac{\gamma}{k}. ak≤kγ.
证明: 设 k ≥ 1 k\ge1 k≥1. 若 a k = 0 a_k=0 ak=0, 则显然结论成立. 假设 a k > 0 a_k>0 ak>0. 则由 { a n } n ≥ 0 \{a_n\}_{n\ge0} {an}n≥0的单调性, 我们有 a 0 , a 1 , … , a k > 0 a_0,a_1,\ldots,a_k>0 a0,a1,…,ak>0. 对 ∀ n = 1 , 2 , … , k \forall n=1,2,\ldots,k ∀n=1,2,…,k, 1 a n − 1 a n − 1 = a n − 1 − a n a n − 1 a n ≥ 1 γ a n − 1 2 a n − 1 a n = 1 γ a n − 1 a n ≥ 1 γ . \frac{1}{a_n}-\frac{1}{a_{n-1}}=\frac{a_{n-1}-a_n}{a_{n-1}a_n}\ge\frac{1}{\gamma}\frac{a_{n-1}^2}{a_{n-1}a_n}=\frac{1}{\gamma}\frac{a_{n-1}}{a_n}\ge\frac{1}{\gamma}. an1−an−11=an−1anan−1−an≥γ1an−1anan−12=γ1anan−1≥γ1.对指标 n = 1 , 2 , … , k n=1,2,\ldots,k n=1,2,…,k求和上式可得 1 a k ≥ 1 a 0 + k γ ≥ k γ . \frac{1}{a_k}\ge\frac{1}{a_0}+\frac{k}{\gamma}\ge\frac{k}{\gamma}. ak1≥a01+γk≥γk.这就证明了结论.
将引理10代入引理11后, 我们立得非欧梯度下降法的 O ( 1 / k ) O(1/k) O(1/k)收敛速度.
定理22 (非欧梯度下降法的 O ( 1 / k ) O(1/k) O(1/k)收敛速度8) 在引理10的假设条件下, 对 ∀ k ≥ 1 \forall k\ge1 ∀k≥1, f ( x k ) − f o p t ≤ C k , f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{C}{k}, f(xk)−fopt≤kC,其中 C C C如引理10中定义.
证明: 由引理10, a k − a k + 1 ≥ 1 C a k 2 , a_k-a_{k+1}\ge\frac{1}{C}a_k^2, ak−ak+1≥C1ak2,其中 a k = f ( x k ) − f o p t a_k=f(\mathbf{x}^k)-f_{\mathrm{opt}} ak=f(xk)−fopt. 再由引理11, 令其中 γ = C \gamma=C γ=C. 于是就有 a k ≤ C k a_k\le\frac{C}{k} ak≤kC.
9.1.3 ℓ 1 \ell_1 ℓ1-范数下 R n \mathbb{R}^n Rn中的非欧梯度下降法
例18 设当前空间为 R n \mathbb{R}^n Rn, 其中范数为 ℓ 1 \ell_1 ℓ1-范数. 设 f f f为对 ℓ 1 \ell_1 ℓ1-范数的 L f L_f Lf-光滑函数. 注意此时对 ∀ a ≠ 0 \forall\mathbf{a\ne0} ∀a=0, 其原始对等元集合(见例16)为 Λ a = { ∑ i ∈ I ( a ) λ i s g n ( a i ) e i : ∑ i ∈ I ( a ) λ i = 1 , λ j ≥ 0 , j ∈ I ( a ) } , \Lambda_{\mathbf{a}}=\left\{\sum_{i\in I(\mathbf{a})}\lambda_i\mathrm{sgn}(a_i)\mathbf{e}_i:\sum_{i\in I(\mathbf{a})}\lambda_i=1,\,\lambda_j\ge0,\,j\in I(\mathbf{a})\right\}, Λa=⎩⎨⎧i∈I(a)∑λisgn(ai)ei:i∈I(a)∑λi=1,λj≥0,j∈I(a)⎭⎬⎫,其中 I ( a ) = arg max i = 1 , 2 , … , n ∣ a i ∣ I(\mathbf{a})=\arg\max_{i=1,2,\ldots,n}|a_i| I(a)=argmaxi=1,2,…,n∣ai∣. 在用的时候, 我们可以任取 i ∈ I ( a ) i\in I(\mathbf{a}) i∈I(a)并令 a † = s g n ( a i ) e i \mathbf{a}^{\dagger}=\mathrm{sgn}(a_i)\mathbf{e}_i a†=sgn(ai)ei. 此时非欧梯度下降法变成:
注意此时的非欧梯度下降实质上就是坐标下降法(coordinate descent method)的一个变体. 只是每步更新的分量和步长具有一定的特殊性.
例19 考虑问题 min x ∈ R n { 1 2 x T A x + b T x } , \min_{\mathbf{x}\in\mathbb{R}^n}\left\{\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}\right\}, x∈Rnmin{21xTAx+bTx},其中 A ∈ S + + n , b ∈ R n \mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n A∈S++n,b∈Rn. 此时 E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 范数为 ℓ p \ell_p ℓp-范数 ( p ∈ [ 1 , ∞ ] ) (p\in[1,\infty]) (p∈[1,∞]). 根据第五章例1, f f f是 L f ( p ) L_f^{(p)} Lf(p)-光滑函数, 其中 L f ( p ) = ∥ A ∥ p , q = max x { ∥ A x ∥ q : ∥ x ∥ p ≤ 1 } , L_f^{(p)}=\Vert\mathbf{A}\Vert_{p,q}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_q:\Vert\mathbf{x}\Vert_p\le1\}, Lf(p)=∥A∥p,q=xmax{∥Ax∥q:∥x∥p≤1}, q ∈ [ 1 , ∞ ] : 1 p + 1 q = 1 q\in[1,\infty]:\frac{1}{p}+\frac{1}{q}=1 q∈[1,∞]:p1+q1=1. 其中两个特例为:
- p = 2 p=2 p=2. 此时因为 A \mathbf{A} A是正定矩阵, 所以 L f ( 2 ) = ∥ A ∥ 2 , 2 = λ max ( A ) L_f^{(2)}=\Vert\mathbf{A}\Vert_{2,2}=\lambda_{\max}(\mathbf{A}) Lf(2)=∥A∥2,2=λmax(A);
- p = 1 p=1 p=1. 此时 L f ( 1 ) = ∥ A ∥ 1 , ∞ = max x { ∥ A x ∥ ∞ : ∥ x ∥ 1 ≤ 1 } L_f^{(1)}=\Vert\mathbf{A}\Vert_{1,\infty}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_{\infty}:\Vert\mathbf{x}\Vert_1\le1\} Lf(1)=∥A∥1,∞=maxx{∥Ax∥∞:∥x∥1≤1}. 一方面, 对 ∀ j \forall j ∀j, ∥ A ∥ 1 , ∞ ≥ ∥ A e j ∥ ∞ = max i ∣ A i , j ∣ . \Vert\mathbf{A}\Vert_{1,\infty}\ge\Vert\mathbf{Ae}_j\Vert_{\infty}=\max_{i}|A_{i,j}|. ∥A∥1,∞≥∥Aej∥∞=imax∣Ai,j∣.从而 ∥ A ∥ 1 , ∞ ≥ max i , j ∣ A i , j ∣ \Vert\mathbf{A}\Vert_{1,\infty}\ge\max_{i,j}|A_{i,j}| ∥A∥1,∞≥maxi,j∣Ai,j∣. 另一方面, ∥ A ∥ 1 , ∞ = max x max i ∣ ∑ j = 1 n A i , j x j ∣ ≤ max x max i ∑ j = 1 n ∣ A i , j ∣ ∣ x j ∣ ≤ max i , j ∣ A i , j ∣ max x max i ∑ j = 1 n ∣ x j ∣ = max i , j ∣ A i , j ∣ . \begin{aligned}\Vert\mathbf{A}\Vert_{1,\infty}=\max_{\mathbf{x}}\max_i\left|\sum_{j=1}^nA_{i,j}x_j\right|&\le\max_{\mathbf{x}}\max_i\sum_{j=1}^n|A_{i,j}||x_j|\\&\le\max_{i,j}|A_{i,j}|\max_{\mathbf{x}}\max_i\sum_{j=1}^n|x_j|\\&=\max_{i,j}|A_{i,j}|.\end{aligned} ∥A∥1,∞=xmaximax∣∣∣∣∣j=1∑nAi,jxj∣∣∣∣∣≤xmaximaxj=1∑n∣Ai,j∣∣xj∣≤i,jmax∣Ai,j∣xmaximaxj=1∑n∣xj∣=i,jmax∣Ai,j∣.所以 ∥ A ∥ 1 , ∞ = max i , j ∣ A i , j ∣ \Vert\mathbf{A}\Vert_{1,\infty}=\max_{i,j}|A_{i,j}| ∥A∥1,∞=maxi,j∣Ai,j∣.
当 p = 2 p=2 p=2时, 非欧梯度下降法就是欧式梯度下降法, 其中步长固定为 L k ≡ L f ( 2 ) = λ max ( A ) L_k\equiv L_f^{(2)}=\lambda_{\max}(\mathbf{A}) Lk≡Lf(2)=λmax(A).
当
p
=
1
p=1
p=1时, 非欧梯度下降法就成了一个坐标下降型算法, 其中步长固定为
L
k
≡
L
f
(
1
)
=
max
i
,
j
∣
A
i
,
j
∣
L_k\equiv L_f^{(1)}=\max_{i,j}|A_{i,j}|
Lk≡Lf(1)=maxi,j∣Ai,j∣.
由定理229,
f
(
x
k
)
−
f
o
p
t
≤
2
L
f
(
p
)
R
f
(
x
0
)
2
k
.
f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{2L_f^{(p)}R_{f(\mathbf{x}^0)}^2}{k}.
f(xk)−fopt≤k2Lf(p)Rf(x0)2.因此, 比值
L
f
(
2
)
L
f
(
1
)
\frac{L_f^{(2)}}{L_f^{(1)}}
Lf(1)Lf(2)可作为这两种方法孰好孰差的指标.
同时, 我们注意到两种算法的每步的计算量不同. 算法G2每步均需要 O ( n 2 ) O(n^2) O(n2)的计算量, 而G1最少时只用 O ( n ) O(n) O(n). 因此, 为公平比较二者的性能, 我们把G1的 n n n步称作1步元迭代(meta-iteration).
例20 我们用数值算例具体比较例19中两种算法的性能. 我们令 A = A ( d ) ≡ J + d I \mathbf{A}=\mathbf{A}^{(d)}\equiv\mathbf{J}+d\mathbf{I} A=A(d)≡J+dI, 其中 J \mathbf{J} J是全1矩阵. 于是对 ∀ d > 0 \forall d>0 ∀d>0, A ( d ) \mathbf{A}^{(d)} A(d)是正定矩阵, 且 λ max ( A ( d ) = d + n , max i , j ∣ A i , j ( d ) ∣ = d + 1 \lambda_{\max}(\mathbf{A}^{(d})=d+n,\,\max_{i,j}|A_{i,j}^{(d)}|=d+1 λmax(A(d)=d+n,maxi,j∣Ai,j(d)∣=d+1. 因此, 随着比值 ρ f = L f ( 2 ) L f ( 1 ) = d + n d + 1 \rho_f=\frac{L_f^{(2)}}{L_f^{(1)}}=\frac{d+n}{d+1} ρf=Lf(1)Lf(2)=d+1d+n变得越大, 欧式梯度下降法(算法G2)将越逊于非欧梯度下降法(算法G1).
具体地, 我们取 A = A ( 2 ) , b = 10 e 1 \mathbf{A}=\mathbf{A}^{(2)},\,\mathbf{b}=10\mathbf{e}_1 A=A(2),b=10e1. 初始点选为 x 0 = e n \mathbf{x}^0=\mathbf{e}_n x0=en. 我们分别在 n = 10 , 100 n=10,100 n=10,100时画出两种算法下 f ( x k ) − f o p t f(\mathbf{x}^k)-f_{\mathrm{opt}} f(xk)−fopt的变化曲线.
其中上面是 n = 10 n=10 n=10, 下面是 n = 100 n=100 n=100. 左图是G1元迭代与G2的比较, 右图则是按原始迭代的比较.
从左图可知, 当比较G1元迭代与G2时, G1显著优于G2. 而从右图可知, 当 n = 10 n=10 n=10时, G1与G2差不多, 此时 ρ f = 4 \rho_f=4 ρf=4; 而当 n = 100 n=100 n=100时, G1仍比G2要好不少, 此时 ρ f = 34 \rho_f=34 ρf=34. 注意右图的比较中, G1每步的计算量也要明显少于G2.
9.2 非欧临近梯度法
本小节我们考虑PGM常被应用的组合问题 min x ∈ E { F ( x ) ≡ f ( x ) + g ( x ) } , \min_{\mathbf{x}\in\mathbb{E}}\{F(\mathbf{x})\equiv f(\mathbf{x})+g(\mathbf{x})\}, x∈Emin{F(x)≡f(x)+g(x)},其中 E \mathbb{E} E不再是欧式空间. 我们之后也将比较非欧与欧式算法. 我们事先说明, 当 g ≡ 0 g\equiv0 g≡0时, 非欧PGM并不会变成非欧梯度下降法. 这就是说, 非欧PGM并不是非欧梯度下降法的推广. 这与PGM是梯度下降法的推广是不同的. 设计非欧PGM的过程类似于将PSGM推广到MDM的过程.
我们先做如下假设.
假设条件5
(i)
g
:
E
→
(
−
∞
,
∞
]
g:\mathbb{E}\to(-\infty,\infty]
g:E→(−∞,∞]为正常闭凸函数;
(ii)
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]为正常闭凸函数;
g
⊂
i
n
t
(
d
o
m
(
f
)
)
\mathrm{g}\subset\mathrm{int}(\mathrm{dom}(f))
g⊂int(dom(f)),
f
f
f在
i
n
t
(
d
o
m
(
f
)
)
\mathrm{int}(\mathrm{dom}(f))
int(dom(f))上
L
f
L_f
Lf-光滑;
(iii) 问题的最优解集非空, 记为
X
∗
X^*
X∗; 最优值记为
F
o
p
t
F_{\mathrm{opt}}
Fopt.
在欧式空间下, PGM的更新格式可以写成 x k + 1 = arg min x ∈ E { f ( x k ) + ⟨ ∇ f ( x k ) , x − x k ⟩ + g ( x ) + L k 2 ∥ x − x k ∥ 2 } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+g(\mathbf{x})+\frac{L_k}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\}. xk+1=argx∈Emin{f(xk)+⟨∇f(xk),x−xk⟩+g(x)+2Lk∥x−xk∥2}.类似于MDM, 我们将欧式距离替换成Bregman距离, 就得到了 x k + 1 = arg min x ∈ E { f ( x k ) + ⟨ ∇ f ( x k ) , x − x k ⟩ + g ( x ) + L k B ω ( x , x k ) } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+g(\mathbf{x})+L_kB_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}, xk+1=argx∈Emin{f(xk)+⟨∇f(xk),x−xk⟩+g(x)+LkBω(x,xk)},其中 B ω B_{\omega} Bω是与 ω \omega ω相关联的Bregman距离(见第九章定义1). 我们假设 ω \omega ω满足以下性质:
假设条件6
(i)
ω
\omega
ω为正常闭凸函数;
(ii)
ω
\omega
ω在
d
o
m
(
∂
ω
)
\mathrm{dom}(\partial\omega)
dom(∂ω)上可微;
(iii)
d
o
m
(
g
)
⊂
d
o
m
(
ω
)
\mathrm{dom}(g)\subset\mathrm{dom}(\omega)
dom(g)⊂dom(ω);
(iv)
ω
+
δ
d
o
m
(
g
)
\omega+\delta_{\mathrm{dom}(g)}
ω+δdom(g)是
1
1
1-强凸函数.
此时非欧PGM如下:
首先根据第九章引理2, 令其中的
ψ
(
x
)
=
⟨
1
L
k
∇
f
(
x
k
)
−
∇
ω
(
x
k
)
,
x
⟩
+
1
L
k
g
(
x
)
\psi(\mathbf{x})=\left\langle\frac{1}{L_k}\nabla f(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\right\rangle+\frac{1}{L_k}g(\mathbf{x})
ψ(x)=⟨Lk1∇f(xk)−∇ω(xk),x⟩+Lk1g(x), 再由假设条件5、6, 即得非欧PGM总是良定义的, 即
x
k
∈
d
o
m
(
g
)
∩
d
o
m
(
∂
ω
)
\mathbf{x}^k\in\mathrm{dom}(g)\cap\mathrm{dom}(\partial\omega)
xk∈dom(g)∩dom(∂ω).
下面我们讨论两种步长准则. 为记号方便, 我们引入 V L ( x ˉ ) ≡ arg min x ∈ E { ⟨ 1 L ∇ f ( x ˉ ) − ∇ ω ( x ˉ ) , x ⟩ + 1 L g ( x ) + ω ( x ) } . V_L(\bar\mathbf{x})\equiv\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{\left\langle\frac{1}{L}\nabla f(\bar\mathbf{x})-\nabla\omega(\bar\mathbf{x}),\mathbf{x}\right\rangle+\frac{1}{L}g(\mathbf{x})+\omega(\mathbf{x})\right\}. VL(xˉ)≡argx∈Emin{⟨L1∇f(xˉ)−∇ω(xˉ),x⟩+L1g(x)+ω(x)}.
- 常值: L k ≡ L ˉ = L f , ∀ k L_k\equiv\bar L=L_f,\,\forall k Lk≡Lˉ=Lf,∀k;
- 回溯B5: 输入两个参数
(
s
,
η
)
:
s
>
0
,
η
>
1
(s,\eta):s>0,\,\eta>1
(s,η):s>0,η>1. 令
L
−
1
=
s
L_{-1}=s
L−1=s. 按如下流程选取
L
k
(
k
≥
0
)
L_k(k\ge0)
Lk(k≥0):
- L k : = L k − 1 L_k:=L_{k-1} Lk:=Lk−1;
- 若 f ( V L k ( x k ) ) > f ( x k ) + ⟨ ∇ f ( x k ) , V L k ( x k ) − x k ⟩ + L k 2 ∥ V L k ( x k ) − x k ∥ 2 , f(V_{L_k}(\mathbf{x}^k))>f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),V_{L_k}(\mathbf{x}^k)-\mathbf{x}^k\rangle+\frac{L_k}{2}\Vert V_{L_k}(\mathbf{x}^k)-\mathbf{x}^k\Vert^2, f(VLk(xk))>f(xk)+⟨∇f(xk),VLk(xk)−xk⟩+2Lk∥VLk(xk)−xk∥2,则令 L k : = η L k L_k:=\eta L_k Lk:=ηLk.
换句话说, 在回溯B5步长准则中, 步长具有形式 L k = L k − 1 η i k L_k=L_{k-1}\eta^{i_k} Lk=Lk−1ηik, 其中 i k i_k ik是使得 f ( V L k − 1 η i k ( x k ) ) ≤ f ( x k ) + ⟨ ∇ f ( x k , V L k − 1 η i k ( x k ) − x k ⟩ + L k 2 ∥ V L k − 1 η i k ( x k ) − x k ∥ 2 \begin{aligned}f(V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k))\le&f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k,V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k)-\mathbf{x}^k\rangle\\&+\frac{L_k}{2}\Vert V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k)-\mathbf{x}^k\Vert^2\end{aligned} f(VLk−1ηik(xk))≤f(xk)+⟨∇f(xk,VLk−1ηik(xk)−xk⟩+2Lk∥VLk−1ηik(xk)−xk∥2成立的最小非负整数.
注意到两种步长准则下, 都有充分下降条件成立: f ( x k + 1 ) ≤ f ( x k ) + ⟨ ∇ f ( x k ) , x k + 1 − x k ⟩ + L k 2 ∥ x k + 1 − x k ∥ 2 . f(\mathbf{x}^{k+1})\le f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}^{k+1}-\mathbf{x}^k\rangle+\frac{L_k}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2. f(xk+1)≤f(xk)+⟨∇f(xk),xk+1−xk⟩+2Lk∥xk+1−xk∥2.类似地, 我们可给出步长的上界 L k ≤ α L f L_k\le\alpha L_f Lk≤αLf, 其中 α = { 1 , 常 值 , max { η , s L f } , 回 溯 . \alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right. α={1,max{η,Lfs},常值,回溯.
定理22 (非欧PGM的
O
(
1
/
k
)
O(1/k)
O(1/k)收敛速度) 假定假设条件5、6成立. 设
{
x
k
}
k
≥
0
\{\mathbf{x}^k\}_{k\ge0}
{xk}k≥0为由基于常值
L
k
≡
L
f
,
∀
k
≥
0
L_k\equiv L_f,\,\forall k\ge0
Lk≡Lf,∀k≥0或回溯B5
(
s
,
η
)
:
s
>
0
,
η
>
1
(s,\eta):s>0,\eta>1
(s,η):s>0,η>1的非欧PGM生成的迭代序列. 则
(i) 函数值序列
{
F
(
x
k
)
}
k
≥
0
\{F(\mathbf{x}^k)\}_{k\ge0}
{F(xk)}k≥0单调递减;
(ii) 对
∀
k
≥
1
,
x
∗
∈
X
∗
\forall k\ge1,\,\mathbf{x}^*\in X^*
∀k≥1,x∗∈X∗,
F
(
x
k
)
−
F
o
p
t
≤
α
L
f
B
ω
(
x
∗
,
x
0
)
k
,
F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)}{k},
F(xk)−Fopt≤kαLfBω(x∗,x0),其中
α
=
{
1
,
常
值
,
max
{
η
,
s
L
f
}
,
回
溯
.
\alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right.
α={1,max{η,Lfs},常值,回溯.
证明: (i) 记 m ( x , y ) ≡ f ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ m(\mathbf{x,y})\equiv f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle m(x,y)≡f(y)+⟨∇f(y),x−y⟩. 则在两种步长准则下, 对 ∀ n ≥ 0 \forall n\ge0 ∀n≥0, 均有 f ( x n + 1 ) ≤ m ( x n + 1 , x n ) + L n 2 ∥ x n + 1 − x n ∥ 2 . f(\mathbf{x}^{n+1})\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+\frac{L_n}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2. f(xn+1)≤m(xn+1,xn)+2Ln∥xn+1−xn∥2.因此 F ( x n + 1 ) = f ( x n + 1 ) + g ( x n + 1 ) ≤ m ( x n + 1 , x n ) + g ( x n + 1 ) + L n 2 ∥ x n + 1 − x n ∥ 2 ≤ m ( x n + 1 , x n ) + g ( x n + 1 ) + L n B ω ( x n + 1 , x n ) , \begin{aligned}F(\mathbf{x}^{n+1})&=f(\mathbf{x}^{n+1})+g(\mathbf{x}^{n+1})\\&\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+\frac{L_n}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2\\&\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n),\end{aligned} F(xn+1)=f(xn+1)+g(xn+1)≤m(xn+1,xn)+g(xn+1)+2Ln∥xn+1−xn∥2≤m(xn+1,xn)+g(xn+1)+LnBω(xn+1,xn),其中最后一个不等号是因为 ω + δ d o m ( g ) \omega+\delta_{\mathrm{dom}(g)} ω+δdom(g)是 1 1 1-强凸函数. 又注意到 x n + 1 = arg min x ∈ E { m ( x , x n ) + g ( x ) + L n B ω ( x , x n ) } , \mathbf{x}^{n+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\}, xn+1=argx∈Emin{m(x,xn)+g(x)+LnBω(x,xn)},所以 m ( x n + 1 , x n ) + g ( x n + 1 + L n B ω ( x n + 1 , x n ) ≤ m ( x n , x n ) + g ( x n ) + L n B ω ( x n , x n ) = f ( x n ) + g ( x n ) = F ( x n ) . \begin{aligned}m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1}+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)&\le m(\mathbf{x}^n,\mathbf{x}^n)+g(\mathbf{x}^n)+L_nB_{\omega}(\mathbf{x}^n,\mathbf{x}^n)\\&= f(\mathbf{x}^n)+g(\mathbf{x}^n)\\&=F(\mathbf{x}^n).\end{aligned} m(xn+1,xn)+g(xn+1+LnBω(xn+1,xn)≤m(xn,xn)+g(xn)+LnBω(xn,xn)=f(xn)+g(xn)=F(xn).这就证明了 { F ( x k ) } k ≥ 0 \{F(\mathbf{x}^k)\}_{k\ge0} {F(xk)}k≥0是单调递减的.
(ii) 设 k ≥ 1 , x ∗ ∈ X ∗ k\ge1,\,\mathbf{x}^*\in X^* k≥1,x∗∈X∗. 再次由于 x n + 1 = arg min x ∈ E { m ( x , x n ) + g ( x ) + L n B ω ( x , x n ) } , \mathbf{x}^{n+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\}, xn+1=argx∈Emin{m(x,xn)+g(x)+LnBω(x,xn)},根据非欧第二临近定理(第九章定理2), 令其中 ψ ( x ) = m ( x , x n ) + g ( x ) L n , b = x n , a = x n + 1 \psi(\mathbf{x})=\frac{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})}{L_n},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{a}=\mathbf{x}^{n+1} ψ(x)=Lnm(x,xn)+g(x),b=xn,a=xn+1, 就有 ⟨ ∇ ω ( x n ) − ∇ ω ( x n + 1 ) , x − x n + 1 ⟩ ≤ m ( x , x n ) − m ( x n + 1 , x n ) + g ( x ) − g ( x n + 1 ) L n , \langle\nabla\omega(\mathbf{x}^n)-\nabla\omega(\mathbf{x}^{n+1}),\mathbf{x}-\mathbf{x}^{n+1}\rangle\le\frac{m(\mathbf{x},\mathbf{x}^n)-m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x})-g(\mathbf{x}^{n+1})}{L_n}, ⟨∇ω(xn)−∇ω(xn+1),x−xn+1⟩≤Lnm(x,xn)−m(xn+1,xn)+g(x)−g(xn+1),再由三点引理(第九章引理3), 令其中 a = x n + 1 , b = x n , c = x \mathbf{a}=\mathbf{x}^{n+1},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{c}=\mathbf{x} a=xn+1,b=xn,c=x, 就得到 B ω ( x , x n + 1 ) + B ω ( x n + 1 , x n ) − B ω ( x , x n ) ≤ m ( x , x n ) − m ( x n + 1 , x n ) + g ( x ) − g ( x n + 1 ) L n . B_{\omega}(\mathbf{x},\mathbf{x}^{n+1})+B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)-B_{\omega}(\mathbf{x},\mathbf{x}^n)\le\frac{m(\mathbf{x},\mathbf{x}^n)-m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x})-g(\mathbf{x}^{n+1})}{L_n}. Bω(x,xn+1)+Bω(xn+1,xn)−Bω(x,xn)≤Lnm(x,xn)−m(xn+1,xn)+g(x)−g(xn+1).移项整理后可得 F ( x n + 1 ) ≤ m ( x n + 1 , x n ) + g ( x n + 1 ) + L n B ω ( x n + 1 , x n ) ≤ m ( x , x n ) + g ( x ) + L n B ω ( x , x n ) − L n B ω ( x , x n + 1 ) . \begin{aligned}F(\mathbf{x}^{n+1})\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)\le& m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\\&-L_nB_{\omega}(\mathbf{x},\mathbf{x}^{n+1}).\end{aligned} F(xn+1)≤m(xn+1,xn)+g(xn+1)+LnBω(xn+1,xn)≤m(x,xn)+g(x)+LnBω(x,xn)−LnBω(x,xn+1).因为 f f f是凸函数, 所以 m ( x , x n ) ≤ f ( x ) m(\mathbf{x},\mathbf{x}^n)\le f(\mathbf{x}) m(x,xn)≤f(x), 因此 F ( x n + 1 ) − F ( x ) ≤ L n B ω ( x , x n ) − L n B ω ( x , x n + 1 ) . F(\mathbf{x}^{n+1})-F(\mathbf{x})\le L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)-L_nB_{\omega}(\mathbf{x},\mathbf{x}^{n+1}). F(xn+1)−F(x)≤LnBω(x,xn)−LnBω(x,xn+1).代入 x = x ∗ \mathbf{x}=\mathbf{x}^* x=x∗, 两边同除 L n L_n Ln并利用 L n ≤ α L f L_n\le\alpha L_f Ln≤αLf, 即有 F ( x n + 1 ) − F ( x n ) α L f ≤ F ( x n + 1 ) − F ( x n ) L n ≤ B ω ( x ∗ , x n ) − B ω ( x ∗ , x n + 1 ) , \frac{F(\mathbf{x}^{n+1})-F(\mathbf{x}^n)}{\alpha L_f}\le\frac{F(\mathbf{x}^{n+1})-F(\mathbf{x}^n)}{L_n}\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1}), αLfF(xn+1)−F(xn)≤LnF(xn+1)−F(xn)≤Bω(x∗,xn)−Bω(x∗,xn+1),从而推出 F ( x n + 1 ) − F o p t ≤ α L f B ω ( x ∗ , x n ) − α L f B ω ( x ∗ , x n + 1 ) . F(\mathbf{x}^{n+1})-F_{\mathrm{opt}}\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1}). F(xn+1)−Fopt≤αLfBω(x∗,xn)−αLfBω(x∗,xn+1).对指标 n = 0 , 1 , … , k − 1 n=0,1,\ldots,k-1 n=0,1,…,k−1求和上述不等式, 就有 ∑ n = 0 k − 1 ( F ( x n + 1 ) − F o p t ) ≤ α L f B ω ( x ∗ , x 0 ) − α L f B ω ( x ∗ , x k ) ≤ α L f B ω ( x ∗ , x 0 ) . \sum_{n=0}^{k-1}(F(\mathbf{x}^{n+1})-F_{\mathrm{opt}})\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^k)\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0). n=0∑k−1(F(xn+1)−Fopt)≤αLfBω(x∗,x0)−αLfBω(x∗,xk)≤αLfBω(x∗,x0).最后利用(i)中证得的函数值序列的单调性, 就有 k ( F ( x k ) − F o p t ) ≤ α L f B ω ( x ∗ , x 0 ) ⇒ F ( x k ) − F o p t ≤ α L f B ω ( x ∗ , x 0 ) k . k(F(\mathbf{x}^k)-F_{\mathrm{opt}})\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)\Rightarrow F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)}{k}. k(F(xk)−Fopt)≤αLfBω(x∗,x0)⇒F(xk)−Fopt≤kαLfBω(x∗,x0).
从FISTA的算法描述中, 我们可以看出FISTA每次迭代的计算量与PGM是差不多的. 但FISTA却有更好的收敛速度. ↩︎
注意这里是指固定逼近函数时, 参数的紧致性(tightness). ↩︎
这是因为对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n ∀x∈Rn, ∥ x ∥ 1 ≤ n ∥ x ∥ 2 \Vert\mathbf{x}\Vert_1\le\sqrt{n}\Vert\mathbf{x}\Vert_2 ∥x∥1≤n∥x∥2. ↩︎
注意到定理20中选取的光滑参数并不依赖于 Γ \Gamma Γ, 也即初始点; 而具体所需的迭代数确是依赖于 Γ \Gamma Γ的. 不过, μ \mu μ是依赖于求解精度 ϵ \epsilon ϵ的, 并且当 ϵ \epsilon ϵ越小, 也即要求的精度越高时, μ \mu μ越小, 从而 1 μ \frac{1}{\mu} μ1越大, 得到的 h μ h_{\mu} hμ就越光滑(这里的“越光滑”值光滑参数更大). ↩︎
注意, 这里的“一一对应”关系的基础是Riesz表示定理. 与下面的“原始对等元”是不同的. ↩︎
当取常值步长准则 L k ≡ L ˉ ≡ L f L_k\equiv\bar L\equiv L_f Lk≡Lˉ≡Lf时, 定理22变成 f ( x k ) − f o p t ≤ 2 R α 2 L f k . f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{2R_{\alpha}^2L_f}{k}. f(xk)−fopt≤k2Rα2Lf.这与PGM在凸情形下的收敛结论(定理5)具有相似的形式. ↩︎
注意此时 R f ( x 0 ) R_{f(\mathbf{x}^0)} Rf(x0)也是依赖于所选取的范数的. ↩︎