First Order Methods in Optimization Ch10. The Proximal Gradient Method (Part II)

第十章: 临近梯度法 (第二部分)

7. 快速临近梯度法——FISTA

7.1 算法

先前我们在定理5中证明了, PGM在假设条件1下的 O ( 1 / k ) O(1/k) O(1/k)函数值收敛速度. 本节我们介绍如何加速PGM, 以获得 O ( 1 / k 2 ) O(1/k^2) O(1/k2)的函数值收敛速度. 我们称这一算法为快速邻近梯度法(fast proximal gradient method), 也习惯称之为FISTA(fast iterative shrinkage-thresholding algorithm). 关于“FISTA”这一名称的由来, 可见下面的例3.

为了获得更好的收敛速度, 我们不仅要改变已有的算法, 还要对模型做额外的假设: 我们假设 f f f是全空间 E \mathbb{E} E上的凸 L f L_f Lf-光滑函数. 本节用到的假设条件可见下面的假设条件2.

假设条件2
(i) g : E → ( − ∞ , ∞ ] g:\mathbb{E}\to(-\infty,\infty] g:E(,]为正常闭凸函数;
(ii) f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为凸 L f L_f Lf-光滑函数;
(iii) 问题的最优解集非空, 记为 X ∗ X^* X; 最优值记为 F o p t F_{\mathrm{opt}} Fopt.

FISTA的算法描述如下1:

在这里插入图片描述
粗略地从FISTA的算法描述看, FISTA与原始的PGM的区别在于, FISTA使用了一种类似于“预估-校正”的格式: 先利用当前的 y k \mathbf{y}^k yk经一步prox-grad运算得到预估 x k + 1 \mathbf{x}^{k+1} xk+1; 之后计算自适应步长 t k + 1 t_{k+1} tk+1, 校正得到 y k + 1 \mathbf{y}^{k+1} yk+1. 其中的自适应步长起到了重要的作用.

同之前一样, 我们考虑两种选取 L k L_k Lk的方式: 常值、回溯. 这里我们考虑回溯B3准则, 而它实际上就是在 y k \mathbf{y}^k yk上的B2准则.

  • 常值: L k ≡ L f ,   ∀ k L_k\equiv L_f,\,\forall k LkLf,k;
  • 回溯(B3): 输入两个参数 ( s , η ) (s,\eta) (s,η), 其中 s > 0 ,   η > 1 s>0,\,\eta>1 s>0,η>1. 令 L − 1 : = s L_{-1}:=s L1:=s. 按如下流程选取 L k ( k ≥ 0 ) L_k(k\ge0) Lk(k0):
    1. L k : = L k − 1 L_k:=L_{k-1} Lk:=Lk1;
    2. f ( T L k ( y k ) ) > f ( y k ) + ⟨ ∇ f ( y k ) , T L k ( y k ) − y k ⟩ + L k 2 ∥ T L k ( y k ) − y k ∥ 2 , f(T_{L_k}(\mathbf{y}^k))>f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_k}{2}\Vert T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\Vert^2, f(TLk(yk))>f(yk)+f(yk),TLk(yk)yk+2LkTLk(yk)yk2, L k : = η L k L_k:=\eta L_k Lk:=ηLk.

换句话说, B2准则选取的 L k L_k Lk形如 L k = L k − 1 η i k L_k=L_{k-1}\eta^{i_k} Lk=Lk1ηik​, 其中 i k i_k ik​是使得下面不等式成立的最小非负整数: f ( T L k − 1 η i k ( y k ) ) ≤ f ( y k ) + ⟨ ∇ f ( y k ) , T L k − 1 η i k ( y k ) − y k ⟩ + L k − 1 η i k 2 ∥ T L k − 1 η i k ( y k ) − y k ∥ 2 . f(T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k))\le f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_{k-1}\eta^{i_k}}{2}\left\Vert T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k)-\mathbf{y}^k\right\Vert^2. f(TLk1ηik(yk))f(yk)+f(yk),TLk1ηik(yk)yk+2Lk1ηikTLk1ηik(yk)yk2.

类似于前面, 在两种步长准则下, 对 ∀ k ≥ 0 \forall k\ge0 k0, f ( T L k ( y k ) ) ≤ f ( y k ) + ⟨ ∇ f ( y k ) , T L k ( y k ) − y k ⟩ + L k 2 ∥ T L k ( y k ) − y k ∥ 2 . f(T_{L_k}(\mathbf{y}^k))\le f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_k}{2}\left\Vert T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\right\Vert^2. f(TLk(yk))f(yk)+f(yk),TLk(yk)yk+2LkTLk(yk)yk2.
同时也有 L k L_k Lk的上下界: β L f ≤ L k ≤ α L f \beta L_f\le L_k\le\alpha L_f βLfLkαLf, 其中 α , β \alpha,\beta α,β的定义同前.

下面的引理6给出了 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k0的性质. 这将会在证明改进的收敛速度起作用.

引理6 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k0为按如下递归格式定义的序列: t 0 = 1 ,   t k + 1 = 1 + 1 + 4 t k 2 2 , k ≥ 0. t_0=1,\,t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2},\quad k\ge0. t0=1,tk+1=21+1+4tk2 ,k0. t k ≥ k + 2 2 ,   ∀ k ≥ 0 t_k\ge\frac{k+2}{2},\,\forall k\ge0 tk2k+2,k0.

证明: 我们对下标 k k k用数学归纳证明. 当 k = 0 k=0 k=0时, 显然 t 0 = 1 ≥ 0 + 2 2 t_0=1\ge\frac{0+2}{2} t0=120+2. 现设结论对 k k k成立, 即 t k ≥ k + 2 2 t_k\ge\frac{k+2}{2} tk2k+2. 下面我们证明 t k + 1 ≥ k + 3 2 t_{k+1}\ge\frac{k+3}{2} tk+12k+3. 由递归公式与归纳假设, t k + 1 = 1 + 1 + 4 t k 2 2 ≥ 1 + 1 + ( k + 2 ) 2 2 ≥ 1 + ( k + 2 ) 2 2 = k + 3 2 . t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}\ge\frac{1+\sqrt{1+(k+2)^2}}{2}\ge\frac{1+\sqrt{(k+2)^2}}{2}=\frac{k+3}{2}. tk+1=21+1+4tk2 21+1+(k+2)2 21+(k+2)2 =2k+3.于是得证.

7.2 FISTA的收敛性质

定理14 (FISTA的 O ( 1 / k 2 ) O(1/k^2) O(1/k2)收敛速度) 假定假设条件2成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由基于常值 L k ≡ L f ,   ∀ k ≥ 0 L_k\equiv L_f,\,\forall k\ge0 LkLf,k0或回溯B3 ( s , η ) : s > 0 ,   η > 1 (s,\eta):s>0,\,\eta>1 (s,η):s>0,η>1步长准则的FISTA生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ ,   k ≥ 1 \forall\mathbf{x}^*\in X^*,\,k\ge1 xX,k1, F ( x k ) − F o p t ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 , F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}, F(xk)Fopt(k+1)22αLfx0x2,其中 α = { 1 , 常 值 , max ⁡ { η , s L f } , 回 溯 . \alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right. α={1,max{η,Lfs},,.

证明: 设 k ≥ 1 k\ge1 k1. 由于在两种步长准则下均有充分下降条件成立, 令prox-grad基本不等式中的 x = t k − 1 x ∗ + ( 1 − t k − 1 ) x k ,   y = y k ,   L = L k \mathbf{x}=t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k,\,L=L_k x=tk1x+(1tk1)xk,y=yk,L=Lk, 我们有 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( x k + 1 ) ≥ L k 2 ∥ x k + 1 − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 + ℓ f ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k , y k ) ≥ L k 2 ∥ x k + 1 − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2   ( f 是 凸 函 数 ) = L k 2 t k 2 ∥ t k x k + 1 − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 − L k 2 t k 2 ∥ t k y k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 . \begin{aligned}&F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\ge\frac{L_k}{2}\left\Vert\mathbf{x}^{k+1}-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2}\left\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\mathbf{y}^k)\\&\ge\frac{L_k}{2}\left\Vert\mathbf{x}^{k+1}-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2}\left\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2\,(f是凸函数)\\&=\frac{L_k}{2t_k^2}\left\Vert t_k\mathbf{x}^{k+1}-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2t_k^2}\left\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\right\Vert^2.\end{aligned} F(tk1x+(1tk1)xk)F(xk+1)2Lkxk+1(tk1x+(1tk1)xk)22Lkyk(tk1x+(1tk1)xk)2+f(tk1x+(1tk1)xk,yk)2Lkxk+1(tk1x+(1tk1)xk)22Lkyk(tk1x+(1tk1)xk)2(f)=2tk2Lktkxk+1(x+(tk1)xk)22tk2Lktkyk(x+(tk1)xk)2.由于 F F F是凸函数以及 t k ≥ 1 , ∀ k ≥ 0 t_k\ge1,\forall k\ge0 tk1,k0, 所以 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ≤ t k − 1 F ( x ∗ ) + ( 1 − t k − 1 ) F ( x k ) . F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\le t_k^{-1}F(\mathbf{x}^*)+(1-t_k^{-1})F(\mathbf{x}^k). F(tk1x+(1tk1)xk)tk1F(x)+(1tk1)F(xk). v n ≡ F ( x n ) − F o p t v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}} vnF(xn)Fopt. 则对 ∀ n ≥ 0 \forall n\ge0 n0, F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( x k + 1 ) ≤ ( 1 − t k − 1 ) ( F ( x k ) − F ( x ∗ ) ) − ( F ( x k + 1 ) − F ( x ∗ ) ) = ( 1 − t k − 1 ) v k − v k + 1 . \begin{aligned}F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})&\le(1-t_k^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))\\&=(1-t_k^{-1})v_k-v_{k+1}.\end{aligned} F(tk1x+(1tk1)xk)F(xk+1)(1tk1)(F(xk)F(x))(F(xk+1)F(x))=(1tk1)vkvk+1.另一边, 代入 y k = x k + ( t k − 1 − 1 t k ) ( x k − x k − 1 ) \mathbf{y}^k=\mathbf{x}^k+\left(\frac{t_{k-1}-1}{t_k}\right)(\mathbf{x}^k-\mathbf{x}^{k-1}) yk=xk+(tktk11)(xkxk1), ∥ t k y k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 = ∥ t k x k + ( t k − 1 − 1 ) ( x k − x k − 1 ) − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 = ∥ t k − 1 x k − ( x ∗ + ( t k − 1 − 1 ) x k − 1 ) ∥ 2 . \begin{aligned}\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2&=\Vert t_k\mathbf{x}^k+(t_{k-1}-1)(\mathbf{x}^k-\mathbf{x}^{k-1})-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2\\&=\Vert t_{k-1}\mathbf{x}^k-(\mathbf{x}^*+(t_{k-1}-1)\mathbf{x}^{k-1})\Vert^2.\end{aligned} tkyk(x+(tk1)xk)2=tkxk+(tk11)(xkxk1)(x+(tk1)xk)2=tk1xk(x+(tk11)xk1)2. u n = t n − 1 x n − ( x ∗ + ( t n − 1 − 1 ) x n − 1 ) ,   ∀ n ≥ 1 \mathbf{u}^n=t_{n-1}\mathbf{x}^n-(\mathbf{x}^*+(t_{n-1}-1)\mathbf{x}^{n-1}),\,\forall n\ge1 un=tn1xn(x+(tn11)xn1),n1. 则有 ( t k 2 − t k ) v k − t k 2 v k + 1 ≥ L k 2 ∥ u k + 1 ∥ 2 − L k 2 ∥ u k ∥ 2 . (t_k^2-t_k)v_k-t_k^2v_{k+1}\ge\frac{L_k}{2}\Vert\mathbf{u}^{k+1}\Vert^2-\frac{L_k}{2}\Vert\mathbf{u}^k\Vert^2. (tk2tk)vktk2vk+12Lkuk+122Lkuk2. t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2 可以推出 t k 2 − t k = t k − 1 2 t_k^2-t_k=t_{k-1}^2 tk2tk=tk12, 同时考虑到 L k ≥ L k − 1 L_k\ge L_{k-1} LkLk1, 所以 2 L k − 1 t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ 2 L k t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ ∥ u k + 1 ∥ 2 − ∥ u k ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\frac{2}{L_k}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\Vert\mathbf{u}^{k+1}\Vert^2-\Vert\mathbf{u}^k\Vert^2. Lk12tk12vkLk2tk2vk+1Lk2tk12vkLk2tk2vk+1uk+12uk2.于是移项可得 ∥ u k + 1 ∥ 2 + 2 L k t k 2 v k + 1 ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k , \Vert\mathbf{u}^{k+1}\Vert^2+\frac{2}{L_k}t_k^2v_{k+1}\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k, uk+12+Lk2tk2vk+1uk2+Lk12tk12vk,继续递推可得对 ∀ k ≥ 1 \forall k\ge1 k1, ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ u 1 ∥ 2 + 2 L 0 t 0 2 v 1 = ∥ x 1 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) . \Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^1\Vert^2+\frac{2}{L_0}t_0^2v_1=\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}}). uk2+Lk12tk12vku12+L02t02v1=x1x2+L02(F(x1)Fopt).继续在prox-grad基本不等式中令 x = x ∗ ,   y = y 0 ,   L = L 0 \mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{y}^0,\,L=L_0 x=x,y=y0,L=L0, 则 2 L 0 ( F ( x ∗ ) − F ( x 1 ) ) ≥ ∥ x 1 − x ∗ ∥ 2 − ∥ y 0 − x ∗ ∥ 2 + ℓ f ( x ∗ , y 0 ) ≥ ∥ x 1 − x ∗ ∥ 2 − ∥ y 0 − x ∗ ∥ 2 . \frac{2}{L_0}(F(\mathbf{x}^*)-F(\mathbf{x}^1))\ge\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2+\ell_f(\mathbf{x}^*,\mathbf{y}^0)\ge\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2. L02(F(x)F(x1))x1x2y0x2+f(x,y0)x1x2y0x2. y 0 = x 0 \mathbf{y}^0=\mathbf{x}^0 y0=x0, 所以 ∥ x 1 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) ≤ ∥ x 0 − x ∗ ∥ 2 . \Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}})\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. x1x2+L02(F(x1)Fopt)x0x2.代入之前的不等式即有 2 L k − 1 t k − 1 2 v k ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ x 0 − x ∗ ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. Lk12tk12vkuk2+Lk12tk12vkx0x2. v k v_k vk的定义, L k 1 ≤ α L f L_{k_1}\le\alpha L_f Lk1αLf与引理6, 最终得到 F ( x k ) − F o p t ≤ L k − 1 ∥ x 0 − x ∗ ∥ 2 2 t k − 1 2 ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 . F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{L_{k-1}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{2t_{k-1}^2}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}. F(xk)Fopt2tk12Lk1x0x2(k+1)22αLfx0x2.

由定理14的证明我们发现, 对于自适应步长序列 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k0, 我们真正用到的性质只有

  • t k ≥ k + 2 2 t_k\ge\frac{k+2}{2} tk2k+2;
  • t k 2 − t k ≤ t k − 1 2 t_k^2-t_k\le t_{k-1}^2 tk2tktk12.

因此满足这两个性质的步长均可以得到FISTA的 O ( 1 / k 2 ) O(1/k^2) O(1/k2)收敛速度. 例如 t k = k + 2 2 t_k=\frac{k+2}{2} tk=2k+2.

7.3 FISTA应用实例

例3 考虑以下问题 min ⁡ x ∈ R n f ( x ) + λ ∥ x ∥ 1 , \min_{\mathbf{x}\in\mathbb{R}^n}f(\mathbf{x})+\lambda\Vert\mathbf{x}\Vert_1, xRnminf(x)+λx1,其中 λ > 0 ,   f : R n → R \lambda>0,\,f:\mathbb{R}^n\to\mathbb{R} λ>0,f:RnR为凸 L f L_f Lf-光滑函数. 我们在例2中考虑过这个问题. 当时我们用PGM处理, 得到ISTA算法. 其更新格式(取步长为 1 L f \frac{1}{L_f} Lf1)为 x k + 1 = T λ L f ( x k − 1 L f ∇ f ( x k ) ) . \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_f}}\left(\mathbf{x}^k-\frac{1}{L_f}\nabla f(\mathbf{x}^k)\right). xk+1=TLfλ(xkLf1f(xk)).而若使用FISTA, 则更新格式分为以下3步:

  1. x k + 1 = T λ L f ( y k − 1 L f ∇ f ( y k ) ) \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_f}}\left(\mathbf{y}^k-\frac{1}{L_f}\nabla f(\mathbf{y}^k)\right) xk+1=TLfλ(ykLf1f(yk));
  2. t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2 ;
  3. y k + 1 = x k + 1 + ( t k − 1 t k + 1 ) ( x k + 1 − x k ) \mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k) yk+1=xk+1+(tk+1tk1)(xk+1xk).

事实上, 对于这一问题的快速临近梯度法才能称得上是FISTA. 这是因为它实质是上ISTA的加速版本. 不过本书中, 我们仍将FISTA指代为处理一般非光滑 g g g的快速临近梯度法.

例4 ( ℓ 1 \ell_1 1-正则最小二乘) 考虑例3的特殊情形: min ⁡ x ∈ R n 1 2 ∥ A x − b ∥ 2 2 + λ ∥ x ∥ 1 , \min_{\mathbf{x}\in\mathbb{R}^n}\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2+\lambda\Vert\mathbf{x}\Vert_1, xRnmin21Axb22+λx1,其中 A ∈ R m × n ,   b ∈ R m ,   λ > 0 \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\lambda>0 ARm×n,bRm,λ>0. 易知函数 f ( x ) = 1 2 ∥ A x − b ∥ 2 2 f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2 f(x)=21Axb22是凸 L f L_f Lf-光滑函数, 其中 L f = ∥ A T A ∥ 2 , 2 = λ max ⁡ ( A T A ) L_f=\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}=\lambda_{\max}(\mathbf{A}^T\mathbf{A}) Lf=ATA2,2=λmax(ATA). 对此问题, FISTA的更新格式分为以下3步:

  1. x k + 1 = T λ L k ( y k − 1 L k A T ( A y k − b ) ) \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_k}}\left(\mathbf{y}^k-\frac{1}{L_k}\mathbf{A}^T(\mathbf{A}\mathbf{y}^k-\mathbf{b})\right) xk+1=TLkλ(ykLk1AT(Aykb));
  2. t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2 ;
  3. y k + 1 = x k + 1 + ( t k − 1 t k + 1 ) ( x k + 1 − x k ) \mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k) yk+1=xk+1+(tk+1tk1)(xk+1xk).

ISTA的更新格式只有1步: x k + 1 = T λ L k ( x k − 1 L k A T ( A x k − b ) ) . \mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_k}}\left(\mathbf{x}^k-\frac{1}{L_k}\mathbf{A}^T(\mathbf{Ax}^k-\mathbf{b})\right). xk+1=TLkλ(xkLk1AT(Axkb)).两种方法的步长均可以选取为 L k ≡ λ max ⁡ ( A T A ) L_k\equiv\lambda_{\max}(\mathbf{A}^T\mathbf{A}) Lkλmax(ATA).

为更清楚地说明FISTA与ISTA处理问题效果的差别, 我们按标准正态分布独立随机生成了 A ∈ R 100 × 110 \mathbf{A}\in\mathbb{R}^{100\times110} AR100×110的分量. 令 λ = 1 \lambda=1 λ=1. 我们设问题的真实解为 x true = e 3 − e 7 \mathbf{x}_{\text{true}}=\mathbf{e}_3-\mathbf{e}_7 xtrue=e3e7, 从而 b = A x true \mathbf{b}=\mathbf{A}\mathbf{x}_{\text{true}} b=Axtrue. 从初始点 x = e \mathbf{x}=\mathbf{e} x=e出发, 运行ISTA与FISTA迭代200步.

我们同时也关注解的稀疏性. ℓ 1 \ell_1 1-正则已被广泛应用, 其中一个原因便是它可以促使算法输出较为稀疏的解2.

我们画出 { F ( x k ) − F o p t ) } k ≥ 0 \{F(\mathbf{x}^k)-F_{\mathrm{opt}})\}_{k\ge0} {F(xk)Fopt)}k0以及迭代200次后输出的解.

在这里插入图片描述在这里插入图片描述
不论从函数值收敛的速度, 还是输出解的稀疏性, FISTA在此问题上都要明显优于ISTA.

7.4 MFISTA

FISTA产生的函数值序列并不是单调下降的. 不过, 我们也可以修改原本的FISTA得到它的一种单调变体——MFISTA. 我们同时也希望MFISTA能到达与FISTA同样的收敛速度. 这便是本小节要说明的内容.

在这里插入图片描述
从上述算法描述即可知, 产生的函数值序列 { F ( x k } k ≥ 0 \{F(\mathbf{x}^k\}_{k\ge0} {F(xk}k0是单调下降的. 同时, 为了满足©中的条件, 一种很自然的选择就是 x k + 1 ∈ arg ⁡ min ⁡ { F ( x ) : x = x k , z k } \mathbf{x}^{k+1}\in\arg\min\{F(\mathbf{x}):\mathbf{x}=\mathbf{x}^k,\mathbf{z}^k\} xk+1argmin{F(x):x=xk,zk}. 而在证明MFISTA的收敛速度时, 我们仅要用到 F ( x k + 1 ) ≤ F ( z k ) F(\mathbf{x}^{k+1})\le F(\mathbf{z}^k) F(xk+1)F(zk).

MFISTA收敛速度的证明与FISTA的是类似的.

定理15 (MFISTA的 O ( 1 / k 2 ) O(1/k^2) O(1/k2)收敛速度) 假定假设条件2成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由基于常值 L k ≡ L f ,   ∀ k ≥ 0 L_k\equiv L_f,\,\forall k\ge0 LkLf,k0或回溯B3 ( s , η ) : s > 0 , η > 1 (s,\eta):s>0,\eta>1 (s,η):s>0,η>1步长准则的MFISTA生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ ,   k ≥ 1 \forall\mathbf{x}^*\in X^*,\,k\ge1 xX,k1, F ( x k ) − F o p t ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 , F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}, F(xk)Fopt(k+1)22αLfx0x2,其中 α = { 1 , 常 值 , max ⁡ { η , s L f } , 回 溯 . \alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right. α={1,max{η,Lfs},,.

证明: 设 k ≥ 1 k\ge1 k1. 由于在两种步长准则都满足充分下降条件, 在prox-grad基本不等式中令 x = t k − 1 x ∗ + ( 1 − t k − 1 ) x k ,   y = y k ,   L = L k \mathbf{x}=t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k,\,L=L_k x=tk1x+(1tk1)xk,y=yk,L=Lk, 我们有 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( z k ) ≥ L k 2 ∥ z k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 + ℓ f ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k , y k ) ≥ L k 2 ∥ z k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 − L k 2 ∥ y k − ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ∥ 2 + ℓ f ( t k − 1 x ∗   ( f 是 凸 函 数 ) = L k 2 t k 2 ∥ t k z k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 − L k 2 t k 2 ∥ t k y k − ( x ∗ + ( t k − 1 ) x k ) ∥ 2 . \begin{aligned}&F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{z}^k)\\&\ge\frac{L_k}{2}\Vert\mathbf{z}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2-\frac{L_k}{2}\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\mathbf{y}^k)\\&\ge\frac{L_k}{2}\Vert\mathbf{z}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2-\frac{L_k}{2}\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*\,(f是凸函数)\\&=\frac{L_k}{2t_k^2}\Vert t_k\mathbf{z}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2-\frac{L_k}{2t_k^2}\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2.\end{aligned} F(tk1x+(1tk1)xk)F(zk)2Lkzk(tk1x+(1tk1)xk)22Lkyk(tk1x+(1tk1)xk)2+f(tk1x+(1tk1)xk,yk)2Lkzk(tk1x+(1tk1)xk)22Lkyk(tk1x+(1tk1)xk)2+f(tk1x(f)=2tk2Lktkzk(x+(tk1)xk)22tk2Lktkyk(x+(tk1)xk)2. F F F是凸函数, t k ≥ 1 t_k\ge1 tk1, 我们有 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) ≤ t k − 1 F ( x ∗ ) + ( 1 − t k − 1 ) F ( x k ) . F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\le t_k^{-1}F(\mathbf{x}^*)+(1-t_k^{-1})F(\mathbf{x}^k). F(tk1x+(1tk1)xk)tk1F(x)+(1tk1)F(xk). v n ≡ F ( x n ) − F o p t ,   ∀ n ≥ 0 v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}},\,\forall n\ge0 vnF(xn)Fopt,n0. 由于 F ( x k + 1 ) ≤ F ( z k ) F(\mathbf{x}^{k+1})\le F(\mathbf{z}^k) F(xk+1)F(zk), 所以 F ( t k − 1 x ∗ + ( 1 − t k − 1 ) x k ) − F ( z k ) ≤ ( 1 − t k − 1 ) ( F ( x k ) − F ( x ∗ ) ) − ( F ( x k + 1 ) − F ( x ∗ ) ) = ( 1 − t k − 1 ) v k − v k + 1 . \begin{aligned}F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{z}^k)&\le(1-t_k^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))\\&=(1-t_k^{-1})v_k-v_{k+1}.\end{aligned} F(tk1x+(1tk1)xk)F(zk)(1tk1)(F(xk)F(x))(F(xk+1)F(x))=(1tk1)vkvk+1.另一边, 由于 y k = x k + t k − 1 t k ( z k − 1 − x k ) + ( t k − 1 − 1 t k ) ( x k − x k − 1 ) \mathbf{y}^k=\mathbf{x}^k+\frac{t_{k-1}}{t_k}(\mathbf{z}^{k-1}-\mathbf{x}^k)+\left(\frac{t_{k-1}-1}{t_k}\right)(\mathbf{x}^k-\mathbf{x}^{k-1}) yk=xk+tktk1(zk1xk)+(tktk11)(xkxk1), 所以 t k y k − ( x ∗ + ( t k − 1 ) x k ) = t k − 1 z k − 1 − ( x ∗ + ( t k − 1 − 1 ) x k − 1 ) . t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)=t_{k-1}\mathbf{z}^{k-1}-(\mathbf{x}^*+(t_{k-1}-1)\mathbf{x}^{k-1}). tkyk(x+(tk1)xk)=tk1zk1(x+(tk11)xk1). u n = t n − 1 z n − 1 − ( x ∗ + ( t n − 1 − 1 ) x n − 1 ) ,   ∀ n ≥ 1 \mathbf{u}^{n}=t_{n-1}\mathbf{z}^{n-1}-(\mathbf{x}^*+(t_{n-1}-1)\mathbf{x}^{n-1}),\,\forall n\ge1 un=tn1zn1(x+(tn11)xn1),n1. 合起来就有 ( t k 2 − t k ) v k − t k 2 v k + 1 ≥ L k 2 ∥ u k + 1 ∥ 2 − L k 2 ∥ u k ∥ 2 . (t_k^2-t_k)v_k-t_k^2v_{k+1}\ge\frac{L_k}{2}\Vert\mathbf{u}^{k+1}\Vert^2-\frac{L_k}{2}\Vert\mathbf{u}^k\Vert^2. (tk2tk)vktk2vk+12Lkuk+122Lkuk2.由于 t k 2 − t k = t k − 1 2 t_k^2-t_k=t_{k-1}^2 tk2tk=tk12以及 L k ≥ L k − 1 L_k\ge L_{k-1} LkLk1, 因此 2 L k − 1 t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ 2 L k t k − 1 2 v k − 2 L k t k 2 v k + 1 ≥ ∥ u k + 1 ∥ 2 − ∥ u k ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\frac{2}{L_k}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\Vert\mathbf{u}^{k+1}\Vert^2-\Vert\mathbf{u}^k\Vert^2. Lk12tk12vkLk2tk2vk+1Lk2tk12vkLk2tk2vk+1uk+12uk2.整理后可得 ∥ u k + 1 ∥ 2 + 2 L k t k 2 v k + 1 ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k , \Vert\mathbf{u}^{k+1}\Vert^2+\frac{2}{L_k}t_k^2v_{k+1}\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k, uk+12+Lk2tk2vk+1uk2+Lk12tk12vk,对指标 k k k递推可得, 对 ∀ k ≥ 1 \forall k\ge1 k1, ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ u 1 ∥ 2 + 2 L 0 t 0 2 v 1 = ∥ z 0 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) . \Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^1\Vert^2+\frac{2}{L_0}t_0^2v_1=\Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}}). uk2+Lk12tk12vku12+L02t02v1=z0x2+L02(F(x1)Fopt).再在prox-grad基本不等式中令 x = x ∗ ,   y = y 0 ,   L = L 0 \mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{y}^0,\,L=L_0 x=x,y=y0,L=L0并利用 f f f的凸性, 即得 2 L 0 ( F ( x ∗ ) − F ( z 0 ) ) ≥ ∥ z 0 − x ∗ ∥ 2 − ∥ y 0 − x ∗ ∥ 2 , \frac{2}{L_0}(F(\mathbf{x}^*)-F(\mathbf{z}^0))\ge\Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2, L02(F(x)F(z0))z0x2y0x2,因为 y 0 = x 0 ,   F ( x 1 ) ≤ F ( z 0 ) \mathbf{y}^0=\mathbf{x}^0,\,F(\mathbf{x}^1)\le F(\mathbf{z}^0) y0=x0,F(x1)F(z0), 所以 ∥ z 0 − x ∗ ∥ 2 + 2 L 0 ( F ( x 1 ) − F o p t ) ≤ ∥ x 0 − x ∗ ∥ 2 . \Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}})\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. z0x2+L02(F(x1)Fopt)x0x2.代入可得 2 L k − 1 t k − 1 2 v k ≤ ∥ u k ∥ 2 + 2 L k − 1 t k − 1 2 v k ≤ ∥ x 0 − x ∗ ∥ 2 . \frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2. Lk12tk12vkuk2+Lk12tk12vkx0x2.移项并利用 L k − 1 ≤ α L f L_{k-1}\le\alpha L_f Lk1αLf, v k v_k vk的定义以及引理6, 即有 F ( x k ) − F o p t ≤ L k − 1 ∥ x 0 − x ∗ ∥ 2 2 t k − 1 2 ≤ 2 α L f ∥ x 0 − x ∗ ∥ 2 ( k + 1 ) 2 . F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{L_{k-1}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{2t_{k-1}^2}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}. F(xk)Fopt2tk12Lk1x0x2(k+1)22αLfx0x2.

注意这个结果与FISTA的是一样的.

7.5 加权FISTA

我们在本章中默认空间是欧式空间, 但这并不意味着空间内积必定是点积. 现假定 E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 内积为 Q \mathbf{Q} Q-内积: ⟨ x , y ⟩ = x T Q y \langle\mathbf{x,y}\rangle=\mathbf{x}^T\mathbf{Qy} x,y=xTQy, 其中 Q ∈ S + + n \mathbf{Q}\in\mathbb{S}_{++}^n QS++n. 此时由第三章第3.3节的注4可得 ∇ f ( x ) = Q − 1 D f ( x ) , \nabla f(\mathbf{x})=\mathbf{Q}^{-1}D_f(\mathbf{x}), f(x)=Q1Df(x),其中 D f ( x ) = ( ∂ f ∂ x 1 ( x ) ∂ f ∂ x 2 ( x ) ⋮ ∂ f ∂ x n ( x ) ) . D_f(\mathbf{x})=\begin{pmatrix}\frac{\partial f}{\partial x_1}(\mathbf{x})\\\frac{\partial f}{\partial x_2}(\mathbf{x})\\\vdots\\\frac{\partial f}{\partial x_n}(\mathbf{x})\end{pmatrix}. Df(x)=x1f(x)x2f(x)xnf(x).我们假设 f f f Q \mathbf{Q} Q-范数是 L f Q L_f^{\mathbf{Q}} LfQ-光滑的, 即 ∥ Q − 1 D f ( x ) − Q − 1 D f ( y ) ∥ Q ≤ L f Q ∥ x − y ∥ Q , ∀ x , y ∈ R n . \Vert\mathbf{Q}^{-1}D_f(\mathbf{x})-\mathbf{Q}^{-1}D_f(\mathbf{y})\Vert_{\mathbf{Q}}\le L_f^{\mathbf{Q}}\Vert\mathbf{x-y}\Vert_{\mathbf{Q}},\quad\forall\mathbf{x,y}\in\mathbb{R}^n. Q1Df(x)Q1Df(y)QLfQxyQ,x,yRn.于是此时的FISTA更新格式变为以下3步:

  1. x k + 1 = p r o x 1 L f Q g ( y k − 1 L f Q Q − 1 D f ( y k ) ) \mathbf{x}^{k+1}=\mathrm{prox}_{\frac{1}{L_f^{\mathbf{Q}}g}}\left(\mathbf{y}^k-\frac{1}{L_f^{\mathbf{Q}}}\mathbf{Q}^{-1}D_f(\mathbf{y}^k)\right) xk+1=proxLfQg1(ykLfQ1Q1Df(yk));
  2. t k + 1 = 1 + 1 + 4 t k 2 2 t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2} tk+1=21+1+4tk2 ;
  3. y k + 1 = x k + 1 + ( t k − 1 t k + 1 ) ( x k + 1 − x k ) \mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k) yk+1=xk+1+(tk+1tk1)(xk+1xk).

注意其中第1步的临近算子中的临近项要以 Q \mathbf{Q} Q-范数计算: p r o x h ( x ) = arg ⁡ min ⁡ u ∈ R n { h ( u ) + 1 2 ∥ u − x ∥ Q 2 } . \mathrm{prox}_h(\mathbf{x})=\arg\min_{\mathbf{u}\in\mathbb{R}^n}\left\{h(\mathbf{u})+\frac{1}{2}\Vert\mathbf{u-x}\Vert_{\mathbf{Q}}^2\right\}. proxh(x)=arguRnmin{h(u)+21uxQ2}.定理14的收敛结论就变成 F ( x k ) − F o p t ≤ 2 L f Q ∥ x 0 − x ∗ ∥ Q 2 ( k + 1 ) 2 . F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2L_f^{\mathbf{Q}}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert_{\mathbf{Q}}^2}{(k+1)^2}. F(xk)Fopt(k+1)22LfQx0xQ2.

7.6 强凸情形下的重启FISTA

我们现在再来考虑FISTA在 f f f σ \sigma σ-强凸函数时的应用. 由定理12, PGM在强凸情形下的收敛速度由原来的 O ( 1 / k ) O(1/k) O(1/k)改进到线性收敛速度. 因此我们自然要问FISTA在强凸的情形下能获得多大的改进. 我们将会给出两种讨论的路线. 它们均能将收敛速度改进为线性的.

首先, 我们来看最有意思的一条路线: 重启FISTA.

在这里插入图片描述
重启FISTA本质上包含内外迭代: 每个外迭代包含 N N N个FISTA内迭代. 为避免混淆, 我们称外迭代为循环(cycle). 下面的定理16给出了重启FISTA的复杂度分析.

定理16 (重启FISTA的 O ( κ log ⁡ ( 1 ϵ ) ) O\left(\sqrt{\kappa}\log\left(\frac{1}{\epsilon}\right)\right) O(κ log(ϵ1))复杂度) 假定假设条件2成立, 且 f f f σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0). 设 { z k } k ≥ 0 \{\mathbf{z}^k\}_{k\ge0} {zk}k0为由 N = ⌈ 8 κ − 1 ⌉ N=\lceil\sqrt{8\kappa}-1\rceil N=8κ 1的重启FISTA产生的外迭代序列, 其中 κ = L f σ \kappa=\frac{L_f}{\sigma} κ=σLf. 设 R R R ∥ z − 1 − x ∗ ∥ \Vert\mathbf{z}^{-1}-\mathbf{x}^*\Vert z1x的一个上界, 其中 x ∗ \mathbf{x}^* x为问题的唯一最优解. 则
(i) 对 ∀ k ≥ 0 \forall k\ge0 k0, F ( z k ) − F o p t ≤ L f R 2 2 ( 1 2 ) k ; F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^k; F(zk)Fopt2LfR2(21)k;(ii) 若 k k k满足 k ≥ 8 κ ( log ⁡ ( 1 ϵ ) log ⁡ ( 2 ) + log ⁡ ( L f R 2 ) log ⁡ ( 2 ) ) , k\ge\sqrt{8\kappa}\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right), k8κ (log(2)log(ϵ1)+log(2)log(LfR2)),则经 k k k次FISTA迭代后, 有 F ( z ⌊ k N ⌋ ) − F o p t ≤ ϵ . F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\epsilon. F(zNk)Foptϵ.

证明: (i) 由定理14, 对 ∀ n ≥ 0 \forall n\ge0 n0, F ( z n + 1 ) − F o p t ≤ 2 L f ∥ z n − x ∗ ∥ 2 ( N + 1 ) 2 . F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{2L_f\Vert\mathbf{z}^n-\mathbf{x}^*\Vert^2}{(N+1)^2}. F(zn+1)Fopt(N+1)22Lfznx2. f f f σ \sigma σ-强凸函数, 由强凸函数在极小点附近的增长性质(第五章定理7(ii)), F ( z n ) − F o p t ≥ σ 2 ∥ z n − x ∗ ∥ 2 , F(\mathbf{z}^n)-F_{\mathrm{opt}}\ge\frac{\sigma}{2}\Vert\mathbf{z}^n-\mathbf{x}^*\Vert^2, F(zn)Fopt2σznx2,合起来便有 F ( z n + 1 ) − F o p t ≤ 4 κ ( F ( z n ) − F o p t ) ( N + 1 ) 2 . F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{4\kappa(F(\mathbf{z}^n)-F_{\mathrm{opt}})}{(N+1)^2}. F(zn+1)Fopt(N+1)24κ(F(zn)Fopt).因为 n ≥ 8 κ − 1 n\ge\sqrt{8\kappa}-1 n8κ 1, 所以 4 κ ( N + 1 ) 2 ≤ 1 2 \frac{4\kappa}{(N+1)^2}\le\frac{1}{2} (N+1)24κ21, F ( z n + 1 ) − F o p t ≤ 1 2 ( F ( z n ) − F o p t ) F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{1}{2}(F(\mathbf{z}^n)-F_{\mathrm{opt}}) F(zn+1)Fopt21(F(zn)Fopt). 对指标 n n n递推即可得 F ( z k ) − F o p t ≤ ( 1 2 ) k ( F ( z 0 ) − F o p t ) . F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\left(\frac{1}{2}\right)^k(F(\mathbf{z}^0)-F_{\mathrm{opt}}). F(zk)Fopt(21)k(F(z0)Fopt).注意到 z 0 = T L f ( z − 1 ) \mathbf{z}^0=T_{L_f}(\mathbf{z}^{-1}) z0=TLf(z1). 在prox-grad基本不等式中令 x = x ∗ ,   y = z − 1 ,   L = L f \mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{z}^{-1},\,L=L_f x=x,y=z1,L=Lf, 并考虑到 f f f是凸函数, 就有 F ( x ∗ ) − F ( z 0 ) ≥ L f 2 ∥ x ∗ − z 0 ∥ 2 − L f 2 ∥ x ∗ − z − 1 ∥ 2 , F(\mathbf{x}^*)-F(\mathbf{z}^0)\ge\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^0\Vert^2-\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^{-1}\Vert^2, F(x)F(z0)2Lfxz022Lfxz12,因此 F ( z 0 ) − F o p t ≤ L f 2 ∥ x ∗ − z − 1 ∥ 2 ≤ L f R 2 2 . F(\mathbf{z}^0)-F_{\mathrm{opt}}\le\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^{-1}\Vert^2\le\frac{L_fR^2}{2}. F(z0)Fopt2Lfxz122LfR2.于是 F ( z k ) − F o p t ≤ L f R 2 2 ( 1 2 ) k . F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^k. F(zk)Fopt2LfR2(21)k.

(ii) 在FISTA迭代 k k k步后, 共经历 ⌊ k N ⌋ \lfloor\frac{k}{N}\rfloor Nk次循环. 由(i), F ( z ⌊ k N ⌋ ) − F o p t ≤ L f R 2 2 ( 1 2 ) ⌊ k N ⌋ ≤ L f R 2 ( 1 2 ) k N . F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^{\lfloor\frac{k}{N}\rfloor}\le L_fR^2\left(\frac{1}{2}\right)^{\frac{k}{N}}. F(zNk)Fopt2LfR2(21)NkLfR2(21)Nk.为使 F ( z ⌊ k N ⌋ ) − F o p t ≤ ϵ F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\epsilon F(zNk)Foptϵ, 只需 L f R 2 ( 1 2 ) k N ≤ ϵ ⇒ k ≥ N ( log ⁡ ( 1 ϵ ) log ⁡ ( 2 ) + log ⁡ ( L f R 2 ) log ⁡ ( 2 ) ) . L_fR^2\left(\frac{1}{2}\right)^{\frac{k}{N}}\le\epsilon\Rightarrow k\ge N\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right). LfR2(21)NkϵkN(log(2)log(ϵ1)+log(2)log(LfR2)).再因 N = ⌈ 8 κ − 1 ⌉ ≤ 8 κ N=\lceil\sqrt{8\kappa}-1\rceil\le\sqrt{8\kappa} N=8κ 18κ , 即得证.

从定理16的证明我们可看出:

  • N N N的选择不是唯一的. 只需满足 4 κ ( N + 1 ) 2 ≤ 1 ⇒ N ≥ 4 κ − 1. \frac{4\kappa}{(N+1)^2}\le1\Rightarrow N\ge\sqrt{4\kappa}-1. (N+1)24κ1N4κ 1.
  • 我们实际上只需要对 N N N设置下界. 定理16中对 N N N的上界用在(ii)的一个统一迭代次数估计上. 而若从 k ≥ N ( log ⁡ ( 1 ϵ ) log ⁡ ( 2 ) + log ⁡ ( L f R 2 ) log ⁡ ( 2 ) ) k\ge N\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right) kN(log(2)log(ϵ1)+log(2)log(LfR2))看, 我们也能知道一些额外的信息: 需要做 ⌈ log ⁡ ( 1 ϵ ) log ⁡ ( 2 ) + log ⁡ ( L f R 2 ) log ⁡ ( 2 ) ⌉ \left\lceil\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right\rceil log(2)log(ϵ1)+log(2)log(LfR2)次循环.

7.7 强凸情形下的V-FISTA

本小节中我们将介绍FISTA的一个变体, V-FISTA. 相比于原来的FISTA, V-FISTA仅仅改动了校正步中的自适应步长. 我们会证明在 f f f是强凸函数时, V-FISTA可达到与重启FISTA同样的线性收敛速度.

在这里插入图片描述
V-FISTA的收敛速度证明类似于非强凸情形下FISTA的收敛速度证明.

定理17 (V-FISTA的 O ( ( 1 − 1 / κ ) k O((1-1/\sqrt{\kappa})^k O((11/κ )k收敛速度) 假定假设条件2成立, 且 f f f σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0). 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由V-FISTA生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ ,   k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 xX,k0, F ( x k ) − F o p t ≤ ( 1 − 1 κ ) k ( F ( x 0 ) − F o p t + σ 2 ∥ x 0 − x ∗ ∥ 2 ) , F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\left(1-\frac{1}{\sqrt{\kappa}}\right)^k\left(F(\mathbf{x}^0)-F_{\mathrm{opt}}+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right), F(xk)Fopt(1κ 1)k(F(x0)Fopt+2σx0x2),其中 κ = L f σ > 1 \kappa=\frac{L_f}{\sigma}>1 κ=σLf>1.

证明: 由于充分下降条件对常值步长 L f L_f Lf成立, 因此对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, 我们有prox-grad基本不等式 F ( x ) − F ( T L f ( y ) ) ≥ L f 2 ∥ x − T L f ( y ) ∥ 2 − L f 2 ∥ x − y ∥ 2 + f ( x ) − f ( y ) − ⟨ ∇ f ( y ) , x − y ⟩ ≥ L f 2 ∥ x − T L f ( y ) ∥ 2 − L f 2 ∥ x − y ∥ 2 + σ 2 ∥ x − y ∥ 2   ( f 是 σ − 强 凸 函 数 ) . \begin{aligned}F(\mathbf{x})-F(T_{L_f}(\mathbf{y}))&\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f}{2}\Vert\mathbf{x-y}\Vert^2+f(\mathbf{x})-f(\mathbf{y})-\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\\&\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f}{2}\Vert\mathbf{x-y}\Vert^2+\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2\,(f是\sigma-强凸函数).\end{aligned} F(x)F(TLf(y))2LfxTLf(y)22Lfxy2+f(x)f(y)f(y),xy2LfxTLf(y)22Lfxy2+2σxy2(fσ).因此, F ( x ) − F ( T L f ( y ) ) ≥ L f 2 ∥ x − T L f ( y ) ∥ 2 − L f − σ 2 ∥ x − y ∥ 2 . F(\mathbf{x})-F(T_{L_f}(\mathbf{y}))\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f-\sigma}{2}\Vert\mathbf{x-y}\Vert^2. F(x)F(TLf(y))2LfxTLf(y)22Lfσxy2. k ≥ 0 ,   t = κ = L f σ k\ge0,\,t=\sqrt{\kappa}=\sqrt{\frac{L_f}{\sigma}} k0,t=κ =σLf . 在上述不等式中令 x = t − 1 x ∗ + ( 1 − t − 1 ) x k ,   y = y k \mathbf{x}=t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k x=t1x+(1t1)xk,y=yk, 则有 F ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) − F ( x k + 1 ) ≥ L f 2 ∥ x k + 1 − ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) ∥ 2 − L f − σ 2 ∥ y k − ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) ∥ 2 = L f 2 t 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 − L f − σ 2 t 2 ∥ t y k − ( x ∗ + ( t − 1 ) x k ) ∥ 2 . \begin{aligned}&F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\ge\frac{L_f}{2}\Vert\mathbf{x}^{k+1}-(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\Vert^2-\frac{L_f-\sigma}{2}\Vert\mathbf{y}^k-(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\Vert^2\\&=\frac{L_f}{2t^2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2-\frac{L_f-\sigma}{2t^2}\Vert t\mathbf{y}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned} F(t1x+(1t1)xk)F(xk+1)2Lfxk+1(t1x+(1t1)xk)22Lfσyk(t1x+(1t1)xk)2=2t2Lftxk+1(x+(t1)xk)22t2Lfσtyk(x+(t1)xk)2.由于 F F F σ \sigma σ-强凸函数以及 t > 1 t>1 t>1, 所以 F ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) ≤ t − 1 F ( x ∗ ) + ( 1 − t − 1 ) F ( x k ) − σ 2 t − 1 ( 1 − t − 1 ) ∥ x k − x ∗ ∥ 2 . F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\le t^{-1}F(\mathbf{x}^*)+(1-t^{-1})F(\mathbf{x}^k)-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2. F(t1x+(1t1)xk)t1F(x)+(1t1)F(xk)2σt1(1t1)xkx2. v n ≡ F ( x n ) − F o p t ,   ∀ n ≥ 0 v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}},\,\forall n\ge0 vnF(xn)Fopt,n0, F ( t − 1 x ∗ + ( 1 − t − 1 ) x k ) − F ( x k + 1 ) ≤ ( 1 − t − 1 ) ( F ( x k ) − F ( x ∗ ) ) − ( F ( x k + 1 ) − F ( x ∗ ) ) − σ 2 t − 1 ( 1 − t − 1 ) ∥ x k − x ∗ ∥ 2 = ( 1 − t − 1 ) v k − v k + 1 − σ 2 t − 1 ( 1 − t − 1 ) ∥ x k − x ∗ ∥ 2 , \begin{aligned}&F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\le(1-t^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&=(1-t^{-1})v_k-v_{k+1}-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2,\end{aligned} F(t1x+(1t1)xk)F(xk+1)(1t1)(F(xk)F(x))(F(xk+1)F(x))2σt1(1t1)xkx2=(1t1)vkvk+12σt1(1t1)xkx2,合起来就有 t ( t − 1 ) v k + L f − σ 2 ∥ t y k − ( x ∗ + ( t − 1 ) x k ) ∥ 2 − σ ( t − 1 ) 2 ∥ x k − x ∗ ∥ 2 ≥ t 2 v k + 1 + L f 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 . \begin{aligned}&t(t-1)v_k+\frac{L_f-\sigma}{2}\Vert t\mathbf{y}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2-\frac{\sigma(t-1)}{2}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&\ge t^2v_{k+1}+\frac{L_f}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned} t(t1)vk+2Lfσtyk(x+(t1)xk)22σ(t1)xkx2t2vk+1+2Lftxk+1(x+(t1)xk)2. ∀ a , b ∈ E ,   β ∈ [ 0 , 1 ) \forall\mathbf{a,b}\in\mathbb{E},\,\beta\in[0,1) a,bE,β[0,1): ∥ a + b ∥ 2 − β ∥ a ∥ 2 = ( 1 − β ) ∥ a + 1 1 − β b ∥ 2 − β 1 − β ∥ b ∥ 2 . \Vert\mathbf{a+b}\Vert^2-\beta\Vert\mathbf{a}\Vert^2=(1-\beta)\left\Vert\mathbf{a}+\frac{1}{1-\beta}\mathbf{b}\right\Vert^2-\frac{\beta}{1-\beta}\Vert\mathbf{b}\Vert^2. a+b2βa2=(1β)a+1β1b21ββb2.代入 a = x k − x ∗ ,   b = t ( y k − x k ) ,   β = σ ( t − 1 ) L f − σ \mathbf{a}=\mathbf{x}^k-\mathbf{x}^*,\,\mathbf{b}=t(\mathbf{y}^k-\mathbf{x}^k),\,\beta=\frac{\sigma(t-1)}{L_f-\sigma} a=xkx,b=t(ykxk),β=Lfσσ(t1), 我们有 L f − σ 2 ∥ t ( y k − x k ) + x k − x ∗ ∥ 2 − σ ( t − 1 ) 2 ∥ x k − x ∗ ∥ 2 = L f − σ 2 [ ∥ t ( y k − x k ) + x k − x ∗ ∥ 2 − σ ( t − 1 ) L f − σ ∥ x k − x ∗ ∥ 2 ] = L f − σ 2 [ L f − σ t L f − σ ∥ x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) ∥ 2 − σ ( t − 1 ) L f − σ t ∥ x k − x ∗ ∥ 2 ] ≤ L f − σ t 2 ∥ x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) ∥ 2 . \begin{aligned}&\frac{L_f-\sigma}{2}\Vert t(\mathbf{y}^k-\mathbf{x}^k)+\mathbf{x}^k-\mathbf{x}^*\Vert^2-\frac{\sigma(t-1)}{2}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&=\frac{L_f-\sigma}{2}\left[\Vert t(\mathbf{y}^k-\mathbf{x}^k)+\mathbf{x}^k-\mathbf{x}^*\Vert^2-\frac{\sigma(t-1)}{L_f-\sigma}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\right]\\&=\frac{L_f-\sigma}{2}\left[\frac{L_f-\sigma t}{L_f-\sigma}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2-\frac{\sigma(t-1)}{L_f-\sigma t}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\right]\\&\le\frac{L_f-\sigma t}{2}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2.\end{aligned} 2Lfσt(ykxk)+xkx22σ(t1)xkx2=2Lfσ[t(ykxk)+xkx2Lfσσ(t1)xkx2]=2Lfσ[LfσLfσtxkx+LfσtLfσt(ykxk)2Lfσtσ(t1)xkx2]2Lfσtxkx+LfσtLfσt(ykxk)2.于是不等式变成 t ( t − 1 ) v k + L f − σ t 2 ∥ x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) ∥ 2 ≥ t 2 v k + 1 + L f 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 . \begin{aligned}&t(t-1)v_k+\frac{L_f-\sigma t}{2}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2\\&\ge t^2v_{k+1}+\frac{L_f}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned} t(t1)vk+2Lfσtxkx+LfσtLfσt(ykxk)2t2vk+1+2Lftxk+1(x+(t1)xk)2.

  • k ≥ 1 k\ge1 k1, 则 y k = x k + κ − 1 κ + 1 ( x k − x k − 1 ) ,   t = κ = L f σ \mathbf{y}^k=\mathbf{x}^k+\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}(\mathbf{x}^k-\mathbf{x}^{k-1}),\,t=\sqrt{\kappa}=\sqrt{\frac{L_f}{\sigma}} yk=xk+κ +1κ 1(xkxk1),t=κ =σLf , 代入其中可得 x k − x ∗ + L f − σ L f − σ t t ( y k − x k ) = x k − x ∗ + L f − σ L f − σ t t ( t − 1 ) t + 1 ( x k − x k − 1 ) = x k − x ∗ + κ − 1 κ − κ κ ( κ − 1 ) κ + 1 ( x k − x k − 1 ) = x k − x ∗ + ( κ − 1 ) ( x k − x k − 1 ) = t x k − ( x ∗ + ( t − 1 ) x k − 1 ) . \begin{aligned}\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)&=\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}\frac{t(t-1)}{t+1}(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=\mathbf{x}^k-\mathbf{x}^*+\frac{\kappa-1}{\kappa-\sqrt{\kappa}}\frac{\sqrt{\kappa}(\sqrt{\kappa}-1)}{\sqrt{\kappa}+1}(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=\mathbf{x}^k-\mathbf{x}^*+(\sqrt{\kappa}-1)(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=t\mathbf{x}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^{k-1}).\end{aligned} xkx+LfσtLfσt(ykxk)=xkx+LfσtLfσt+1t(t1)(xkxk1)=xkx+κκ κ1κ +1κ (κ 1)(xkxk1)=xkx+(κ 1)(xkxk1)=txk(x+(t1)xk1).
  • k = 0 k=0 k=0, 注意到 y 0 = x 0 \mathbf{y}^0=\mathbf{x}^0 y0=x0, 所以 x 0 − x ∗ + L f − σ L f − σ t t ( y 0 − x 0 ) = x 0 − x ∗ . \mathbf{x}^0-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^0-\mathbf{x}^0)=\mathbf{x}^0-\mathbf{x}^*. x0x+LfσtLfσt(y0x0)=x0x.

因此我们有 v k + 1 + σ 2 ∥ t x k + 1 − ( x ∗ + ( t − 1 ) x k ) ∥ 2 ≤ { ( 1 − 1 t ) [ v k + σ 2 ∥ t x k − ( x ∗ − ( x ∗ + ( t − 1 ) x k − 1 ) ∥ 2 ] , k ≥ 1 , ( 1 − 1 t ) [ v 0 + σ 2 ∥ x 0 − x ∗ ∥ 2 ] , k = 0. \begin{aligned}&v_{k+1}+\frac{\sigma}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2\\&\le\left\{\begin{array}{ll}\left(1-\frac{1}{t}\right)\left[v_k+\frac{\sigma}{2}\Vert t\mathbf{x}^k-(\mathbf{x}^*-(\mathbf{x}^*+(t-1)\mathbf{x}^{k-1})\Vert^2\right], & k\ge1,\\\left(1-\frac{1}{t}\right)\left[v_0+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right], & k=0.\end{array}\right.\end{aligned} vk+1+2σtxk+1(x+(t1)xk)2{(1t1)[vk+2σtxk(x(x+(t1)xk1)2],(1t1)[v0+2σx0x2],k1,k=0.因此对 ∀ k ≥ 0 \forall k\ge0 k0, v k ≤ ( 1 − 1 t ) k ( v 0 + σ 2 ∥ x 0 − x ∗ ∥ 2 ) . v_k\le\left(1-\frac{1}{t}\right)^k\left(v_0+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right). vk(1t1)k(v0+2σx0x2). v k v_k vk的定义即可得证.

8. 光滑化与S-FISTA

8.1 动机

第八章第九章中我们讨论了求解非光滑凸优化问题的 O ( 1 / ϵ 2 ) O(1/\epsilon^2) O(1/ϵ2)复杂度方法. 而在上一节中的FISTA则用于求解组合模型 min ⁡ x ∈ E f ( x ) + g ( x ) , \min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x})+g(\mathbf{x}), xEminf(x)+g(x),复杂度降为 O ( 1 / ϵ ) O(1/\sqrt{\epsilon}) O(1/ϵ ), 其中 f f f L f L_f Lf-光滑函数, g g g为正常闭凸函数. 本节我们讨论如何将FISTA用于更加一般的非光滑凸问题, 并证明其复杂度为 O ( 1 / ϵ ) O(1/\epsilon) O(1/ϵ). 我们将要讨论的问题比原本的组合模型又多了一项: min ⁡ { f ( x ) + h ( x ) + g ( x ) : x ∈ E } . \min\{f(\mathbf{x})+h(\mathbf{x})+g(\mathbf{x}):\mathbf{x}\in\mathbb{E}\}. min{f(x)+h(x)+g(x):xE}.这里函数 h h h是实值凸函数.

我们假设 h h h的临近算子不易求得(而之前对 g g g的隐含条件是其临近算子易求). 因此直接将FISTA用于组合模型 ( f , g + h ) (f,g+h) (f,g+h)是不现实的. 因此我们考虑先找 h h h的一个光滑逼近 h ~ \tilde h h~, 之后用FISTA求解组合问题 ( f + h ~ , g ) (f+\tilde h,g) (f+h~,g). 为此, 我们先介绍光滑逼近(smooth approximation)和可光滑性(smoothability)的概念.

8.2 可光滑函数与光滑逼近

定义2 (可光滑函数) 我们称凸函数 h : E → R h:\mathbb{E}\to\mathbb{R} h:ER ( α , β ) (\alpha,\beta) (α,β)-可光滑的 ( α , β > 0 ) (\alpha,\beta>0) (α,β>0), 若对 ∀ μ > 0 \forall\mu>0 μ>0, 存在凸可微函数 h μ : E → R h_{\mu}:\mathbb{E}\to\mathbb{R} hμ:ER使得
(i) h μ ( x ) ≤ h ( x ) ≤ h μ ( x ) + β μ ,   ∀ x ∈ E h_{\mu}(\mathbf{x})\le h(\mathbf{x})\le h_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E} hμ(x)h(x)hμ(x)+βμ,xE;
(ii) h μ h_{\mu} hμ α μ \frac{\alpha}{\mu} μα-光滑函数.
这里的 h μ h_{\mu} hμ称作是 h h h对参数 ( α , β ) (\alpha,\beta) (α,β) 1 μ \frac{1}{\mu} μ1-光滑逼近.

例5 ( ∥ x ∥ 2 \Vert\mathbf{x}\Vert_2 x2的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:RnR定义为 h ( x ) = ∥ x ∥ 2 h(\mathbf{x})=\Vert\mathbf{x}\Vert_2 h(x)=x2. 对 ∀ μ > 0 \forall\mu>0 μ>0, 定义 h μ ( x ) = ∥ x ∥ 2 2 + μ 2 − μ h_{\mu}(\mathbf{x})=\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}-\mu hμ(x)=x22+μ2 μ. 则对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, h μ ( x ) = ∥ x ∥ 2 2 + μ 2 − μ ≤ ∥ x ∥ 2 + μ − μ = ∥ x ∥ 2 = h ( x ) , h ( x ) = ∥ x ∥ 2 ≤ ∥ x ∥ 2 2 + μ 2 = h μ ( x ) + μ , \begin{aligned}h_{\mu}(\mathbf{x})&=\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}-\mu\le\Vert\mathbf{x}\Vert_2+\mu-\mu=\Vert\mathbf{x}\Vert_2=h(\mathbf{x}),\\h(\mathbf{x})&=\Vert\mathbf{x}\Vert_2\le\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}=h_{\mu}(\mathbf{x})+\mu,\end{aligned} hμ(x)h(x)=x22+μ2 μx2+μμ=x2=h(x),=x2x22+μ2 =hμ(x)+μ,这表明定义2中的(i)对 β = 1 \beta=1 β=1成立. 下证(ii)对 α = 1 \alpha=1 α=1成立. 根据第五章例6, 函数 φ ( x ) = ∥ x ∥ 2 2 + 1 \varphi(\mathbf{x})=\sqrt{\Vert\mathbf{x}\Vert_2^2+1} φ(x)=x22+1 1 1 1-光滑的, 所以 h μ ( x ) = μ φ ( x / μ ) − μ h_{\mu}(\mathbf{x})=\mu\varphi(\mathbf{x}/\mu)-\mu hμ(x)=μφ(x/μ)μ 1 μ \frac{1}{\mu} μ1-光滑的. 根据定义2, h μ h_{\mu} hμ h h h对参数 ( 1 , 1 ) (1,1) (1,1) 1 μ \frac{1}{\mu} μ1-光滑逼近, h h h ( 1 , 1 ) (1,1) (1,1)-可光滑的.

例6 ( max ⁡ i { x i } \max_i\{x_i\} maxi{xi}的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:RnR定义为 h ( x ) = max ⁡ { x 1 , x 2 , … , x n } h(\mathbf{x})=\max\{x_1,x_2,\ldots,x_n\} h(x)=max{x1,x2,,xn}. 对 ∀ μ > 0 \forall\mu>0 μ>0, 定义 h μ ( x ) = μ log ⁡ ( ∑ i = 1 n e x i / μ ) − μ log ⁡ n . h_{\mu}(\mathbf{x})=\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)-\mu\log n. hμ(x)=μlog(i=1nexi/μ)μlogn.则对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, h μ ( x ) = μ log ⁡ ( ∑ i = 1 n e x i / μ ) − μ log ⁡ n ≤ μ log ⁡ ( n e max ⁡ i { x i } / μ ) − μ log ⁡ n = h ( x ) , h ( x ) = max ⁡ i { x i } ≤ μ log ⁡ ( ∑ i = 1 n e x i / μ ) = h μ ( x ) + μ log ⁡ n . \begin{aligned}h_{\mu}(\mathbf{x})&=\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)-\mu\log n\\&\le\mu\log\left(ne^{\max_i\{x_i\}/\mu}\right)-\mu\log n=h(\mathbf{x}),\\h(\mathbf{x})&=\max_i\{x_i\}\le\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)=h_{\mu}(\mathbf{x})+\mu\log n.\end{aligned} hμ(x)h(x)=μlog(i=1nexi/μ)μlognμlog(nemaxi{xi}/μ)μlogn=h(x),=imax{xi}μlog(i=1nexi/μ)=hμ(x)+μlogn.再根据第五章例7, φ ( x ) = log ⁡ ( ∑ i = 1 n e x i ) \varphi(\mathbf{x})=\log(\sum_{i=1}^ne^{x_i}) φ(x)=log(i=1nexi) 1 1 1-光滑的, 从而 h μ ( x ) = μ φ ( x / μ ) − μ log ⁡ n h_{\mu}(\mathbf{x})=\mu\varphi(\mathbf{x}/\mu)-\mu\log n hμ(x)=μφ(x/μ)μlogn 1 μ \frac{1}{\mu} μ1-光滑的. 根据定义2, h μ h_{\mu} hμ h h h对参数 ( 1 , log ⁡ n ) (1,\log n) (1,logn) 1 μ \frac{1}{\mu} μ1-光滑逼近, h h h ( 1 , log ⁡ n ) (1,\log n) (1,logn)-可光滑的.

定理18 (光滑逼近的运算法则)
(i) 设 h 1 , h 2 : E → R h^1,h^2:\mathbb{E}\to\mathbb{R} h1,h2:ER为凸函数, γ 1 , γ 2 ≥ 0 \gamma_1,\gamma_2\ge0 γ1,γ20. 假设对 ∀ μ > 0 \forall\mu>0 μ>0, h μ i h_{\mu}^i hμi h i h^i hi对参数 ( α i , β i ) (\alpha_i,\beta_i) (αi,βi) 1 μ \frac{1}{\mu} μ1-光滑逼近, i = 1 , 2 i=1,2 i=1,2. 则 γ 1 h μ 1 + γ 2 h μ 2 \gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2 γ1hμ1+γ2hμ2 γ 1 h 1 + γ 2 h 2 \gamma_1h^1+\gamma_2h^2 γ1h1+γ2h2对参数 ( γ 1 α 1 + γ 2 α 2 , γ 1 β 1 + γ 2 β 2 ) (\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2) (γ1α1+γ2α2,γ1β1+γ2β2) 1 μ \frac{1}{\mu} μ1-光滑逼近.
(ii) 设 A : E → V \mathcal{A}:\mathbb{E}\to\mathbb{V} A:EV为欧式空间 E , V \mathbb{E},\mathbb{V} E,V之间的线性映射. 设 h : V → R h:\mathbb{V}\to\mathbb{R} h:VR为一凸函数, 定义 q ( x ) ≡ h ( A ( x ) + b ) , q(\mathbf{x})\equiv h(\mathcal{A}(\mathbf{x})+\mathbf{b}), q(x)h(A(x)+b),其中 b ∈ V \mathbf{b}\in\mathbb{V} bV. 假设对 ∀ μ > 0 \forall\mu>0 μ>0, h μ h_{\mu} hμ h h h对参数 ( α , β ) (\alpha,\beta) (α,β) 1 μ \frac{1}{\mu} μ1-光滑逼近. 则 q μ ( x ) ≡ h μ ( A ( x ) + b ) q_{\mu}(\mathbf{x})\equiv h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b}) qμ(x)hμ(A(x)+b) q q q对参数 ( α ∥ A ∥ 2 , β ) (\alpha\Vert\mathcal{A}\Vert^2,\beta) (αA2,β) 1 μ \frac{1}{\mu} μ1-光滑逼近.

证明: (i) 由定义, h μ i ( i = 1 , 2 ) h_{\mu}^{i}(i=1,2) hμi(i=1,2)是凸 α i μ \frac{\alpha_i}{\mu} μαi-光滑函数, 且 h μ i ( x ) ≤ h i ( x ) ≤ h μ i ( x ) + β i μ ,   ∀ x ∈ E h_{\mu}^i(\mathbf{x})\le h^i(\mathbf{x})\le h_{\mu}^i(\mathbf{x})+\beta_i\mu,\,\forall\mathbf{x}\in\mathbb{E} hμi(x)hi(x)hμi(x)+βiμ,xE. 因此 γ 1 h μ 1 + γ 2 h μ 2 \gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2 γ1hμ1+γ2hμ2是凸函数, 且对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE γ 1 h μ 1 ( x ) + γ 2 h μ 2 ( x ) ≤ γ 1 h 1 ( x ) + γ 2 h 2 ( x ) ≤ γ 1 h μ 1 ( x ) + γ 2 h μ 2 ( x ) + ( γ 1 β 1 + γ 2 β 2 ) μ , \gamma_1h_{\mu}^1(\mathbf{x})+\gamma_2h_{\mu}^2(\mathbf{x})\le\gamma_1h^1(\mathbf{x})+\gamma_2h^2(\mathbf{x})\le\gamma_1h_{\mu}^1(\mathbf{x})+\gamma_2h_{\mu}^2(\mathbf{x})+(\gamma_1\beta_1+\gamma_2\beta_2)\mu, γ1hμ1(x)+γ2hμ2(x)γ1h1(x)+γ2h2(x)γ1hμ1(x)+γ2hμ2(x)+(γ1β1+γ2β2)μ,以及 ∥ ∇ ( γ 1 h μ 1 + γ 2 h μ 2 ) ( x ) − ∇ ( γ 1 h μ 1 + γ 2 h μ 2 ) ( y ) ∥ ≤ γ 1 ∥ ∇ h μ 1 ( x ) − ∇ h μ 1 ( y ) ∥ + γ ∥ ∇ h μ 2 ( x ) − ∇ h μ 2 ( y ) ∥ ≤ γ 1 α 1 μ ∥ x − y ∥ + γ 2 α 2 μ ∥ x − y ∥ = γ 1 α 1 + γ 2 α 2 μ ∥ x − y ∥ , \begin{aligned}\Vert\nabla(\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2)(\mathbf{x})-\nabla(\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2)(\mathbf{y})\Vert\le&\gamma_1\Vert\nabla h_{\mu}^1(\mathbf{x})-\nabla h_{\mu}^1(\mathbf{y})\Vert\\+&\gamma\Vert\nabla h_{\mu}^2(\mathbf{x})-\nabla h_{\mu}^2(\mathbf{y})\Vert\\\le&\gamma_1\frac{\alpha_1}{\mu}\Vert\mathbf{x-y}\Vert+\gamma_2\frac{\alpha_2}{\mu}\Vert\mathbf{x-y}\Vert\\=&\frac{\gamma_1\alpha_1+\gamma_2\alpha_2}{\mu}\Vert\mathbf{x-y}\Vert,\end{aligned} (γ1hμ1+γ2hμ2)(x)(γ1hμ1+γ2hμ2)(y)+=γ1hμ1(x)hμ1(y)γhμ2(x)hμ2(y)γ1μα1xy+γ2μα2xyμγ1α1+γ2α2xy,这表明 γ 1 h μ 1 + γ 2 h μ 2 \gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2 γ1hμ1+γ2hμ2 γ 1 h 1 + γ 2 h 2 \gamma_1h^1+\gamma_2h^2 γ1h1+γ2h2对参数 ( γ 1 α 1 + γ 2 α 2 , γ 1 β 1 + γ 2 β 2 ) (\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2) (γ1α1+γ2α2,γ1β1+γ2β2) 1 μ \frac{1}{\mu} μ1-光滑逼近.

(ii) 因 h μ h_{\mu} hμ h h h对参数 ( α , β ) (\alpha,\beta) (α,β) 1 μ \frac{1}{\mu} μ1-光滑逼近, 因此 h μ h_{\mu} hμ是凸 α μ \frac{\alpha}{\mu} μα-光滑函数, 且对 ∀ y ∈ V \forall\mathbf{y}\in\mathbb{V} yV, h μ ( y ) ≤ h ( y ) ≤ h μ ( y ) + β μ . h_{\mu}(\mathbf{y})\le h(\mathbf{y})\le h_{\mu}(\mathbf{y})+\beta\mu. hμ(y)h(y)hμ(y)+βμ. x ∈ E \mathbf{x}\in\mathbb{E} xE, 并代入 y = A ( x ) + b \mathbf{y}=\mathcal{A}(\mathbf{x})+\mathbf{b} y=A(x)+b就有 q μ ( x ) ≤ q ( x ) ≤ q μ ( x ) + β μ . q_{\mu}(\mathbf{x})\le q(\mathbf{x})\le q_{\mu}(\mathbf{x})+\beta\mu. qμ(x)q(x)qμ(x)+βμ.另外, 由 h μ h_{\mu} hμ α μ \frac{\alpha}{\mu} μα-光滑性, 我们有对 ∀ x , y ∈ E \forall\mathbf{x,y}\in\mathbb{E} x,yE, ∥ ∇ q μ ( x ) − ∇ q μ ( y ) ∥ = ∥ A T ∇ h μ ( A ( x ) + b ) − A T ∇ h μ ( A ( y ) + b ) ∥ ≤ ∥ A T ∥ ⋅ ∥ ∇ h μ ( A ( x ) + b ) − ∇ h μ ( A ( y ) + b ) ∥ ≤ α μ ∥ A T ∥ ⋅ ∥ A ( x ) + b − A ( y ) − b ∥ ≤ α μ ∥ A T ∥ ⋅ ∥ A ∥ ⋅ ∥ x − y ∥ = α ∥ A ∥ 2 μ ∥ x − y ∥ , \begin{aligned}\Vert\nabla q_{\mu}(\mathbf{x})-\nabla q_{\mu}(\mathbf{y})\Vert&=\Vert\mathcal{A}^T\nabla h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})-\mathcal{A}^T\nabla h_{\mu}(\mathcal{A}(\mathbf{y})+\mathbf{b})\Vert\\&\le\Vert\mathcal{A}^T\Vert\cdot\Vert\nabla h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})-\nabla h_{\mu}(\mathcal{A}(\mathbf{y})+\mathbf{b})\Vert\\&\le\frac{\alpha}{\mu}\Vert\mathcal{A}^T\Vert\cdot\Vert\mathcal{A}(\mathbf{x})+\mathbf{b}-\mathcal{A}(\mathbf{y})-\mathbf{b}\Vert\\&\le\frac{\alpha}{\mu}\Vert\mathcal{A}^T\Vert\cdot\Vert\mathcal{A}\Vert\cdot\Vert\mathbf{x-y}\Vert\\&=\frac{\alpha\Vert\mathcal{A}\Vert^2}{\mu}\Vert\mathbf{x-y}\Vert,\end{aligned} qμ(x)qμ(y)=AThμ(A(x)+b)AThμ(A(y)+b)AThμ(A(x)+b)hμ(A(y)+b)μαATA(x)+bA(y)bμαATAxy=μαA2xy,这表明 q μ q_{\mu} qμ q q q对参数 ( α ∥ A ∥ 2 , β ) (\alpha\Vert\mathcal{A}\Vert^2,\beta) (αA2,β) 1 μ \frac{1}{\mu} μ1-光滑逼近.

推论4 (保可光滑性运算)
(i) 设 h 1 , h 2 : E → R h^1,h^2:\mathbb{E}\to\mathbb{R} h1,h2:ER为凸函数, γ 1 , γ 2 ≥ 0 \gamma_1,\gamma_2\ge0 γ1,γ20. 假设对 h i h^i hi ( α i , β i ) (\alpha_i,\beta_i) (αi,βi)-可光滑的, i = 1 , 2 i=1,2 i=1,2. 则 γ 1 h 1 + γ 2 h 2 \gamma_1h^1+\gamma_2h^2 γ1h1+γ2h2 ( γ 1 α 1 + γ 2 α 2 , γ 1 β 1 + γ 2 β 2 ) (\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2) (γ1α1+γ2α2,γ1β1+γ2β2)-可光滑的.
(ii) 设 A : E → V \mathcal{A}:\mathbb{E}\to\mathbb{V} A:EV为欧式空间 E , V \mathbb{E},\mathbb{V} E,V之间的线性映射. 设 h : V → R h:\mathbb{V}\to\mathbb{R} h:VR为一凸函数, 定义 q ( x ) ≡ h ( A ( x ) + b ) , q(\mathbf{x})\equiv h(\mathcal{A}(\mathbf{x})+\mathbf{b}), q(x)h(A(x)+b),其中 b ∈ V \mathbf{b}\in\mathbb{V} bV. 假设 h h h ( α , β ) (\alpha,\beta) (α,β)-可光滑函数. 则 q q q ( α ∥ A ∥ 2 , β ) (\alpha\Vert\mathcal{A}\Vert^2,\beta) (αA2,β)可光滑的.

例7 ( ∥ A x + b ∥ 2 \Vert\mathbf{Ax+b}\Vert_2 Ax+b2的光滑逼近) 设 q : R n → R q:\mathbb{R}^n\to\mathbb{R} q:RnR定义为 q ( x ) = ∥ A x + b ∥ 2 q(\mathbf{x})=\Vert\mathbf{Ax+b}\Vert_2 q(x)=Ax+b2, 其中 A ∈ R m × n ,   b ∈ R m \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m ARm×n,bRm. 则 q ( x ) = g ( A x + b ) q(\mathbf{x})=g(\mathbf{Ax+b}) q(x)=g(Ax+b), 其中 g : R m → R g:\mathbb{R}^m\to\mathbb{R} g:RmR定义为 g ( y ) = ∥ y ∥ 2 g(\mathbf{y})=\Vert\mathbf{y}\Vert_2 g(y)=y2. 对 ∀ μ > 0 \forall\mu>0 μ>0, 由例5, g μ ( y ) = ∥ y ∥ 2 2 + μ 2 − μ g_{\mu}(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_2^2+\mu^2}-\mu gμ(y)=y22+μ2 μ g g g对参数 ( 1 , 1 ) (1,1) (1,1) 1 μ \frac{1}{\mu} μ1-光滑逼近, 从而再由定理18(ii), q μ ( x ) ≡ g μ ( A x + b ) = ∥ A x + b ∥ 2 2 + μ 2 − μ q_{\mu}(\mathbf{x})\equiv g_{\mu}(\mathbf{Ax+b})=\sqrt{\Vert\mathbf{Ax+b}\Vert_2^2+\mu^2}-\mu qμ(x)gμ(Ax+b)=Ax+b22+μ2 μ就是 q q q对参数 ( ∥ A ∥ 2 , 2 2 , 1 ) (\Vert\mathbf{A}\Vert_{2,2}^2,1) (A2,22,1) 1 μ \frac{1}{\mu} μ1-光滑逼近.

例8 (分片线性函数的光滑逼近) 设 q : R n → R q:\mathbb{R}^n\to\mathbb{R} q:RnR定义为 q ( x ) = max ⁡ i = 1 , … , m { a i T x + b i } q(\mathbf{x})=\max_{i=1,\ldots,m}\{\mathbf{a}_i^T\mathbf{x}+b_i\} q(x)=maxi=1,,m{aiTx+bi}, 其中 a i ∈ R n ,   b i ∈ R ,   i = 1 , 2 , … , m \mathbf{a}_i\in\mathbb{R}^n,\,b_i\in\mathbb{R},\,i=1,2,\ldots,m aiRn,biR,i=1,2,,m. 则 q ( x ) = g ( A x + b ) q(\mathbf{x})=g(\mathbf{Ax+b}) q(x)=g(Ax+b), 其中 g ( y ) = max ⁡ { y 1 , y 2 , … , y m } g(\mathbf{y})=\max\{y_1,y_2,\ldots,y_m\} g(y)=max{y1,y2,,ym}, A = ( a 1 , a 2 , … , a m ) T \mathbf{A}=\begin{pmatrix}\mathbf{a}_1,\mathbf{a}_2,\ldots,\mathbf{a}_m\end{pmatrix}^T A=(a1,a2,,am)T, b = ( b 1 , b 2 , … , b m ) T \mathbf{b}=(b_1,b_2,\ldots,b_m)^T b=(b1,b2,,bm)T. 对 ∀ μ > 0 \forall\mu>0 μ>0, 由例6, g μ ( y ) = μ log ⁡ ( ∑ i = 1 m e y i / μ ) − μ log ⁡ m g_{\mu}(\mathbf{y})=\mu\log(\sum_{i=1}^me^{y_i/\mu})-\mu\log m gμ(y)=μlog(i=1meyi/μ)μlogm g g g对参数 ( 1 , log ⁡ m ) (1,\log m) (1,logm) 1 μ \frac{1}{\mu} μ1-光滑逼近. 因此再由定理18(ii), q μ ( x ) = g μ ( A x + b ) = μ log ⁡ ( ∑ i = 1 m e ( a i T x + b i ) / μ ) − μ log ⁡ m q_{\mu}(\mathbf{x})=g_{\mu}(\mathbf{Ax+b})=\mu\log\left(\sum_{i=1}^me^{(\mathbf{a}_i^T\mathbf{x}+b_i)/\mu}\right)-\mu\log m qμ(x)=gμ(Ax+b)=μlog(i=1me(aiTx+bi)/μ)μlogm q q q对参数 ( ∥ A ∥ 2 , 2 2 , log ⁡ m ) (\Vert\mathbf{A}\Vert_{2,2}^2,\log m) (A2,22,logm) 1 μ \frac{1}{\mu} μ1-光滑逼近.

例9 (光滑参数是最好的吗?) 考虑绝对值函数 q : R → R q:\mathbb{R}\to\mathbb{R} q:RR定义为 q ( x ) = ∣ x ∣ q(x)=|x| q(x)=x. 由例5, 对 ∀ μ > 0 \forall\mu>0 μ>0, 函数 x 2 + μ 2 − μ \sqrt{x^2+\mu^2}-\mu x2+μ2 μ q q q对参数 ( 1 , 1 ) (1,1) (1,1) 1 μ \frac{1}{\mu} μ1-光滑逼近. 下面我们考虑另一种利用定理18的构造 q q q的光滑逼近的方法. 注意到 q ( x ) = { x , − x } q(x)=\{x,-x\} q(x)={x,x}. 于是由例8, 函数 q μ ( x ) = μ log ⁡ ( e x / μ + e − x / μ ) − μ log ⁡ 2 q_{\mu}(x)=\mu\log(e^{x/\mu}+e^{-x/\mu})-\mu\log 2 qμ(x)=μlog(ex/μ+ex/μ)μlog2 q q q对参数 ( ∥ A ∥ 2 , 2 2 , log ⁡ 2 ) (\Vert\mathbf{A}\Vert_{2,2}^2,\log 2) (A2,22,log2) 1 μ \frac{1}{\mu} μ1-光滑逼近, 其中 A = ( 1 − 1 ) \mathbf{A}=\begin{pmatrix}1\\-1\end{pmatrix} A=(11). 由于 ∥ A ∥ 2 , 2 2 = 2 \Vert\mathbf{A}\Vert_{2,2}^2=2 A2,22=2, 所以 q μ q_{\mu} qμ q q q对参数 ( 2 , log ⁡ 2 ) (2,\log 2) (2,log2) 1 μ \frac{1}{\mu} μ1-光滑逼近. 一个自然的问题是, 这些光滑参数是不是满足定义的最小参数3.

考虑 q μ q_{\mu} qμ的情形. 首先由于 lim ⁡ x → ∞ q ( x ) − q μ ( x ) = μ log ⁡ 2 \lim_{x\to\infty}q(x)-q_{\mu}(x)=\mu\log 2 limxq(x)qμ(x)=μlog2, 所以 β \beta β是最好的. 而对 ∀ x ∈ R \forall x\in\mathbb{R} xR, q 1 ′ ′ ( x ) = 4 ( e x + e − x ) 2 . q_1''(x)=\frac{4}{(e^x+e^{-x})^2}. q1(x)=(ex+ex)24.因此 ∣ q 1 ′ ′ ( x ) ∣ ≤ 1 ,   ∀ x ∈ R |q_1''(x)|\le1,\,\forall x\in\mathbb{R} q1(x)1,xR. 根据第五章定理4, 就知道 q 1 q_1 q1 1 1 1-光滑函数. 于是 q μ ( x ) = μ q 1 ( x / μ ) q_{\mu}(\mathbf{x})=\mu q_1(\mathbf{x}/\mu) qμ(x)=μq1(x/μ) 1 μ \frac{1}{\mu} μ1-光滑函数. 这表明 q μ q_{\mu} qμ实际上也是 q q q对参数 ( 1 , log ⁡ 2 ) (1,\log 2) (1,log2) 1 μ \frac{1}{\mu} μ1-光滑逼近.

8.3 再看Moreau包络

任意给定一实值Lipschitz连续的凸函数 h : E → R h:\mathbb{E}\to\mathbb{R} h:ER, 它的一个最自然的 1 μ \frac{1}{\mu} μ1-光滑逼近就是其Moreau包络 M h μ M_h^{\mu} Mhμ. 本小节就是要说明这一点. 回顾第六章第7节中Moreau分解的定义: M h μ ( x ) = min ⁡ u ∈ E { h ( u ) + 1 2 μ ∥ x − u ∥ 2 } . M_h^{\mu}(\mathbf{x})=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})+\frac{1}{2\mu}\Vert\mathbf{x-u}\Vert^2\right\}. Mhμ(x)=uEmin{h(u)+2μ1xu2}.

定理19 (实值Lipschitz连续凸函数的可光滑性) 设 h : E → R h:\mathbb{E}\to\mathbb{R} h:ER是满足 ∣ h ( x ) − h ( y ) ∣ ≤ ℓ h ∥ x − y ∥ , ∀ x , y ∈ E |h(\mathbf{x})-h(\mathbf{y})|\le\ell_h\Vert\mathbf{x-y}\Vert,\quad\forall\mathbf{x,y}\in\mathbb{E} h(x)h(y)hxy,x,yE的凸函数. 则对 ∀ μ > 0 \forall\mu>0 μ>0, M h μ M_h^{\mu} Mhμ h h h对参数 ( 1 , ℓ h 2 2 ) (1,\frac{\ell_h^2}{2}) (1,2h2) 1 μ \frac{1}{\mu} μ1-光滑逼近.

证明: 根据第七章定理22, M h μ M_h^{\mu} Mhμ 1 μ \frac{1}{\mu} μ1-光滑函数. 下面验证定义2的(i). 对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} xE, M h μ ( x ) = min ⁡ u ∈ E { h ( u ) + 1 2 μ ∥ u − x ∥ 2 } ≤ h ( x ) + 1 2 μ ∥ x − x ∥ 2 = h ( x ) . M_h^{\mu}(\mathbf{x})=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\le h(\mathbf{x})+\frac{1}{2\mu}\Vert\mathbf{x-x}\Vert^2=h(\mathbf{x}). Mhμ(x)=uEmin{h(u)+2μ1ux2}h(x)+2μ1xx2=h(x).任取 g x ∈ ∂ h ( x ) \mathbf{g}_{\mathbf{x}}\in\partial h(\mathbf{x}) gxh(x). 由于 h h h ℓ h \ell_h h-Lipschitz连续函数, 根据第三章定理23, 就有 ∥ g x ∥ ≤ ℓ h \Vert\mathbf{g}_{\mathbf{x}}\Vert\le\ell_h gxh. 于是 M h μ ( x ) − h ( x ) = min ⁡ u ∈ E { h ( u ) − h ( x ) + 1 2 μ ∥ u − x ∥ 2 } ≥ min ⁡ u ∈ E { ⟨ g x , u − x ⟩ + 1 2 μ ∥ u − x ∥ 2 } = − μ 2 ∥ g x ∥ 2 ≥ − ℓ h 2 2 μ . \begin{aligned}M_h^{\mu}(\mathbf{x})-h(\mathbf{x})&=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})-h(\mathbf{x})+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\\&\ge\min_{\mathbf{u}\in\mathbb{E}}\left\{\langle\mathbf{g}_{\mathbf{x}},\mathbf{u-x}\rangle+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\\&=-\frac{\mu}{2}\Vert\mathbf{g}_{\mathbf{x}}\Vert^2\\&\ge-\frac{\ell_h^2}{2}\mu.\end{aligned} Mhμ(x)h(x)=uEmin{h(u)h(x)+2μ1ux2}uEmin{gx,ux+2μ1ux2}=2μgx22h2μ.这就证明了定义2的(i): M h μ ( x ) ≤ h ( x ) ≤ M h μ ( x ) + ℓ h 2 2 μ . M_h^{\mu}(\mathbf{x})\le h(\mathbf{x})\le M_h^{\mu}(\mathbf{x})+\frac{\ell_h^2}{2}\mu. Mhμ(x)h(x)Mhμ(x)+2h2μ.

推论5 h : E → R h:\mathbb{E}\to\mathbb{R} h:ER ℓ h \ell_h h-Lipschitz连续的凸函数. 则 h h h ( 1 , ℓ h 2 2 ) (1,\frac{\ell_h^2}{2}) (1,2h2)-可光滑的.

例10 ( ℓ 2 \ell_2 2-范数的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:RnR定义为 h ( x ) = ∥ x ∥ 2 h(\mathbf{x})=\Vert\mathbf{x}\Vert_2 h(x)=x2. 则 h h h是凸函数且其Lipschitz常数为 ℓ h = 1 \ell_h=1 h=1. 于是由定理19, 对 ∀ μ > 0 \forall\mu>0 μ>0, 其Moreau包络(也就是Huber函数, 可见第六章例25) M h μ ( x ) = H μ ( x ) = { 1 2 μ ∥ x ∥ 2 2 , ∥ x ∥ 2 ≤ μ , ∥ x ∥ 2 − μ 2 , ∥ x ∥ 2 > μ M_h^{\mu}(\mathbf{x})=H_{\mu}(\mathbf{x})=\left\{\begin{array}{ll}\frac{1}{2\mu}\Vert\mathbf{x}\Vert_2^2, & \Vert\mathbf{x}\Vert_2\le\mu,\\\Vert\mathbf{x}\Vert_2-\frac{\mu}{2}, & \Vert\mathbf{x}\Vert_2>\mu\end{array}\right. Mhμ(x)=Hμ(x)={2μ1x22,x22μ,x2μ,x2>μ就是 h h h对参数 ( 1 , 1 2 ) (1,\frac{1}{2}) (1,21) 1 μ \frac{1}{\mu} μ1-光滑逼近.

例11 ( ℓ 1 \ell_1 1-范数的光滑逼近) 考虑函数 h : R n → R h:\mathbb{R}^n\to\mathbb{R} h:RnR定义为 h ( x ) = ∥ x ∥ 1 h(\mathbf{x})=\Vert\mathbf{x}\Vert_1 h(x)=x1. 则 h h h是凸函数且其Lipschitz常数为 n \sqrt{n} n 4. 于是由定理19, 对 ∀ μ > 0 \forall\mu>0 μ>0, h h h的Moreau包络 M h μ ( x ) = ∑ i = 1 n H μ ( x i ) M_h^{\mu}(\mathbf{x})=\sum_{i=1}^nH_{\mu}(x_i) Mhμ(x)=i=1nHμ(xi)就是 h h h对参数 ( 1 , n 2 ) (1,\frac{n}{2}) (1,2n) 1 μ \frac{1}{\mu} μ1-光滑逼近.

例12 (绝对值函数的光滑逼近) 我们再来考虑绝对值函数 h ( x ) = ∣ x ∣ h(x)=|x| h(x)=x. 到现在为止我们已经讨论了 h h h的三种 1 μ \frac{1}{\mu} μ1-光滑逼近:

  • 例5: h μ 1 ( x ) = x 2 + μ 2 − μ ,   ( α , β ) = ( 1 , 1 ) h_{\mu}^1(x)=\sqrt{x^2+\mu^2}-\mu,\,(\alpha,\beta)=(1,1) hμ1(x)=x2+μ2 μ,(α,β)=(1,1);
  • 例9: h μ 2 ( x ) = μ log ⁡ ( e x / μ + e − x / μ ) − μ log ⁡ 2 ,   ( α , β ) = ( 1 , log ⁡ 2 ) h_{\mu}^2(x)=\mu\log(e^{x/\mu}+e^{-x/\mu})-\mu\log 2,\,(\alpha,\beta)=(1,\log 2) hμ2(x)=μlog(ex/μ+ex/μ)μlog2,(α,β)=(1,log2);
  • 例10: h μ 3 ( x ) = H μ ( x ) ,   ( α , β ) = ( 1 , 1 2 ) h_{\mu}^3(x)=H_{\mu}(x),\,(\alpha,\beta)=(1,\frac{1}{2}) hμ3(x)=Hμ(x),(α,β)=(1,21).

三者的 α \alpha α参数相同; 相比之下 h μ 3 h_{\mu}^3 hμ3 β \beta β最小. 所以Huber函数时这三者中最好的 1 μ \frac{1}{\mu} μ1-光滑逼近. 这从图像上也可以看出(下图是 μ = 0.2 \mu=0.2 μ=0.2的情形).

在这里插入图片描述

8.4 S-FISTA

现在, 我们考虑模型问题 min ⁡ x ∈ E { H ( x ) ≡ f ( x ) + h ( x ) + g ( x ) } . \min_{\mathbf{x}\in\mathbb{E}}\{H(\mathbf{x})\equiv f(\mathbf{x})+h(\mathbf{x})+g(\mathbf{x})\}. xEmin{H(x)f(x)+h(x)+g(x)}.我们对其做如下假设:

假设条件3
(i) f : E → R f:\mathbb{E}\to\mathbb{R} f:ER L f L_f Lf-光滑函数 ( L f > 0 ) (L_f>0) (Lf>0);
(ii) h : E → R h:\mathbb{E}\to\mathbb{R} h:ER ( α , β ) (\alpha,\beta) (α,β)-可光滑函数 ( α , β > 0 ) (\alpha,\beta>0) (α,β>0). 对 ∀ μ > 0 \forall\mu>0 μ>0, h μ h_{\mu} hμ表示 h h h对参数 ( α , β ) (\alpha,\beta) (α,β) 1 μ \frac{1}{\mu} μ1-光滑逼近;
(iii) g : E → ( − ∞ , ∞ ] g:\mathbb{E}\to(-\infty,\infty] g:E(,]是正常闭凸函数;
(iv) H H H水平集有界: 对 ∀ δ > 0 \forall\delta>0 δ>0, 存在 R δ > 0 R_{\delta}>0 Rδ>0使得 ∥ x ∥ ≤ R δ , ∀ x : H ( x ) ≤ δ . \Vert\mathbf{x}\Vert\le R_{\delta},\quad\forall\mathbf{x}:H(\mathbf{x})\le\delta. xRδ,x:H(x)δ.(v) 问题最优解集非空, 记为 X ∗ X^* X; 最优值记为 H o p t H_{\mathrm{opt}} Hopt5.

S-FISTA的思想就是对光滑化的模型 ( μ > 0 ) (\mu>0) (μ>0) min ⁡ x ∈ E { H μ ( x ) ≡ f ( x ) + h μ ( x ) ⏟ F μ ( x ) + g ( x ) } \min_{\mathbf{x}\in\mathbb{E}}\{H_{\mu}(\mathbf{x})\equiv \underbrace{f(\mathbf{x})+h_{\mu}(\mathbf{x})}_{F_{\mu}(\mathbf{x})}+g(\mathbf{x})\} xEmin{Hμ(x)Fμ(x) f(x)+hμ(x)+g(x)}应用FISTA. 实际上, 利用任何一种收敛速度为 O ( 1 / k 2 ) O(1/k^2) O(1/k2)的加速方法都是可以的, 而我们仅考虑带常值步长的FISTA. 注意到 F μ F_{\mu} Fμ的Lipschitz常数为 L f + α μ L_f+\frac{\alpha}{\mu} Lf+μα, 因此步长取为 1 L f + α μ \frac{1}{L_f+\frac{\alpha}{\mu}} Lf+μα1.

在这里插入图片描述
下面的结果表明, 给定精度 ϵ > 0 \epsilon>0 ϵ>0, 我们可以选取光滑参数 μ \mu μ使得S-FISTA的复杂度为 O ( 1 / ϵ ) O(1/\epsilon) O(1/ϵ).

定理20 (S-FISTA的 O ( 1 / ϵ ) O(1/\epsilon) O(1/ϵ)复杂度) 假定加假设条件3成立. 设 ϵ ∈ ( 0 , ϵ ˉ ) ,   ϵ ˉ > 0 \epsilon\in(0,\bar\epsilon),\,\bar\epsilon>0 ϵ(0,ϵˉ),ϵˉ>0. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0是由S-FISTA生成的迭代序列, 其中光滑参数6 μ = α β ϵ α β + α β + L f ϵ . \mu=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}. μ=βα αβ +αβ+Lfϵ ϵ.则若 k ≥ 2 2 α β Γ 1 ϵ + 2 L f Γ 1 ϵ , k\ge2\sqrt{2\alpha\beta\Gamma}\frac{1}{\epsilon}+\sqrt{2L_f\Gamma}\frac{1}{\sqrt{\epsilon}}, k22αβΓ ϵ1+2LfΓ ϵ 1,其中 Γ = ( R H ( x 0 ) + ϵ ˉ 2 + ∥ x 0 ∥ ) 2 \Gamma=\left(R_{H(\mathbf{x}^0)+\frac{\bar\epsilon}{2}}+\Vert\mathbf{x}^0\Vert\right)^2 Γ=(RH(x0)+2ϵˉ+x0)2, 就有 H ( x k ) − H o p t ≤ ϵ H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon H(xk)Hoptϵ.

证明: 由S-FISTA的定义, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0是将FISTA应用于 ( F μ , g , x 0 ) (F_{\mu},g,\mathbf{x}^0) (Fμ,g,x0)上得到的迭代序列. 注意到 arg ⁡ min ⁡ x ∈ E H μ ( x ) = arg ⁡ min ⁡ x ∈ E { H μ ( x ) : H μ ( x ) ≤ H μ ( x 0 ) } . \arg\min_{\mathbf{x}\in\mathbb{E}}H_{\mu}(\mathbf{x})=\arg\min_{\mathbf{x}\in\mathbb{E}}\{H_{\mu}(\mathbf{x}):H_{\mu}(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)\}. argxEminHμ(x)=argxEmin{Hμ(x):Hμ(x)Hμ(x0)}.因为 H μ H_{\mu} Hμ是闭函数, 因此右端问题的可行集 C ≡ { x ∈ E : H μ ( x ) ≤ H μ ( x 0 ) } C\equiv\{\mathbf{x}\in\mathbb{E}:H_{\mu}(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)\} C{xE:Hμ(x)Hμ(x0)}是闭集. 下面我们证明它也是有界集. 事实上, 由于 h μ h_{\mu} hμ h h h对参数 ( α , β ) (\alpha,\beta) (α,β) 1 μ \frac{1}{\mu} μ1-光滑逼近, 因此 h ( x ) ≤ h μ ( x ) + β μ ,   ∀ x ∈ E ⇒ H ( x ) ≤ H μ ( x ) + β μ ,   ∀ x ∈ E h(\mathbf{x})\le h_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E}\Rightarrow H(\mathbf{x})\le H_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E} h(x)hμ(x)+βμ,xEH(x)Hμ(x)+βμ,xE. 因此 C ⊂ { x ∈ E : H ( x ) ≤ H μ ( x 0 ) + β μ } , C\subset\{\mathbf{x}\in\mathbb{E}:H(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)+\beta\mu\}, C{xE:H(x)Hμ(x0)+βμ},这结合假设条件3的(iv)即得 C C C是有界集, 从而是紧集. 根据闭函数的Weierstrass定理, H μ H_{\mu} Hμ就可在某个 x μ ∗ \mathbf{x}_{\mu}^* xμ取到极小. 记最优值为 H μ , o p t H_{\mu,\mathrm{opt}} Hμ,opt. 由定理14, 由 F μ F_{\mu} Fμ ( L f + α μ ) (L_f+\frac{\alpha}{\mu}) (Lf+μα)-光滑函数, 就有 H μ ( x k ) − H μ , o p t ≤ 2 ( L f + α μ ) ∥ x 0 − x μ ∗ ∥ 2 ( k + 1 ) 2 = 2 ( L f + α μ ) Λ ( k + 1 ) 2 , H_{\mu}(\mathbf{x}^k)-H_{\mu,\mathrm{opt}}\le2\left(L_f+\frac{\alpha}{\mu}\right)\frac{\Vert\mathbf{x}^0-\mathbf{x}_{\mu}^*\Vert^2}{(k+1)^2}=2\left(L_f+\frac{\alpha}{\mu}\right)\frac{\Lambda}{(k+1)^2}, Hμ(xk)Hμ,opt2(Lf+μα)(k+1)2x0xμ2=2(Lf+μα)(k+1)2Λ,其中 Λ = ∥ x 0 − x μ ∗ ∥ 2 \Lambda=\Vert\mathbf{x}^0-\mathbf{x}_{\mu}^*\Vert^2 Λ=x0xμ2. 再次由 h μ h_{\mu} hμ的逼近性质, 对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} xE, H μ ( x ) ≤ H ( x ) ≤ H μ ( x ) + β μ . H_{\mu}(\mathbf{x})\le H(\mathbf{x})\le H_{\mu}(\mathbf{x})+\beta\mu. Hμ(x)H(x)Hμ(x)+βμ.特别地, 可以推出 H o p t ≥ H μ , o p t , H ( x k ) ≤ H μ ( x k ) + β μ ,   k = 0 , 1 , … . H_{\mathrm{opt}}\ge H_{\mu,\mathrm{opt}},\quad H(\mathbf{x}^k)\le H_{\mu}(\mathbf{x}^k)+\beta\mu,\,k=0,1,\ldots. HoptHμ,opt,H(xk)Hμ(xk)+βμ,k=0,1,.所以 H ( x k ) − H o p t ≤ H μ ( x k ) + β μ − H μ , o p t ≤ 2 L f Λ ( k + 1 ) 2 + 2 α Λ ( k + 1 ) 2 1 μ + β μ ≤ 2 L f Λ k 2 + ( 2 α Λ k 2 ) 1 μ + β μ . \begin{aligned}H(\mathbf{x}^k)-H_{\mathrm{opt}}&\le H_{\mu}(\mathbf{x}^k)+\beta\mu-H_{\mu,\mathrm{opt}}\le2L_f\frac{\Lambda}{(k+1)^2}+\frac{2\alpha\Lambda}{(k+1)^2}\frac{1}{\mu}+\beta\mu\\&\le2L_f\frac{\Lambda}{k^2}+\left(\frac{2\alpha\Lambda}{k^2}\right)\frac{1}{\mu}+\beta\mu.\end{aligned} H(xk)HoptHμ(xk)+βμHμ,opt2Lf(k+1)2Λ+(k+1)22αΛμ1+βμ2Lfk2Λ+(k22αΛ)μ1+βμ.因此对于一给定 K > 0 K>0 K>0, 对 ∀ k ≥ K \forall k\ge K kK, 均有 H ( x k ) − H o p t ≤ 2 L f Λ K 2 + ( 2 α Λ K 2 ) 1 μ + β μ . H(\mathbf{x}^k)-H_{\mathrm{opt}}\le 2L_f\frac{\Lambda}{K^2}+\left(\frac{2\alpha\Lambda}{K^2}\right)\frac{1}{\mu}+\beta\mu. H(xk)Hopt2LfK2Λ+(K22αΛ)μ1+βμ.上式中, 有两个参数未定: μ , Λ \mu,\Lambda μ,Λ.

  • 确定 μ \mu μ: 由于上式对 ∀ μ > 0 \forall\mu>0 μ>0都成立, 所以可对右端对 μ \mu μ求最小, 得到 μ = 2 α Λ β 1 K . \mu=\sqrt{\frac{2\alpha\Lambda}{\beta}}\frac{1}{K}. μ=β2αΛ K1.代入可得 H ( x k ) − H o p t ≤ 2 L f Λ K 2 + 2 2 α β Λ 1 K . H(\mathbf{x}^k)-H_{\mathrm{opt}}\le 2L_f\frac{\Lambda}{K^2}+2\sqrt{2\alpha\beta\Lambda}\frac{1}{K}. H(xk)Hopt2LfK2Λ+22αβΛ K1.因此, 为使 x k \mathbf{x}^k xk ϵ \epsilon ϵ-最优解 ( ∀ k ≥ K ) (\forall k\ge K) (kK), 只需 2 L f Λ K 2 + 2 2 α β Λ 1 K ≤ ϵ . 2L_f\frac{\Lambda}{K^2}+2\sqrt{2\alpha\beta\Lambda}\frac{1}{K}\le\epsilon. 2LfK2Λ+22αβΛ K1ϵ. t = 2 Λ K t=\frac{\sqrt{2\Lambda}}{K} t=K2Λ , 则上式变成 L f t 2 + 2 α β t − ϵ ≤ 0 , L_ft^2+2\sqrt{\alpha\beta}t-\epsilon\le0, Lft2+2αβ tϵ0,因为 t > 0 t>0 t>0, 所以等价于 2 Λ K = t ≤ − α β + α β + L f ϵ L f = ϵ α β + α β + L f ϵ . \frac{\sqrt{2\Lambda}}{K}=t\le\frac{-\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}{L_f}=\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}. K2Λ =tLfαβ +αβ+Lfϵ =αβ +αβ+Lfϵ ϵ.因此只需 K K K满足 K ≥ 2 Λ α β + 2 Λ α β + 2 Λ L f ϵ ϵ . K\ge\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}. Kϵ2Λαβ +2Λαβ+2ΛLfϵ .特别地, 记 K = K 1 ≡ 2 Λ α β + 2 Λ α β + 2 Λ L f ϵ ϵ , K=K_1\equiv\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}, K=K1ϵ2Λαβ +2Λαβ+2ΛLfϵ ,从而 μ \mu μ μ = 2 α Λ β 1 K 1 = α β ϵ α β + α β + L f ϵ ≤ α β ϵ α β + α β ≤ ϵ ˉ 2 β . \mu=\sqrt{\frac{2\alpha\Lambda}{\beta}}\frac{1}{K_1}=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}\le\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta}}\le\frac{\bar\epsilon}{2\beta}. μ=β2αΛ K11=βα αβ +αβ+Lfϵ ϵβα αβ +αβ ϵ2βϵˉ.
  • 确定 Λ \Lambda Λ: 由上述推导可得当 k ≥ K 1 k\ge K_1 kK1时, H ( x k ) − H o p t ≤ ϵ H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon H(xk)Hoptϵ. 由 H , H μ H,H_{\mu} H,Hμ的关系进一步可得 H ( x μ ∗ ) − β μ ≤ H μ ( x μ ∗ ) = H μ , o p t ≤ H o p t ≤ H ( x 0 ) ⇒ H ( x μ ∗ ) ≤ H ( x 0 ) + ϵ ˉ 2 . H(\mathbf{x}_{\mu}^*)-\beta\mu\le H_{\mu}(\mathbf{x}_{\mu}^*)=H_{\mu,\mathrm{opt}}\le H_{\mathrm{opt}}\le H(\mathbf{x}^0)\Rightarrow H(\mathbf{x}_{\mu}^*)\le H(\mathbf{x}^0)+\frac{\bar\epsilon}{2}. H(xμ)βμHμ(xμ)=Hμ,optHoptH(x0)H(xμ)H(x0)+2ϵˉ.由假设条件3(iv), ∥ x μ ∗ ∥ ≤ R δ \Vert\mathbf{x}_{\mu}^*\Vert\le R_{\delta} xμRδ, 其中 δ = H ( x 0 ) + ϵ ˉ 2 \delta=H(\mathbf{x}^0)+\frac{\bar\epsilon}{2} δ=H(x0)+2ϵˉ. 因此 Λ = ∥ x μ ∗ − x 0 ∥ 2 ≤ ( R δ + ∥ x 0 ∥ ) 2 = Γ \Lambda=\Vert\mathbf{x}_{\mu}^*-\mathbf{x}^0\Vert^2\le(R_{\delta}+\Vert\mathbf{x}^0\Vert)^2=\Gamma Λ=xμx02(Rδ+x0)2=Γ. 最后再考虑 K 1 K_1 K1中的 Λ \Lambda Λ: K 1 = 2 Λ α β + 2 Λ α β + 2 Λ L f ϵ ϵ ≤ 2 2 Λ α β + 2 Λ L f ϵ ϵ   ( γ + δ ≤ γ + δ ,   ∀ γ , δ ≥ 0 ) ≤ 2 2 Γ α β + 2 Γ L f ϵ ϵ ≡ K 2 . \begin{aligned}K_1&=\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}\\ &\le\frac{2\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda L_f\epsilon}}{\epsilon}\,(\sqrt{\gamma+\delta}\le\sqrt{\gamma}+\sqrt{\delta},\,\forall\gamma,\delta\ge0)\\ &\le\frac{2\sqrt{2\Gamma\alpha\beta}+\sqrt{2\Gamma L_f\epsilon}}{\epsilon}\\ &\equiv K_2.\end{aligned} K1=ϵ2Λαβ +2Λαβ+2ΛLfϵ ϵ22Λαβ +2ΛLfϵ (γ+δ γ +δ ,γ,δ0)ϵ22Γαβ +2ΓLfϵ K2.所以对 ∀ k ≥ K 2 \forall k\ge K_2 kK2, 都有 H ( x k ) − H o p t ≤ ϵ H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon H(xk)Hoptϵ. 得证.

例13 考虑问题 min ⁡ x ∈ E { h ( x ) : x ∈ C } , \min_{\mathbf{x}\in\mathbb{E}}\{h(\mathbf{x}):\mathbf{x}\in C\}, xEmin{h(x):xC},其中 C C C为非空闭凸集, h : E → R h:\mathbb{E}\to\mathbb{R} h:ER为凸 ℓ h \ell_h h-Lipschitz函数. 此问题是本节讨论模型中 f ≡ 0 ,   g = δ C f\equiv0,\,g=\delta_C f0,g=δC时的特例. 由定理19, 对 ∀ μ > 0 \forall\mu>0 μ>0, Moreau包络 M h μ M_h^{\mu} Mhμ h h h对参数 ( α , β ) = ( 1 , ℓ h 2 2 ) (\alpha,\beta)=(1,\frac{\ell_h^2}{2}) (α,β)=(1,2h2) 1 μ \frac{1}{\mu} μ1-光滑逼近. 另外, 根据第六章定理22, ∇ M h μ ( x ) = 1 μ ( x − p r o x μ h ( x ) ) \nabla M_h^{\mu}(\mathbf{x})=\frac{1}{\mu}(\mathbf{x}-\mathrm{prox}_{\mu h}(\mathbf{x})) Mhμ(x)=μ1(xproxμh(x)). 所以我们取 h μ = M h μ h_{\mu}=M_h^{\mu} hμ=Mhμ, 从而 F μ = f + h μ = M h μ F_{\mu}=f+h_{\mu}=M_h^{\mu} Fμ=f+hμ=Mhμ. 由定理20, 注意到 L f = 0 L_f=0 Lf=0, 令 μ = α β ϵ α β + α β + L f ϵ = α β ϵ α β + α β = ϵ 2 β = ϵ ℓ h 2 , \mu=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta}}=\frac{\epsilon}{2\beta}=\frac{\epsilon}{\ell_h^2}, μ=βα αβ +αβ+Lfϵ ϵ=βα αβ +αβ ϵ=2βϵ=h2ϵ,则经过量阶为 O ( 1 / ϵ ) O(1/\epsilon) O(1/ϵ)次迭代后, S-FISTA即可得到 ϵ \epsilon ϵ-最优解. 此处步长为 1 L ~ \frac{1}{\tilde L} L~1, 其中 L ~ = α μ = 1 μ \tilde L=\frac{\alpha}{\mu}=\frac{1}{\mu} L~=μα=μ1. S-FISTA的主要更新格式为 x k + 1 = p r o x 1 L ~ g ( y k − 1 L ~ ∇ F μ ( y k ) ) = P C ( y k − 1 L ~ μ ( y k − p r o x μ h ( y k ) ) ) = P C ( p r o x μ h ( y k ) ) . \begin{aligned}\mathbf{x}^{k+1}&=\mathrm{prox}_{\frac{1}{\tilde L}g}\left(\mathbf{y}^k-\frac{1}{\tilde L}\nabla F_{\mu}(\mathbf{y}^k)\right)=P_C\left(\mathbf{y}^k-\frac{1}{\tilde L\mu}(\mathbf{y}^k-\mathrm{prox}_{\mu h}(\mathbf{y}^k))\right)\\&=P_C(\mathrm{prox}_{\mu h}(\mathbf{y}^k)).\end{aligned} xk+1=proxL~1g(ykL~1Fμ(yk))=PC(ykL~μ1(ykproxμh(yk)))=PC(proxμh(yk)).此时S-FISTA变成:

在这里插入图片描述
例14 考虑问题 ( P ) min ⁡ x ∈ R n { 1 2 ∥ A x − b ∥ 2 2 + ∥ D x ∥ 1 + λ ∥ x ∥ 1 } , (\text{P})\quad\min_{\mathbf{x}\in\mathbb{R}^n}\left\{\frac{1}{2}\Vert\mathbf{Ax-b}\Vert^2_2+\Vert\mathbf{Dx}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\right\}, (P)xRnmin{21Axb22+Dx1+λx1},其中 A ∈ R m × n ,   b ∈ R m ,   D ∈ R p × n ,   λ > 0 \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\mathbf{D}\in\mathbb{R}^{p\times n},\,\lambda>0 ARm×n,bRm,DRp×n,λ>0. 问题 ( P ) (\text{P}) (P)相当于本节模型中 f ( x ) = 1 2 ∥ A x − b ∥ 2 2 ,   h ( x ) = ∥ D x ∥ 1 ,   g ( x ) = λ ∥ x ∥ 1 f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2,\,h(\mathbf{x})=\Vert\mathbf{Dx}\Vert_1,\,g(\mathbf{x})=\lambda\Vert\mathbf{x}\Vert_1 f(x)=21Axb22,h(x)=Dx1,g(x)=λx1. 易知 f f f是凸函数且 L f L_f Lf-光滑 ( L f = ∥ A T A ∥ 2 , 2 = ∥ A ∥ 2 , 2 2 ) (L_f=\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}=\Vert\mathbf{A}\Vert_{2,2}^2) (Lf=ATA2,2=A2,22), g g g正常闭凸, h h h实值凸且目标函数的水平集是有界的. 因此假设条件3成立. 注意到 h ( x ) = q ( D x ) h(\mathbf{x})=q(\mathbf{Dx}) h(x)=q(Dx), 其中 q : R p → R q:\mathbb{R}^p\to\mathbb{R} q:RpR定义为 q ( y ) = ∥ y ∥ 1 q(\mathbf{y})=\Vert\mathbf{y}\Vert_1 q(y)=y1. 由例11, 对 ∀ μ > 0 \forall\mu>0 μ>0, q μ ( y ) = M q μ ( y ) = ∑ i = 1 p H μ ( y i ) q_{\mu}(\mathbf{y})=M_q^{\mu}(\mathbf{y})=\sum_{i=1}^pH_{\mu}(y_i) qμ(y)=Mqμ(y)=i=1pHμ(yi) q q q对参数 ( 1 , p 2 ) (1,\frac{p}{2}) (1,2p) 1 μ \frac{1}{\mu} μ1-光滑逼近. 再由定理18(ii), q μ ( D x ) q_{\mu}(\mathbf{Dx}) qμ(Dx)就是 h h h对参数 ( α , β ) = ( ∥ D ∥ 2 , 2 2 , p 2 ) (\alpha,\beta)=(\Vert\mathbf{D}\Vert_{2,2}^2,\frac{p}{2}) (α,β)=(D2,22,2p) 1 μ \frac{1}{\mu} μ1-光滑逼近.

h μ ( x ) = M q μ ( D x ) ,   F μ ( x ) = f ( x ) + h μ ( x ) h_{\mu}(\mathbf{x})=M_q^{\mu}(\mathbf{Dx}),\,F_{\mu}(\mathbf{x})=f(\mathbf{x})+h_{\mu}(\mathbf{x}) hμ(x)=Mqμ(Dx),Fμ(x)=f(x)+hμ(x). 由定理20, 令 μ = α β ϵ α β + α β + L f ϵ = 2 ∥ D ∥ 2 , 2 p ⋅ ϵ ∥ D ∥ 2 , 2 2 p + ∥ D ∥ 2 , 2 2 p + 2 ∥ A T A ∥ 2 , 2 ϵ . \begin{aligned}\mu&=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}\\&=\frac{2\Vert\mathbf{D}\Vert_{2,2}}{\sqrt{p}}\cdot\frac{\epsilon}{\sqrt{\Vert\mathbf{D}\Vert_{2,2}^2p}+\sqrt{\Vert\mathbf{D}\Vert_{2,2}^2p+2\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}\epsilon}}.\end{aligned} μ=βα αβ +αβ+Lfϵ ϵ=p 2D2,2D2,22p +D2,22p+2ATA2,2ϵ ϵ.此时 ∇ F μ ( x ) = ∇ f ( x ) + D T ∇ M q μ ( D x ) = ∇ f ( x ) + 1 μ D T ( D x − p r o x μ q ( D x ) ) = ∇ f ( x ) + 1 μ D T ( D x − T μ ( D x ) ) . \begin{aligned}\nabla F_{\mu}(\mathbf{x})&=\nabla f(\mathbf{x})+\mathbf{D}^T\nabla M_q^{\mu}(\mathbf{Dx})\\&=\nabla f(\mathbf{x})+\frac{1}{\mu}\mathbf{D}^T(\mathbf{Dx}-\mathrm{prox}_{\mu q}(\mathbf{Dx}))\\&=\nabla f(\mathbf{x})+\frac{1}{\mu}\mathbf{D}^T(\mathbf{Dx}-\mathcal{T}_{\mu}(\mathbf{Dx})).\end{aligned} Fμ(x)=f(x)+DTMqμ(Dx)=f(x)+μ1DT(Dxproxμq(Dx))=f(x)+μ1DT(DxTμ(Dx)).此时S-FISTA变成:

在这里插入图片描述
注意问题 ( P ) (\text{P}) (P)由于其特殊结构, 实际上让我们能够确切地算出定理20中出现的常数 Γ \Gamma Γ. 事实上, 若 H ( x ) ≤ α H(\mathbf{x})\le\alpha H(x)α, 则 λ ∥ x ∥ 2 ≤ λ ∥ x ∥ 1 ≤ 1 2 ∥ A x − b ∥ 2 2 + ∥ D x ∥ 1 + λ ∥ x ∥ 1 ≤ α , \lambda\Vert\mathbf{x}\Vert_2\le\lambda\Vert\mathbf{x}\Vert_1\le\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_{2}^2+\Vert\mathbf{Dx}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\le\alpha, λx2λx121Axb22+Dx1+λx1α,因此 R α R_{\alpha} Rα可以取为 α λ \frac{\alpha}{\lambda} λα, 进一步就可以计算出 Γ \Gamma Γ.

9. 非欧情形下的临近梯度法

本节, 我们讨论空间不是欧式空间的情形. 我们考虑两种处理方法, 它们分别针对不同形式的问题:

  1. 利用梯度下降法的变体, 求解光滑无约束问题;
  2. 基于Bregman距离(见第九章定义1), 修改PGM, 求解组合问题.

9.1 非欧梯度下降法

考虑无约束问题 min ⁡ { f ( x ) : x ∈ E } , \min\{f(\mathbf{x}):\mathbf{x}\in\mathbb{E}\}, min{f(x):xE},其中我们假设 f f f对于所处空间的范数是 L f L_f Lf-光滑的.

首先我们回忆以下梯度下降法, 其迭代格式为 x k + 1 = x k − t k ∇ f ( x k ) . \mathbf{x}^{k+1}=\mathbf{x}^k-t_k\nabla f(\mathbf{x}^k). xk+1=xktkf(xk).正如我们在上一章讨论的, 在非欧空间中使用这一格式存在逻辑上的问题: x k ∈ E ,   ∇ f ( x k ) ∈ E ∗ \mathbf{x}^k\in\mathbb{E},\,\nabla f(\mathbf{x}^k)\in\mathbb{E}^* xkE,f(xk)E. 注意到 E , E ∗ \mathbb{E},\mathbb{E}^* E,E在元素上是一一对应的7, 因此我们在使用上述格式时, 完全可以把 ∇ f ( x k ) \nabla f(\mathbf{x}^k) f(xk)当做其在 E \mathbb{E} E中的对应(这个对应不一定好找), 代入后再去运算. 但是这里, 我们考虑将上式中的 ∇ f ( x k ) \nabla f(\mathbf{x}^k) f(xk)替换成其在 E \mathbb{E} E中的“原始对等元(primal counterpart)”. 我们先给出原始对等元的定义: 对 ∀ a ∈ E ∗ \forall\mathbf{a}\in\mathbb{E}^* aE, a \mathbf{a} a的原始对等元(集合)为 Λ a = arg ⁡ max ⁡ v ∈ E { ⟨ a , v ⟩ : ∥ v ∥ ≤ 1 } . \Lambda_{\mathbf{a}}=\arg\max_{\mathbf{v}\in\mathbb{E}}\{\langle\mathbf{a,v}\rangle:\Vert\mathbf{v}\Vert\le1\}. Λa=argvEmax{a,v:v1}.下面的引理列出了 Λ a \Lambda_{\mathbf{a}} Λa的一些基本性质. 它们都可以由原始对等元及对偶范数的定义推出.

引理7 (原始对等元集合的性质) 设 a ∈ E ∗ \mathbf{a}\in\mathbb{E}^* aE.
(i) 若 a ≠ 0 \mathbf{a\ne0} a=0, 则 ∥ a † ∥ = 1 ,   ∀ a † ∈ Λ a \Vert\mathbf{a}^{\dagger}\Vert=1,\,\forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} a=1,aΛa;
(ii) 若 a = 0 \mathbf{a=0} a=0, 则 Λ a = B ∥ ⋅ ∥ [ 0 , 1 ] \Lambda_{\mathbf{a}}=B_{\Vert\cdot\Vert}[\mathbf{0},1] Λa=B[0,1];
(iii) ⟨ a , a † ⟩ = ∥ a ∥ ∗ ,   ∀ a † ∈ Λ a \langle\mathbf{a},\mathbf{a}^{\dagger}\rangle=\Vert\mathbf{a}\Vert_*,\,\forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} a,a=a,aΛa;
(iv) Λ a = ∂ h ( a ) \Lambda_{\mathbf{a}}=\partial h(\mathbf{a}) Λa=h(a),其中 h ( ⋅ ) = ∥ ⋅ ∥ ∗ h(\cdot)=\Vert\cdot\Vert_* h()=.

证明: 由对偶范数的定义即得(iii)成立. 若 a = 0 \mathbf{a=0} a=0, 则 ⟨ a , v ⟩ ≡ 0 ,   ∀ v : ∥ v ∥ ≤ 1 \langle\mathbf{a,v}\rangle\equiv0,\,\forall\mathbf{v}:\Vert\mathbf{v}\Vert\le1 a,v0,v:v1. 因此必然有 Λ a = B ∥ ⋅ ∥ [ 0 , 1 ] \Lambda_{\mathbf{a}}=B_{\Vert\cdot\Vert}[\mathbf{0},1] Λa=B[0,1]; 若 a ≠ 0 \mathbf{a\ne0} a=0, 假设 ∥ a † ∥ ≤ 1 ,   ∃ a † ∈ Λ a \Vert\mathbf{a}^{\dagger}\Vert\le1,\,\exists\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} a1,aΛa. 则 ∥ a ∥ ∗ = ⟨ a , a † ⟩ ≤ ∥ a ∥ ∗ ∥ a † ∥ < ∥ a ∥ ∗ \Vert\mathbf{a}\Vert_*=\langle\mathbf{a},\mathbf{a}^{\dagger}\rangle\le\Vert\mathbf{a}\Vert_*\Vert\mathbf{a}^{\dagger}\Vert<\Vert\mathbf{a}\Vert_* a=a,aaa<a, 矛盾. 所以(i),(ii)得证. (iv)是共轭次梯度定理(第四章定理12)的推论. 注意由第四章4.12节, 我们有 h ∗ ( v ) = δ B ∥ ⋅ ∥ [ 0 , 1 ] ( v ) . h^*(\mathbf{v})=\delta_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{v}). h(v)=δB[0,1](v).因此对 ∀ a † ∈ Λ a \forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} aΛa, 由(iii), ⟨ a , a † ⟩ = h ( a ) + δ B ∥ ⋅ ∥ [ 0 , 1 ] ( a † ) = h ( a ) + h ∗ ( a † ) . \langle\mathbf{a},\mathbf{a}^{\dagger}\rangle=h(\mathbf{a})+\delta_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{a}^{\dagger})=h(\mathbf{a})+h^*(\mathbf{a}^{\dagger}). a,a=h(a)+δB[0,1](a)=h(a)+h(a).所以 a † ∈ ∂ h ( a ) \mathbf{a}^{\dagger}\in\partial h(\mathbf{a}) ah(a). 由 a † ∈ Λ a \mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}} aΛa的任意性, 就有 Λ a = ∂ h ( a ) \Lambda_{\mathbf{a}}=\partial h(\mathbf{a}) Λa=h(a).

例15 E = R n \mathbb{E}=\mathbb{R}^n E=Rn中的范数为欧式 ℓ 2 \ell_2 2-范数. 此时对 ∀ a ≠ 0 \forall\mathbf{a\ne0} a=0, 由引理7的(iv), Λ a = { a ∥ a ∥ 2 } . \Lambda_{\mathbf{a}}=\left\{\frac{\mathbf{a}}{\Vert\mathbf{a}\Vert_2}\right\}. Λa={a2a}.

例16 E = R n \mathbb{E}=\mathbb{R}^n E=Rn中的范数为 ℓ 1 \ell_1 1-范数. 此时对 ∀ a ≠ 0 \forall\mathbf{a\ne0} a=0, 根据第三章例18, Λ a = ∂ ∥ ⋅ ∥ ∞ ( a ) = { ∑ i ∈ I ( a ) λ i s g n ( a i ) e i : ∑ i ∈ I ( a ) λ i = 1 ,   λ j ≥ 0 ,   j ∈ I ( a ) } , \Lambda_{\mathbf{a}}=\partial\Vert\cdot\Vert_{\infty}(\mathbf{a})=\left\{\sum_{i\in I(\mathbf{a})}\lambda_i\mathrm{sgn}(a_i)\mathbf{e}_i:\sum_{i\in I(\mathbf{a})}\lambda_i=1,\,\lambda_j\ge0,\,j\in I(\mathbf{a})\right\}, Λa=(a)=iI(a)λisgn(ai)ei:iI(a)λi=1,λj0,jI(a),其中 I ( a ) = arg ⁡ max ⁡ i = 1 , 2 , … , n ∣ a i ∣ I(\mathbf{a})=\arg\max_{i=1,2,\ldots,n}|a_i| I(a)=argmaxi=1,2,,nai.

例17 E = R n \mathbb{E}=\mathbb{R}^n E=Rn中的范数为 ℓ ∞ \ell_{\infty} -范数. 则对 ∀ a ≠ 0 \forall\mathbf{a\ne0} a=0, 根据第三章例11, Λ a = ∂ ∥ ⋅ ∥ 1 ( a ) = { z ∈ R n : z i = s g n ( a i ) ,   i ∈ I ≠ ( a ) ;   ∣ z j ∣ ≤ 1 ,   j ∈ I 0 ( a ) } , \Lambda_{\mathbf{a}}=\partial\Vert\cdot\Vert_1(\mathbf{a})=\left\{\mathbf{z}\in\mathbb{R}^n:z_i=\mathrm{sgn}(a_i),\,i\in I_{\ne}(\mathbf{a});\,|z_j|\le1,\,j\in I_0(\mathbf{a})\right\}, Λa=1(a)={zRn:zi=sgn(ai),iI=(a);zj1,jI0(a)},其中 I ≠ ( a ) = { i ∈ { 1 , 2 , … , n } : a i ≠ 0 } ,   I 0 ( a ) = { i ∈ { 1 , 2 , … , n } : a i = 0 } . I_{\ne}(\mathbf{a})=\{i\in\{1,2,\ldots,n\}:a_i\ne0\},\,I_0(\mathbf{a})=\{i\in\{1,2,\ldots,n\}:a_i=0\}. I=(a)={i{1,2,,n}:ai=0},I0(a)={i{1,2,,n}:ai=0}.

所谓的非欧梯度下降法, 实际就是把梯度下降法中的 ∇ f ( x k ) \nabla f(\mathbf{x}^k) f(xk)替换成某个 ∇ f ( x k ) † ∈ Λ ∇ f ( x k ) \nabla f(\mathbf{x}^k)^{\dagger}\in\Lambda_{\nabla f(\mathbf{x}^k)} f(xk)Λf(xk).

在这里插入图片描述
我们先证明非欧梯度下降法的充分下降引理. 其过程基本与引理1相同.

引理8 (非欧梯度下降法的充分下降引理) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER为一 L f L_f Lf-光滑函数, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由非欧梯度下降法生成的迭代序列. 则对 ∀ k ≥ 0 \forall k\ge0 k0, f ( x k ) − f ( x k + 1 ) ≥ L k − L f 2 L k 2 ∥ ∇ f ( x k ) ∥ ∗ 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge\frac{L_k-\frac{L_f}{2}}{L_k^2}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2. f(xk)f(xk+1)Lk2Lk2Lff(xk)2.

证明: 由 L f L_f Lf-光滑函数的下降引理, f ( x k + 1 ) ≤ f ( x k ) + ⟨ ∇ f ( x k ) , x k + 1 − x k ⟩ + L f 2 ∥ x k + 1 − x k ∥ 2 = f ( x k ) − ∥ ∇ f ( x k ) ∥ ∗ L k ⟨ ∇ f ( x k ) , ∇ f ( x k ) † ⟩ + L f ∥ ∇ f ( x k ) ∥ ∗ 2 2 L k 2 = 引 理 7 ( iii ) f ( x k ) − ∥ ∇ f ( x k ) ∥ ∗ 2 L k + L f ∥ ∇ f ( x k ) ∥ ∗ 2 2 L k 2 = f ( x k ) − L k − L f 2 L k 2 ∥ ∇ f ( x k ) ∥ ∗ 2 . \begin{aligned}f(\mathbf{x}^{k+1})&\le f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}^{k+1}-\mathbf{x}^k\rangle+\frac{L_f}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2\\&=f(\mathbf{x}^k)-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_k}\langle\nabla f(\mathbf{x}^k),\nabla f(\mathbf{x}^k)^{\dagger}\rangle+\frac{L_f\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{2L_k^2}\\&\overset{引理7(\text{iii})}{=}f(\mathbf{x}^k)-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{L_k}+\frac{L_f\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{2L_k^2}\\&=f(\mathbf{x}^k)-\frac{L_k-\frac{L_f}{2}}{L_k^2}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2.\end{aligned} f(xk+1)f(xk)+f(xk),xk+1xk+2Lfxk+1xk2=f(xk)Lkf(xk)f(xk),f(xk)+2Lk2Lff(xk)2=7(iii)f(xk)Lkf(xk)2+2Lk2Lff(xk)2=f(xk)Lk2Lk2Lff(xk)2.

我们考虑三种步长准则: 常值、回溯、精确线搜索.

  • 常值: L k ≡ L ˉ ∈ ( L f 2 , ∞ ) ,   ∀ k L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right),\,\forall k LkLˉ(2Lf,),k;
  • 回溯B4: 输入参数 ( s , γ , η ) : s > 0 ,   γ ∈ ( 0 , 1 ) ,   η > 1 (s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1 (s,γ,η):s>0,γ(0,1),η>1. 按如下流程选取 L k L_k Lk:
    1. L k : = s L_k:=s Lk:=s;
    2. f ( x k ) − f ( x k − ∥ ∇ f ( x k ) ∥ ∗ L k ∇ f ( x k ) † ) < γ L k ∥ ∇ f ( x k ) ∥ ∗ 2 , f(\mathbf{x}^k)-f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_k}\nabla f(\mathbf{x}^k)^{\dagger}\right)<\frac{\gamma}{L_k}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2, f(xk)f(xkLkf(xk)f(xk))<Lkγf(xk)2, L k : = η L k L_k:=\eta L_k Lk:=ηLk.
      换句话说, L k L_k Lk选取为 L k = s η i k L_k=s\eta^{i_k} Lk=sηik, 其中 i k i_k ik为使 f ( x k ) − f ( x k − ∥ ∇ f ( x k ) ∥ ∗ ∥ s η i k ∇ f ( x k ) † ) ≥ γ s η i k ∥ ∇ f ( x k ) ∥ ∗ 2 f(\mathbf{x}^k)-f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*\Vert}{s\eta^{i_k}}\nabla f(\mathbf{x}^k)^{\dagger}\right)\ge\frac{\gamma}{s\eta^{i_k}}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2 f(xk)f(xksηikf(xk)f(xk))sηikγf(xk)2成立的最小非负整数.
  • 精确线搜索: L k ∈ arg ⁡ min ⁡ L > 0 f ( x k − ∥ ∇ f ( x k ) ∥ ∗ L ∇ f ( x k ) † ) L_k\in\arg\min_{L>0}f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L}\nabla f(\mathbf{x}^k)^{\dagger}\right) LkargminL>0f(xkLf(xk)f(xk)).

类似地, 我们可以证明回溯B4准则下步长的上界 L k ≤ max ⁡ { s , η L f 2 ( 1 − γ ) } . L_k\le\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}. Lkmax{s,2(1γ)ηLf}.

9.1.1 非凸情形下的收敛性分析

下面的引理9和定理21类似于引理5和定理3.

引理9 (具体步长准则下非欧梯度下降法的充分下降引理) 设 f f f L f L_f Lf-光滑函数, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由基于常值 ( L k ≡ L ˉ ∈ ( L f 2 , ∞ ) ) \left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right) (LkLˉ(2Lf,))、回溯B4 ( ( s , γ , η ) : s > 0 ,   γ ∈ ( 0 , 1 ) ,   η > 1 ) ((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1) ((s,γ,η):s>0,γ(0,1),η>1)或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则对 ∀ k ≥ 0 \forall k\ge0 k0, f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 , f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2, f(xk)f(xk+1)Mf(xk)2,其中 M = { L ˉ − L f 2 ( L ˉ ) 2 , 常 值 , γ max ⁡ { s , η L f 2 ( 1 − γ ) } , 回 溯 , 1 2 L f , 精 确 线 搜 索 . M=\left\{\begin{array}{ll}\dfrac{\bar L-\frac{L_f}{2}}{(\bar L)^2}, & 常值,\\\dfrac{\gamma}{\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}}, & 回溯,\\\dfrac{1}{2L_f}, & 精确线搜索.\end{array}\right. M=(Lˉ)2Lˉ2Lf,max{s,2(1γ)ηLf}γ,2Lf1,,,线.

证明: 常值和回溯B4步长准则下的结论是显然的. 我们考虑精确线搜素准则. 由精确线搜索的最优性, 我们有 f ( x k + 1 ) ≤ f ( x ~ k ) f(\mathbf{x}^{k+1})\le f(\tilde\mathbf{x}^k) f(xk+1)f(x~k), 其中 x ~ k = x k − ∥ ∇ f ( x k ) ∥ ∗ L f ∇ f ( x k ) † \tilde\mathbf{x}^k=\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_f}\nabla f(\mathbf{x}^k)^{\dagger} x~k=xkLff(xk)f(xk). 因此 f ( x k ) − f ( x k + 1 ) ≥ f ( x k ) − f ( x ~ k ) ≥ 1 2 L f ∥ ∇ f ( x k ) ∥ ∗ 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge f(\mathbf{x}^k)-f(\tilde\mathbf{x}^k)\ge\frac{1}{2L_f}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2. f(xk)f(xk+1)f(xk)f(x~k)2Lf1f(xk)2.得证.

定理21 (非凸情形下非欧梯度下降法的收敛性) 设 f f f L f L_f Lf-光滑函数, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由基于常值 ( L k ≡ L ˉ ∈ ( L f 2 , ∞ ) ) \left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right) (LkLˉ(2Lf,))、回溯B4 ( ( s , γ , η ) : s > 0 ,   γ ∈ ( 0 , 1 ) ,   η > 1 ) ((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1) ((s,γ,η):s>0,γ(0,1),η>1)或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则
(i) 函数值序列 { f ( x k ) } k ≥ 0 \{f(\mathbf{x}^k)\}_{k\ge0} {f(xk)}k0单调递减; 另外, f ( x k + 1 ) < f ( x k ) f(\mathbf{x}^{k+1})<f(\mathbf{x}^k) f(xk+1)<f(xk)当且仅当 ∇ f ( x k ) ≠ 0 \nabla f(\mathbf{x}^k)\ne\mathbf{0} f(xk)=0;
(ii) 若函数值序列 { f ( x k ) } k ≥ 0 \{f(\mathbf{x}^k)\}_{k\ge0} {f(xk)}k0有下界, 则 ∇ f ( x k ) → 0 \nabla f(\mathbf{x}^k)\to\mathbf{0} f(xk)0;
(iii) 若最优值有限, 记为 f o p t f_{\mathrm{opt}} fopt, 则 min ⁡ n = 0 , 1 , … , k ∥ ∇ f ( x k ) ∥ ∗ ≤ f ( x 0 ) − f o p t M ( k + 1 ) , \min_{n=0,1,\ldots,k}\Vert\nabla f(\mathbf{x}^k)\Vert_*\le\frac{\sqrt{f(\mathbf{x}^0)-f_{\mathrm{opt}}}}{\sqrt{M(k+1)}}, n=0,1,,kminf(xk)M(k+1) f(x0)fopt ,其中 M M M如引理9中定义;
(iv) { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0的所有聚点都是问题的稳定点.

证明: (i) 由引理9, f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 , f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2, f(xk)f(xk+1)Mf(xk)2,其中 M > 0 M>0 M>0. 于是显然有函数值序列单调递减. 另外, 若 ∇ f ( x k ) ≠ 0 \nabla f(\mathbf{x}^k)\ne\mathbf{0} f(xk)=0, 则 f ( x k ) > f ( x k + 1 ) f(\mathbf{x}^k)>f(\mathbf{x}^{k+1}) f(xk)>f(xk+1); 若 ∇ f ( x k ) = 0 \nabla f(\mathbf{x}^k)=\mathbf{0} f(xk)=0, 则 x k + 1 = x k \mathbf{x}^{k+1}=\mathbf{x}^k xk+1=xk, 从而 f ( x k + 1 ) = f ( x k ) f(\mathbf{x}^{k+1})=f(\mathbf{x}^k) f(xk+1)=f(xk).

(ii) 由于函数值序列单调递减且下有界, 所以收敛. 特别由Cauchy收敛准则, f ( x k ) − f ( x k + 1 ) → 0 f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\to0 f(xk)f(xk+1)0. 结合引理9就有 ∇ f ( x k ) → 0 \nabla f(\mathbf{x}^k)\to\mathbf{0} f(xk)0.

(iii) 由于对 ∀ n ≥ 0 \forall n\ge0 n0, f ( x n ) − f ( x n + 1 ) ≥ M ∥ ∇ f ( x n ) ∥ ∗ 2 . f(\mathbf{x}^n)-f(\mathbf{x}^{n+1})\ge M\Vert\nabla f(\mathbf{x}^n)\Vert_*^2. f(xn)f(xn+1)Mf(xn)2.对指标 n = 0 , 1 , … , k n=0,1,\ldots,k n=0,1,,k求和即得 f ( x 0 ) − f ( x k + 1 ) ≥ M ∑ n = 0 k ∥ ∇ f ( x n ) ∥ ∗ 2 ≥ ( k + 1 ) M min ⁡ n = 0 , 1 , … , k ∥ ∇ f ( x n ) ∥ ∗ 2 . f(\mathbf{x}^0)-f(\mathbf{x}^{k+1})\ge M\sum_{n=0}^k\Vert\nabla f(\mathbf{x}^n)\Vert_*^2\ge(k+1)M\min_{n=0,1,\ldots,k}\Vert\nabla f(\mathbf{x}^n)\Vert_*^2. f(x0)f(xk+1)Mn=0kf(xn)2(k+1)Mn=0,1,,kminf(xn)2.再由 f ( x k + 1 ) ≥ f o p t f(\mathbf{x}^{k+1})\ge f_{\mathrm{opt}} f(xk+1)fopt, 移项即得(iii).

(iv) 设 x ˉ \bar\mathbf{x} xˉ { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0的一个聚点. 则存在子列 { x k j } j ≥ 0 \{\mathbf{x}^{k_j}\}_{j\ge0} {xkj}j0收敛于 x ˉ \bar\mathbf{x} xˉ. 对 ∀ j ≥ 0 \forall j\ge0 j0, ∥ ∇ f ( x ˉ ) ∥ ∗ ≤ ∥ ∇ f ( x k j ) − ∇ f ( x ˉ ) ∥ ∗ + ∥ ∇ f ( x k j ) ∥ ∗ ≤ L f ∥ x k j − x ˉ ∥ + ∥ ∇ f ( x k j ) ∥ ∗ → 0. \Vert\nabla f(\bar\mathbf{x})\Vert_*\le\Vert\nabla f(\mathbf{x}^{k_j})-\nabla f(\bar\mathbf{x})\Vert_*+\Vert\nabla f(\mathbf{x}^{k_j})\Vert_*\le L_f\Vert\mathbf{x}^{k_j}-\bar\mathbf{x}\Vert+\Vert\nabla f(\mathbf{x}^{k_j})\Vert_*\to0. f(xˉ)f(xkj)f(xˉ)+f(xkj)Lfxkjxˉ+f(xkj)0.所以 ∇ f ( x ˉ ) = 0 ⇔ x ˉ \nabla f(\bar\mathbf{x})=\mathbf{0}\Leftrightarrow\bar\mathbf{x} f(xˉ)=0xˉ是稳定点.

9.1.2 凸情形下的收敛性分析

为分析凸情形下的收敛性, 我们额外需要一个类似于有界性的假设.

假设条件4
(i) f : E → R f:\mathbb{E}\to\mathbb{R} f:ER 凸 L f 凸L_f Lf-光滑函数;
(ii) 问题 min ⁡ x ∈ E f ( x ) \min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x}) xEminf(x)的最优解集非空, 记为 X ∗ X^* X; 最优值记为 f o p t f_{\mathrm{opt}} fopt;
(iii) 对 ∀ α > 0 \forall\alpha>0 α>0, 存在 R α > 0 R_{\alpha}>0 Rα>0, 使得 max ⁡ x , x ∗ { ∥ x ∗ − x ∥ : f ( x ) ≤ α ,   x ∗ ∈ X ∗ } ≤ R α . \max_{\mathbf{x},\mathbf{x}^*}\{\Vert\mathbf{x}^*-\mathbf{x}\Vert:f(\mathbf{x})\le\alpha,\,\mathbf{x}^*\in X^*\}\le R_{\alpha}. x,xmax{xx:f(x)α,xX}Rα.意即 f f f的任一水平集与最优解集 X ∗ X^* X的最大距离均有上界.

为证明收敛速度, 我们需要下面的引理10、11.

引理10 假定假设条件4成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由基于常值 ( L k ≡ L ˉ ∈ ( L f 2 , ∞ ) ) \left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right) (LkLˉ(2Lf,))、回溯B4 ( ( s , γ , η ) : s > 0 ,   γ ∈ ( 0 , 1 ) ,   η > 1 ) ((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1) ((s,γ,η):s>0,γ(0,1),η>1)或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则 f ( x k ) − f ( x k + 1 ) ≥ 1 C ( f ( x k ) − f o p t ) 2 , f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge\frac{1}{C}(f(\mathbf{x}^k)-f_{\mathrm{opt}})^2, f(xk)f(xk+1)C1(f(xk)fopt)2,其中 C = { R α 2 L ˉ 2 L ˉ − L f 2 , 常 值 , R α 2 γ max ⁡ { s , η L f 2 ( 1 − γ ) } , 回 溯 , 2 R α 2 L f , 精 确 线 搜 索 , C=\left\{\begin{array}{ll}\frac{R_{\alpha}^2\bar L^2}{\bar L-\frac{L_f}{2}}, & 常值,\\\frac{R_{\alpha}^2}{\gamma}\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}, & 回溯,\\2R_{\alpha}^2L_f, & 精确线搜索,\end{array}\right. C=Lˉ2LfRα2Lˉ2,γRα2max{s,2(1γ)ηLf},2Rα2Lf,,,线, α = f ( x 0 ) \alpha=f(\mathbf{x}^0) α=f(x0).

证明: 注意由定理21(i), { f ( x k ) } k ≥ 0 \{f(\mathbf{x}^k)\}_{k\ge0} {f(xk)}k0单调递减; 特别地, 对 ∀ k ≥ 0 \forall k\ge0 k0, f ( x k ) ≤ f ( x 0 ) f(\mathbf{x}^k)\le f(\mathbf{x}^0) f(xk)f(x0). 因此对 ∀ x ∗ ∈ X ∗ ,   k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 xX,k0, ∥ x k − x ∗ ∥ ≤ R α , \Vert\mathbf{x}^k-\mathbf{x}^*\Vert\le R_{\alpha}, xkxRα,其中 α = f ( x 0 ) \alpha=f(\mathbf{x}^0) α=f(x0). 一方面我们注意到, 由引理9, f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2. f(xk)f(xk+1)Mf(xk)2.另一方面由凸函数的性质以及Cauchy-Schwarz不等式, 对 ∀ x ∗ ∈ X ∗ \forall\mathbf{x}^*\in X^* xX, f ( x k ) − f o p t = f ( x k ) − f ( x ∗ ) ≤ ⟨ ∇ f ( x k ) , x k − x ∗ ⟩ ≤ ∥ ∇ f ( x k ) ∥ ∗ ∥ x k − x ∗ ∥ ≤ R α ∥ ∇ f ( x k ) ∥ ∗ . \begin{aligned}f(\mathbf{x}^k)-f_{\mathrm{opt}}&=f(\mathbf{x}^k)-f(\mathbf{x}^*)\\&\le\langle\nabla f(\mathbf{x}^k),\mathbf{x}^k-\mathbf{x}^*\rangle\\&\le\Vert\nabla f(\mathbf{x}^k)\Vert_*\Vert\mathbf{x}^k-\mathbf{x}^*\Vert\\&\le R_{\alpha}\Vert\nabla f(\mathbf{x}^k)\Vert_*.\end{aligned} f(xk)fopt=f(xk)f(x)f(xk),xkxf(xk)xkxRαf(xk).因此就有 f ( x k ) − f ( x k + 1 ) ≥ M ∥ ∇ f ( x k ) ∥ ∗ 2 ≥ M R α 2 ( f ( x k ) − f o p t ) 2 . f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2\ge\frac{M}{R_{\alpha}^2}(f(\mathbf{x}^k)-f_{\mathrm{opt}})^2. f(xk)f(xk+1)Mf(xk)2Rα2M(f(xk)fopt)2. M M M的定义代入即可得证.

引理11 { a k } k ≥ 0 \{a_k\}_{k\ge0} {ak}k0为非负实数列, 且存在 γ > 0 \gamma>0 γ>0, 对 ∀ k ≥ 0 \forall k\ge0 k0, a k − a k + 1 ≥ 1 γ a k 2 . a_k-a_{k+1}\ge\frac{1}{\gamma}a_k^2. akak+1γ1ak2.则对 ∀ k ≥ 1 \forall k\ge1 k1, a k ≤ γ k . a_k\le\frac{\gamma}{k}. akkγ.

证明: 设 k ≥ 1 k\ge1 k1. 若 a k = 0 a_k=0 ak=0, 则显然结论成立. 假设 a k > 0 a_k>0 ak>0. 则由 { a n } n ≥ 0 \{a_n\}_{n\ge0} {an}n0的单调性, 我们有 a 0 , a 1 , … , a k > 0 a_0,a_1,\ldots,a_k>0 a0,a1,,ak>0. 对 ∀ n = 1 , 2 , … , k \forall n=1,2,\ldots,k n=1,2,,k, 1 a n − 1 a n − 1 = a n − 1 − a n a n − 1 a n ≥ 1 γ a n − 1 2 a n − 1 a n = 1 γ a n − 1 a n ≥ 1 γ . \frac{1}{a_n}-\frac{1}{a_{n-1}}=\frac{a_{n-1}-a_n}{a_{n-1}a_n}\ge\frac{1}{\gamma}\frac{a_{n-1}^2}{a_{n-1}a_n}=\frac{1}{\gamma}\frac{a_{n-1}}{a_n}\ge\frac{1}{\gamma}. an1an11=an1anan1anγ1an1anan12=γ1anan1γ1.对指标 n = 1 , 2 , … , k n=1,2,\ldots,k n=1,2,,k求和上式可得 1 a k ≥ 1 a 0 + k γ ≥ k γ . \frac{1}{a_k}\ge\frac{1}{a_0}+\frac{k}{\gamma}\ge\frac{k}{\gamma}. ak1a01+γkγk.这就证明了结论.

将引理10代入引理11后, 我们立得非欧梯度下降法的 O ( 1 / k ) O(1/k) O(1/k)收敛速度.

定理22 (非欧梯度下降法的 O ( 1 / k ) O(1/k) O(1/k)收敛速度8) 在引理10的假设条件下, 对 ∀ k ≥ 1 \forall k\ge1 k1, f ( x k ) − f o p t ≤ C k , f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{C}{k}, f(xk)foptkC,其中 C C C如引理10中定义.

证明: 由引理10, a k − a k + 1 ≥ 1 C a k 2 , a_k-a_{k+1}\ge\frac{1}{C}a_k^2, akak+1C1ak2,其中 a k = f ( x k ) − f o p t a_k=f(\mathbf{x}^k)-f_{\mathrm{opt}} ak=f(xk)fopt. 再由引理11, 令其中 γ = C \gamma=C γ=C. 于是就有 a k ≤ C k a_k\le\frac{C}{k} akkC.

9.1.3 ℓ 1 \ell_1 1-范数下 R n \mathbb{R}^n Rn中的非欧梯度下降法

例18 设当前空间为 R n \mathbb{R}^n Rn, 其中范数为 ℓ 1 \ell_1 1-范数. 设 f f f为对 ℓ 1 \ell_1 1-范数的 L f L_f Lf-光滑函数. 注意此时对 ∀ a ≠ 0 \forall\mathbf{a\ne0} a=0, 其原始对等元集合(见例16)为 Λ a = { ∑ i ∈ I ( a ) λ i s g n ( a i ) e i : ∑ i ∈ I ( a ) λ i = 1 ,   λ j ≥ 0 ,   j ∈ I ( a ) } , \Lambda_{\mathbf{a}}=\left\{\sum_{i\in I(\mathbf{a})}\lambda_i\mathrm{sgn}(a_i)\mathbf{e}_i:\sum_{i\in I(\mathbf{a})}\lambda_i=1,\,\lambda_j\ge0,\,j\in I(\mathbf{a})\right\}, Λa=iI(a)λisgn(ai)ei:iI(a)λi=1,λj0,jI(a),其中 I ( a ) = arg ⁡ max ⁡ i = 1 , 2 , … , n ∣ a i ∣ I(\mathbf{a})=\arg\max_{i=1,2,\ldots,n}|a_i| I(a)=argmaxi=1,2,,nai. 在用的时候, 我们可以任取 i ∈ I ( a ) i\in I(\mathbf{a}) iI(a)并令 a † = s g n ( a i ) e i \mathbf{a}^{\dagger}=\mathrm{sgn}(a_i)\mathbf{e}_i a=sgn(ai)ei. 此时非欧梯度下降法变成:

在这里插入图片描述
注意此时的非欧梯度下降实质上就是坐标下降法(coordinate descent method)的一个变体. 只是每步更新的分量和步长具有一定的特殊性.

例19 考虑问题 min ⁡ x ∈ R n { 1 2 x T A x + b T x } , \min_{\mathbf{x}\in\mathbb{R}^n}\left\{\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}\right\}, xRnmin{21xTAx+bTx},其中 A ∈ S + + n ,   b ∈ R n \mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n AS++n,bRn. 此时 E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 范数为 ℓ p \ell_p p-范数 ( p ∈ [ 1 , ∞ ] ) (p\in[1,\infty]) (p[1,]). 根据第五章例1, f f f L f ( p ) L_f^{(p)} Lf(p)-光滑函数, 其中 L f ( p ) = ∥ A ∥ p , q = max ⁡ x { ∥ A x ∥ q : ∥ x ∥ p ≤ 1 } , L_f^{(p)}=\Vert\mathbf{A}\Vert_{p,q}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_q:\Vert\mathbf{x}\Vert_p\le1\}, Lf(p)=Ap,q=xmax{Axq:xp1}, q ∈ [ 1 , ∞ ] : 1 p + 1 q = 1 q\in[1,\infty]:\frac{1}{p}+\frac{1}{q}=1 q[1,]:p1+q1=1. 其中两个特例为:

  • p = 2 p=2 p=2. 此时因为 A \mathbf{A} A是正定矩阵, 所以 L f ( 2 ) = ∥ A ∥ 2 , 2 = λ max ⁡ ( A ) L_f^{(2)}=\Vert\mathbf{A}\Vert_{2,2}=\lambda_{\max}(\mathbf{A}) Lf(2)=A2,2=λmax(A);
  • p = 1 p=1 p=1. 此时 L f ( 1 ) = ∥ A ∥ 1 , ∞ = max ⁡ x { ∥ A x ∥ ∞ : ∥ x ∥ 1 ≤ 1 } L_f^{(1)}=\Vert\mathbf{A}\Vert_{1,\infty}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_{\infty}:\Vert\mathbf{x}\Vert_1\le1\} Lf(1)=A1,=maxx{Ax:x11}. 一方面, 对 ∀ j \forall j j, ∥ A ∥ 1 , ∞ ≥ ∥ A e j ∥ ∞ = max ⁡ i ∣ A i , j ∣ . \Vert\mathbf{A}\Vert_{1,\infty}\ge\Vert\mathbf{Ae}_j\Vert_{\infty}=\max_{i}|A_{i,j}|. A1,Aej=imaxAi,j.从而 ∥ A ∥ 1 , ∞ ≥ max ⁡ i , j ∣ A i , j ∣ \Vert\mathbf{A}\Vert_{1,\infty}\ge\max_{i,j}|A_{i,j}| A1,maxi,jAi,j. 另一方面, ∥ A ∥ 1 , ∞ = max ⁡ x max ⁡ i ∣ ∑ j = 1 n A i , j x j ∣ ≤ max ⁡ x max ⁡ i ∑ j = 1 n ∣ A i , j ∣ ∣ x j ∣ ≤ max ⁡ i , j ∣ A i , j ∣ max ⁡ x max ⁡ i ∑ j = 1 n ∣ x j ∣ = max ⁡ i , j ∣ A i , j ∣ . \begin{aligned}\Vert\mathbf{A}\Vert_{1,\infty}=\max_{\mathbf{x}}\max_i\left|\sum_{j=1}^nA_{i,j}x_j\right|&\le\max_{\mathbf{x}}\max_i\sum_{j=1}^n|A_{i,j}||x_j|\\&\le\max_{i,j}|A_{i,j}|\max_{\mathbf{x}}\max_i\sum_{j=1}^n|x_j|\\&=\max_{i,j}|A_{i,j}|.\end{aligned} A1,=xmaximaxj=1nAi,jxjxmaximaxj=1nAi,jxji,jmaxAi,jxmaximaxj=1nxj=i,jmaxAi,j.所以 ∥ A ∥ 1 , ∞ = max ⁡ i , j ∣ A i , j ∣ \Vert\mathbf{A}\Vert_{1,\infty}=\max_{i,j}|A_{i,j}| A1,=maxi,jAi,j.

p = 2 p=2 p=2时, 非欧梯度下降法就是欧式梯度下降法, 其中步长固定为 L k ≡ L f ( 2 ) = λ max ⁡ ( A ) L_k\equiv L_f^{(2)}=\lambda_{\max}(\mathbf{A}) LkLf(2)=λmax(A).

在这里插入图片描述
p = 1 p=1 p=1时, 非欧梯度下降法就成了一个坐标下降型算法, 其中步长固定为 L k ≡ L f ( 1 ) = max ⁡ i , j ∣ A i , j ∣ L_k\equiv L_f^{(1)}=\max_{i,j}|A_{i,j}| LkLf(1)=maxi,jAi,j.

在这里插入图片描述
由定理229, f ( x k ) − f o p t ≤ 2 L f ( p ) R f ( x 0 ) 2 k . f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{2L_f^{(p)}R_{f(\mathbf{x}^0)}^2}{k}. f(xk)foptk2Lf(p)Rf(x0)2.因此, 比值 L f ( 2 ) L f ( 1 ) \frac{L_f^{(2)}}{L_f^{(1)}} Lf(1)Lf(2)可作为这两种方法孰好孰差的指标.

同时, 我们注意到两种算法的每步的计算量不同. 算法G2每步均需要 O ( n 2 ) O(n^2) O(n2)的计算量, 而G1最少时只用 O ( n ) O(n) O(n). 因此, 为公平比较二者的性能, 我们把G1的 n n n步称作1步元迭代(meta-iteration).

例20 我们用数值算例具体比较例19中两种算法的性能. 我们令 A = A ( d ) ≡ J + d I \mathbf{A}=\mathbf{A}^{(d)}\equiv\mathbf{J}+d\mathbf{I} A=A(d)J+dI, 其中 J \mathbf{J} J是全1矩阵. 于是对 ∀ d > 0 \forall d>0 d>0, A ( d ) \mathbf{A}^{(d)} A(d)是正定矩阵, 且 λ max ⁡ ( A ( d ) = d + n ,   max ⁡ i , j ∣ A i , j ( d ) ∣ = d + 1 \lambda_{\max}(\mathbf{A}^{(d})=d+n,\,\max_{i,j}|A_{i,j}^{(d)}|=d+1 λmax(A(d)=d+n,maxi,jAi,j(d)=d+1. 因此, 随着比值 ρ f = L f ( 2 ) L f ( 1 ) = d + n d + 1 \rho_f=\frac{L_f^{(2)}}{L_f^{(1)}}=\frac{d+n}{d+1} ρf=Lf(1)Lf(2)=d+1d+n变得越大, 欧式梯度下降法(算法G2)将越逊于非欧梯度下降法(算法G1).

具体地, 我们取 A = A ( 2 ) ,   b = 10 e 1 \mathbf{A}=\mathbf{A}^{(2)},\,\mathbf{b}=10\mathbf{e}_1 A=A(2),b=10e1. 初始点选为 x 0 = e n \mathbf{x}^0=\mathbf{e}_n x0=en. 我们分别在 n = 10 , 100 n=10,100 n=10,100时画出两种算法下 f ( x k ) − f o p t f(\mathbf{x}^k)-f_{\mathrm{opt}} f(xk)fopt的变化曲线.

在这里插入图片描述在这里插入图片描述其中上面是 n = 10 n=10 n=10, 下面是 n = 100 n=100 n=100. 左图是G1元迭代与G2的比较, 右图则是按原始迭代的比较.

从左图可知, 当比较G1元迭代与G2时, G1显著优于G2. 而从右图可知, 当 n = 10 n=10 n=10时, G1与G2差不多, 此时 ρ f = 4 \rho_f=4 ρf=4; 而当 n = 100 n=100 n=100时, G1仍比G2要好不少, 此时 ρ f = 34 \rho_f=34 ρf=34. 注意右图的比较中, G1每步的计算量也要明显少于G2.

9.2 非欧临近梯度法

本小节我们考虑PGM常被应用的组合问题 min ⁡ x ∈ E { F ( x ) ≡ f ( x ) + g ( x ) } , \min_{\mathbf{x}\in\mathbb{E}}\{F(\mathbf{x})\equiv f(\mathbf{x})+g(\mathbf{x})\}, xEmin{F(x)f(x)+g(x)},其中 E \mathbb{E} E不再是欧式空间. 我们之后也将比较非欧与欧式算法. 我们事先说明, 当 g ≡ 0 g\equiv0 g0时, 非欧PGM并不会变成非欧梯度下降法. 这就是说, 非欧PGM并不是非欧梯度下降法的推广. 这与PGM是梯度下降法的推广是不同的. 设计非欧PGM的过程类似于将PSGM推广到MDM的过程.

我们先做如下假设.

假设条件5
(i) g : E → ( − ∞ , ∞ ] g:\mathbb{E}\to(-\infty,\infty] g:E(,]为正常闭凸函数;
(ii) f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为正常闭凸函数; g ⊂ i n t ( d o m ( f ) ) \mathrm{g}\subset\mathrm{int}(\mathrm{dom}(f)) gint(dom(f)), f f f i n t ( d o m ( f ) ) \mathrm{int}(\mathrm{dom}(f)) int(dom(f)) L f L_f Lf-光滑;
(iii) 问题的最优解集非空, 记为 X ∗ X^* X; 最优值记为 F o p t F_{\mathrm{opt}} Fopt.

在欧式空间下, PGM的更新格式可以写成 x k + 1 = arg ⁡ min ⁡ x ∈ E { f ( x k ) + ⟨ ∇ f ( x k ) , x − x k ⟩ + g ( x ) + L k 2 ∥ x − x k ∥ 2 } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+g(\mathbf{x})+\frac{L_k}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\}. xk+1=argxEmin{f(xk)+f(xk),xxk+g(x)+2Lkxxk2}.类似于MDM, 我们将欧式距离替换成Bregman距离, 就得到了 x k + 1 = arg ⁡ min ⁡ x ∈ E { f ( x k ) + ⟨ ∇ f ( x k ) , x − x k ⟩ + g ( x ) + L k B ω ( x , x k ) } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+g(\mathbf{x})+L_kB_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}, xk+1=argxEmin{f(xk)+f(xk),xxk+g(x)+LkBω(x,xk)},其中 B ω B_{\omega} Bω是与 ω \omega ω相关联的Bregman距离(见第九章定义1). 我们假设 ω \omega ω满足以下性质:

假设条件6
(i) ω \omega ω为正常闭凸函数;
(ii) ω \omega ω d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(ω)上可微;
(iii) d o m ( g ) ⊂ d o m ( ω ) \mathrm{dom}(g)\subset\mathrm{dom}(\omega) dom(g)dom(ω);
(iv) ω + δ d o m ( g ) \omega+\delta_{\mathrm{dom}(g)} ω+δdom(g) 1 1 1-强凸函数.

此时非欧PGM如下:

在这里插入图片描述
首先根据第九章引理2, 令其中的 ψ ( x ) = ⟨ 1 L k ∇ f ( x k ) − ∇ ω ( x k ) , x ⟩ + 1 L k g ( x ) \psi(\mathbf{x})=\left\langle\frac{1}{L_k}\nabla f(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\right\rangle+\frac{1}{L_k}g(\mathbf{x}) ψ(x)=Lk1f(xk)ω(xk),x+Lk1g(x), 再由假设条件5、6, 即得非欧PGM总是良定义的, 即 x k ∈ d o m ( g ) ∩ d o m ( ∂ ω ) \mathbf{x}^k\in\mathrm{dom}(g)\cap\mathrm{dom}(\partial\omega) xkdom(g)dom(ω).

下面我们讨论两种步长准则. 为记号方便, 我们引入 V L ( x ˉ ) ≡ arg ⁡ min ⁡ x ∈ E { ⟨ 1 L ∇ f ( x ˉ ) − ∇ ω ( x ˉ ) , x ⟩ + 1 L g ( x ) + ω ( x ) } . V_L(\bar\mathbf{x})\equiv\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{\left\langle\frac{1}{L}\nabla f(\bar\mathbf{x})-\nabla\omega(\bar\mathbf{x}),\mathbf{x}\right\rangle+\frac{1}{L}g(\mathbf{x})+\omega(\mathbf{x})\right\}. VL(xˉ)argxEmin{L1f(xˉ)ω(xˉ),x+L1g(x)+ω(x)}.

  • 常值: L k ≡ L ˉ = L f ,   ∀ k L_k\equiv\bar L=L_f,\,\forall k LkLˉ=Lf,k;
  • 回溯B5: 输入两个参数 ( s , η ) : s > 0 ,   η > 1 (s,\eta):s>0,\,\eta>1 (s,η):s>0,η>1. 令 L − 1 = s L_{-1}=s L1=s. 按如下流程选取 L k ( k ≥ 0 ) L_k(k\ge0) Lk(k0):
    1. L k : = L k − 1 L_k:=L_{k-1} Lk:=Lk1;
    2. f ( V L k ( x k ) ) > f ( x k ) + ⟨ ∇ f ( x k ) , V L k ( x k ) − x k ⟩ + L k 2 ∥ V L k ( x k ) − x k ∥ 2 , f(V_{L_k}(\mathbf{x}^k))>f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),V_{L_k}(\mathbf{x}^k)-\mathbf{x}^k\rangle+\frac{L_k}{2}\Vert V_{L_k}(\mathbf{x}^k)-\mathbf{x}^k\Vert^2, f(VLk(xk))>f(xk)+f(xk),VLk(xk)xk+2LkVLk(xk)xk2,则令 L k : = η L k L_k:=\eta L_k Lk:=ηLk.

换句话说, 在回溯B5步长准则中, 步长具有形式 L k = L k − 1 η i k L_k=L_{k-1}\eta^{i_k} Lk=Lk1ηik, 其中 i k i_k ik是使得 f ( V L k − 1 η i k ( x k ) ) ≤ f ( x k ) + ⟨ ∇ f ( x k , V L k − 1 η i k ( x k ) − x k ⟩ + L k 2 ∥ V L k − 1 η i k ( x k ) − x k ∥ 2 \begin{aligned}f(V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k))\le&f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k,V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k)-\mathbf{x}^k\rangle\\&+\frac{L_k}{2}\Vert V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k)-\mathbf{x}^k\Vert^2\end{aligned} f(VLk1ηik(xk))f(xk)+f(xk,VLk1ηik(xk)xk+2LkVLk1ηik(xk)xk2成立的最小非负整数.

注意到两种步长准则下, 都有充分下降条件成立: f ( x k + 1 ) ≤ f ( x k ) + ⟨ ∇ f ( x k ) , x k + 1 − x k ⟩ + L k 2 ∥ x k + 1 − x k ∥ 2 . f(\mathbf{x}^{k+1})\le f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}^{k+1}-\mathbf{x}^k\rangle+\frac{L_k}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2. f(xk+1)f(xk)+f(xk),xk+1xk+2Lkxk+1xk2.类似地, 我们可给出步长的上界 L k ≤ α L f L_k\le\alpha L_f LkαLf, 其中 α = { 1 , 常 值 , max ⁡ { η , s L f } , 回 溯 . \alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right. α={1,max{η,Lfs},,.

定理22 (非欧PGM的 O ( 1 / k ) O(1/k) O(1/k)收敛速度) 假定假设条件5、6成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由基于常值 L k ≡ L f ,   ∀ k ≥ 0 L_k\equiv L_f,\,\forall k\ge0 LkLf,k0或回溯B5 ( s , η ) : s > 0 , η > 1 (s,\eta):s>0,\eta>1 (s,η):s>0,η>1的非欧PGM生成的迭代序列. 则
(i) 函数值序列 { F ( x k ) } k ≥ 0 \{F(\mathbf{x}^k)\}_{k\ge0} {F(xk)}k0单调递减;
(ii) 对 ∀ k ≥ 1 ,   x ∗ ∈ X ∗ \forall k\ge1,\,\mathbf{x}^*\in X^* k1,xX, F ( x k ) − F o p t ≤ α L f B ω ( x ∗ , x 0 ) k , F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)}{k}, F(xk)FoptkαLfBω(x,x0),其中 α = { 1 , 常 值 , max ⁡ { η , s L f } , 回 溯 . \alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right. α={1,max{η,Lfs},,.

证明: (i) 记 m ( x , y ) ≡ f ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ m(\mathbf{x,y})\equiv f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle m(x,y)f(y)+f(y),xy. 则在两种步长准则下, 对 ∀ n ≥ 0 \forall n\ge0 n0, 均有 f ( x n + 1 ) ≤ m ( x n + 1 , x n ) + L n 2 ∥ x n + 1 − x n ∥ 2 . f(\mathbf{x}^{n+1})\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+\frac{L_n}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2. f(xn+1)m(xn+1,xn)+2Lnxn+1xn2.因此 F ( x n + 1 ) = f ( x n + 1 ) + g ( x n + 1 ) ≤ m ( x n + 1 , x n ) + g ( x n + 1 ) + L n 2 ∥ x n + 1 − x n ∥ 2 ≤ m ( x n + 1 , x n ) + g ( x n + 1 ) + L n B ω ( x n + 1 , x n ) , \begin{aligned}F(\mathbf{x}^{n+1})&=f(\mathbf{x}^{n+1})+g(\mathbf{x}^{n+1})\\&\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+\frac{L_n}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2\\&\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n),\end{aligned} F(xn+1)=f(xn+1)+g(xn+1)m(xn+1,xn)+g(xn+1)+2Lnxn+1xn2m(xn+1,xn)+g(xn+1)+LnBω(xn+1,xn),其中最后一个不等号是因为 ω + δ d o m ( g ) \omega+\delta_{\mathrm{dom}(g)} ω+δdom(g) 1 1 1-强凸函数. 又注意到 x n + 1 = arg ⁡ min ⁡ x ∈ E { m ( x , x n ) + g ( x ) + L n B ω ( x , x n ) } , \mathbf{x}^{n+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\}, xn+1=argxEmin{m(x,xn)+g(x)+LnBω(x,xn)},所以 m ( x n + 1 , x n ) + g ( x n + 1 + L n B ω ( x n + 1 , x n ) ≤ m ( x n , x n ) + g ( x n ) + L n B ω ( x n , x n ) = f ( x n ) + g ( x n ) = F ( x n ) . \begin{aligned}m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1}+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)&\le m(\mathbf{x}^n,\mathbf{x}^n)+g(\mathbf{x}^n)+L_nB_{\omega}(\mathbf{x}^n,\mathbf{x}^n)\\&= f(\mathbf{x}^n)+g(\mathbf{x}^n)\\&=F(\mathbf{x}^n).\end{aligned} m(xn+1,xn)+g(xn+1+LnBω(xn+1,xn)m(xn,xn)+g(xn)+LnBω(xn,xn)=f(xn)+g(xn)=F(xn).这就证明了 { F ( x k ) } k ≥ 0 \{F(\mathbf{x}^k)\}_{k\ge0} {F(xk)}k0是单调递减的.

(ii) 设 k ≥ 1 ,   x ∗ ∈ X ∗ k\ge1,\,\mathbf{x}^*\in X^* k1,xX. 再次由于 x n + 1 = arg ⁡ min ⁡ x ∈ E { m ( x , x n ) + g ( x ) + L n B ω ( x , x n ) } , \mathbf{x}^{n+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\}, xn+1=argxEmin{m(x,xn)+g(x)+LnBω(x,xn)},根据非欧第二临近定理(第九章定理2), 令其中 ψ ( x ) = m ( x , x n ) + g ( x ) L n ,   b = x n ,   a = x n + 1 \psi(\mathbf{x})=\frac{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})}{L_n},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{a}=\mathbf{x}^{n+1} ψ(x)=Lnm(x,xn)+g(x),b=xn,a=xn+1, 就有 ⟨ ∇ ω ( x n ) − ∇ ω ( x n + 1 ) , x − x n + 1 ⟩ ≤ m ( x , x n ) − m ( x n + 1 , x n ) + g ( x ) − g ( x n + 1 ) L n , \langle\nabla\omega(\mathbf{x}^n)-\nabla\omega(\mathbf{x}^{n+1}),\mathbf{x}-\mathbf{x}^{n+1}\rangle\le\frac{m(\mathbf{x},\mathbf{x}^n)-m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x})-g(\mathbf{x}^{n+1})}{L_n}, ω(xn)ω(xn+1),xxn+1Lnm(x,xn)m(xn+1,xn)+g(x)g(xn+1),再由三点引理(第九章引理3), 令其中 a = x n + 1 ,   b = x n ,   c = x \mathbf{a}=\mathbf{x}^{n+1},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{c}=\mathbf{x} a=xn+1,b=xn,c=x, 就得到 B ω ( x , x n + 1 ) + B ω ( x n + 1 , x n ) − B ω ( x , x n ) ≤ m ( x , x n ) − m ( x n + 1 , x n ) + g ( x ) − g ( x n + 1 ) L n . B_{\omega}(\mathbf{x},\mathbf{x}^{n+1})+B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)-B_{\omega}(\mathbf{x},\mathbf{x}^n)\le\frac{m(\mathbf{x},\mathbf{x}^n)-m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x})-g(\mathbf{x}^{n+1})}{L_n}. Bω(x,xn+1)+Bω(xn+1,xn)Bω(x,xn)Lnm(x,xn)m(xn+1,xn)+g(x)g(xn+1).移项整理后可得 F ( x n + 1 ) ≤ m ( x n + 1 , x n ) + g ( x n + 1 ) + L n B ω ( x n + 1 , x n ) ≤ m ( x , x n ) + g ( x ) + L n B ω ( x , x n ) − L n B ω ( x , x n + 1 ) . \begin{aligned}F(\mathbf{x}^{n+1})\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)\le& m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\\&-L_nB_{\omega}(\mathbf{x},\mathbf{x}^{n+1}).\end{aligned} F(xn+1)m(xn+1,xn)+g(xn+1)+LnBω(xn+1,xn)m(x,xn)+g(x)+LnBω(x,xn)LnBω(x,xn+1).因为 f f f是凸函数, 所以 m ( x , x n ) ≤ f ( x ) m(\mathbf{x},\mathbf{x}^n)\le f(\mathbf{x}) m(x,xn)f(x), 因此 F ( x n + 1 ) − F ( x ) ≤ L n B ω ( x , x n ) − L n B ω ( x , x n + 1 ) . F(\mathbf{x}^{n+1})-F(\mathbf{x})\le L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)-L_nB_{\omega}(\mathbf{x},\mathbf{x}^{n+1}). F(xn+1)F(x)LnBω(x,xn)LnBω(x,xn+1).代入 x = x ∗ \mathbf{x}=\mathbf{x}^* x=x, 两边同除 L n L_n Ln并利用 L n ≤ α L f L_n\le\alpha L_f LnαLf, 即有 F ( x n + 1 ) − F ( x n ) α L f ≤ F ( x n + 1 ) − F ( x n ) L n ≤ B ω ( x ∗ , x n ) − B ω ( x ∗ , x n + 1 ) , \frac{F(\mathbf{x}^{n+1})-F(\mathbf{x}^n)}{\alpha L_f}\le\frac{F(\mathbf{x}^{n+1})-F(\mathbf{x}^n)}{L_n}\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1}), αLfF(xn+1)F(xn)LnF(xn+1)F(xn)Bω(x,xn)Bω(x,xn+1),从而推出 F ( x n + 1 ) − F o p t ≤ α L f B ω ( x ∗ , x n ) − α L f B ω ( x ∗ , x n + 1 ) . F(\mathbf{x}^{n+1})-F_{\mathrm{opt}}\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1}). F(xn+1)FoptαLfBω(x,xn)αLfBω(x,xn+1).对指标 n = 0 , 1 , … , k − 1 n=0,1,\ldots,k-1 n=0,1,,k1求和上述不等式, 就有 ∑ n = 0 k − 1 ( F ( x n + 1 ) − F o p t ) ≤ α L f B ω ( x ∗ , x 0 ) − α L f B ω ( x ∗ , x k ) ≤ α L f B ω ( x ∗ , x 0 ) . \sum_{n=0}^{k-1}(F(\mathbf{x}^{n+1})-F_{\mathrm{opt}})\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^k)\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0). n=0k1(F(xn+1)Fopt)αLfBω(x,x0)αLfBω(x,xk)αLfBω(x,x0).最后利用(i)中证得的函数值序列的单调性, 就有 k ( F ( x k ) − F o p t ) ≤ α L f B ω ( x ∗ , x 0 ) ⇒ F ( x k ) − F o p t ≤ α L f B ω ( x ∗ , x 0 ) k . k(F(\mathbf{x}^k)-F_{\mathrm{opt}})\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)\Rightarrow F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)}{k}. k(F(xk)Fopt)αLfBω(x,x0)F(xk)FoptkαLfBω(x,x0).


  1. 从FISTA的算法描述中, 我们可以看出FISTA每次迭代的计算量与PGM是差不多的. 但FISTA却有更好的收敛速度. ↩︎

  2. 关于这一点可以自行参看LASSO的相关内容. ↩︎

  3. 注意这里是指固定逼近函数时, 参数的紧致性(tightness). ↩︎

  4. 这是因为对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, ∥ x ∥ 1 ≤ n ∥ x ∥ 2 \Vert\mathbf{x}\Vert_1\le\sqrt{n}\Vert\mathbf{x}\Vert_2 x1n x2. ↩︎

  5. (v)实际上是(i)-(iv)的推论. 可见闭函数的Weierstrass定理(第二章定理4). ↩︎

  6. 注意到定理20中选取的光滑参数并不依赖于 Γ \Gamma Γ, 也即初始点; 而具体所需的迭代数确是依赖于 Γ \Gamma Γ的. 不过, μ \mu μ是依赖于求解精度 ϵ \epsilon ϵ的, 并且当 ϵ \epsilon ϵ越小, 也即要求的精度越高时, μ \mu μ越小, 从而 1 μ \frac{1}{\mu} μ1越大, 得到的 h μ h_{\mu} hμ就越光滑(这里的“越光滑”值光滑参数更大). ↩︎

  7. 注意, 这里的“一一对应”关系的基础是Riesz表示定理. 与下面的“原始对等元”是不同的. ↩︎

  8. 当取常值步长准则 L k ≡ L ˉ ≡ L f L_k\equiv\bar L\equiv L_f LkLˉLf时, 定理22变成 f ( x k ) − f o p t ≤ 2 R α 2 L f k . f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{2R_{\alpha}^2L_f}{k}. f(xk)foptk2Rα2Lf.这与PGM在凸情形下的收敛结论(定理5)具有相似的形式. ↩︎

  9. 注意此时 R f ( x 0 ) R_{f(\mathbf{x}^0)} Rf(x0)也是依赖于所选取的范数的. ↩︎

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值