First Order Methods in Optimization Ch10. The Proximal Gradient Method (Part II)

Learner Hu

于 2020-02-22 10:44:16 发布

阅读量1.6k

点赞数

分类专栏： FOM in Optimization

原文链接：https://download.csdn.net/download/m0_37854871/11562555

版权

FOM in Optimization 专栏收录该内容

10 篇文章 69 订阅

订阅专栏

第十章: 临近梯度法 (第二部分)

文章目录

第十章: 临近梯度法 (第二部分)

7. 快速临近梯度法——FISTA

7.1 算法

先前我们在定理5中证明了, PGM在假设条件1下的 $O (1 / k)$ 函数值收敛速度. 本节我们介绍如何加速PGM, 以获得 $O(1/k^2)$ 的函数值收敛速度. 我们称这一算法为快速邻近梯度法(fast proximal gradient method), 也习惯称之为FISTA(fast iterative shrinkage-thresholding algorithm). 关于“FISTA”这一名称的由来, 可见下面的例3.

为了获得更好的收敛速度, 我们不仅要改变已有的算法, 还要对模型做额外的假设: 我们假设 $f$ 是全空间 $\mathbb{E}$ 上的凸 $L_f$ -光滑函数. 本节用到的假设条件可见下面的假设条件2.

假设条件2
(i) $g:\mathbb{E}\to(-\infty,\infty]$ 为正常闭凸函数;
(ii) $f:\mathbb{E}\to\mathbb{R}$ 为凸 $L_f$ -光滑函数;
(iii) 问题的最优解集非空, 记为 $X^*$ ; 最优值记为 $F_{\mathrm{opt}}$ .

FISTA的算法描述如下¹:

在这里插入图片描述
粗略地从FISTA的算法描述看, FISTA与原始的PGM的区别在于, FISTA使用了一种类似于“预估-校正”的格式: 先利用当前的 $\mathbf{y}^k$ 经一步prox-grad运算得到预估 $\mathbf{x}^{k+1}$ ; 之后计算自适应步长 $t_{k+1}$ , 校正得到 $\mathbf{y}^{k+1}$ . 其中的自适应步长起到了重要的作用.

同之前一样, 我们考虑两种选取 $L_k$ 的方式: 常值、回溯. 这里我们考虑回溯B3准则, 而它实际上就是在 $\mathbf{y}^k$ 上的B2准则.

常值: $L_k\equiv L_f,\,\forall k$ ;
回溯(B3): 输入两个参数 $(s,\eta)$ , 其中 $s>0,\,\eta>1$ . 令 $L_{-1}:=s$ . 按如下流程选取 $L_k(k\ge0)$ :
1. $L_k:=L_{k-1}$ ;
2. 若 $f(T_{L_k}(\mathbf{y}^k))>f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_k}{2}\Vert T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\Vert^2,$ 则 $L_k:=\eta L_k$ .

换句话说, B2准则选取的 $L_k$ 形如 $L_k=L_{k-1}\eta^{i_k}$ , 其中 $i_k$ 是使得下面不等式成立的最小非负整数: $f(T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k))\le f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_{k-1}\eta^{i_k}}{2}\left\Vert T_{L_{k-1}\eta^{i_k}}(\mathbf{y}^k)-\mathbf{y}^k\right\Vert^2.$

类似于前面, 在两种步长准则下, 对 $\forall k\ge0$ , $f(T_{L_k}(\mathbf{y}^k))\le f(\mathbf{y}^k)+\langle\nabla f(\mathbf{y}^k),T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\rangle+\frac{L_k}{2}\left\Vert T_{L_k}(\mathbf{y}^k)-\mathbf{y}^k\right\Vert^2.$
同时也有 $L_k$ 的上下界: $\beta L_f\le L_k\le\alpha L_f$ , 其中 $\alpha,\beta$ 的定义同前.

下面的引理6给出了 $\{t_k\}_{k\ge0}$ 的性质. 这将会在证明改进的收敛速度起作用.

引理6 设 $\{t_k\}_{k\ge0}$ 为按如下递归格式定义的序列: $t_0=1,\,t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2},\quad k\ge0.$ 则 $t_k\ge\frac{k+2}{2},\,\forall k\ge0$ .

证明: 我们对下标 $k$ 用数学归纳证明. 当 $k = 0$ 时, 显然 $t_0=1\ge\frac{0+2}{2}$ . 现设结论对 $k$ 成立, 即 $t_k\ge\frac{k+2}{2}$ . 下面我们证明 $t_{k+1}\ge\frac{k+3}{2}$ . 由递归公式与归纳假设, $t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}\ge\frac{1+\sqrt{1+(k+2)^2}}{2}\ge\frac{1+\sqrt{(k+2)^2}}{2}=\frac{k+3}{2}.$ 于是得证.

7.2 FISTA的收敛性质

定理14 (FISTA的 $O(1/k^2)$ 收敛速度) 假定假设条件2成立. 设 $\{\mathbf{x}^k\}_{k\ge0}$ 为由基于常值 $L_k\equiv L_f,\,\forall k\ge0$ 或回溯B3 $(s,\eta):s>0,\,\eta>1$ 步长准则的FISTA生成的迭代序列. 则对 $\forall\mathbf{x}^*\in X^*,\,k\ge1$ , $F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2},$ 其中 $\alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right.$

证明: 设 $k\ge1$ . 由于在两种步长准则下均有充分下降条件成立, 令prox-grad基本不等式中的 $\mathbf{x}=t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k,\,L=L_k$ , 我们有 $\begin{aligned}&F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\ge\frac{L_k}{2}\left\Vert\mathbf{x}^{k+1}-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2}\left\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\mathbf{y}^k)\\&\ge\frac{L_k}{2}\left\Vert\mathbf{x}^{k+1}-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2}\left\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\right\Vert^2\,(f是凸函数)\\&=\frac{L_k}{2t_k^2}\left\Vert t_k\mathbf{x}^{k+1}-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\right\Vert^2-\frac{L_k}{2t_k^2}\left\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\right\Vert^2.\end{aligned}$ 由于 $F$ 是凸函数以及 $t_k\ge1,\forall k\ge0$ , 所以 $F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\le t_k^{-1}F(\mathbf{x}^*)+(1-t_k^{-1})F(\mathbf{x}^k).$ 记 $v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}}$ . 则对 $\forall n\ge0$ , $\begin{aligned}F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})&\le(1-t_k^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))\\&=(1-t_k^{-1})v_k-v_{k+1}.\end{aligned}$ 另一边, 代入 $\mathbf{y}^k=\mathbf{x}^k+\left(\frac{t_{k-1}-1}{t_k}\right)(\mathbf{x}^k-\mathbf{x}^{k-1})$ , $\begin{aligned}\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2&=\Vert t_k\mathbf{x}^k+(t_{k-1}-1)(\mathbf{x}^k-\mathbf{x}^{k-1})-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2\\&=\Vert t_{k-1}\mathbf{x}^k-(\mathbf{x}^*+(t_{k-1}-1)\mathbf{x}^{k-1})\Vert^2.\end{aligned}$ 记 $\mathbf{u}^n=t_{n-1}\mathbf{x}^n-(\mathbf{x}^*+(t_{n-1}-1)\mathbf{x}^{n-1}),\,\forall n\ge1$ . 则有 $(t_k^2-t_k)v_k-t_k^2v_{k+1}\ge\frac{L_k}{2}\Vert\mathbf{u}^{k+1}\Vert^2-\frac{L_k}{2}\Vert\mathbf{u}^k\Vert^2.$ 由 $t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}$ 可以推出 $t_k^2-t_k=t_{k-1}^2$ , 同时考虑到 $L_k\ge L_{k-1}$ , 所以 $\frac{2}{L_{k-1}}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\frac{2}{L_k}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\Vert\mathbf{u}^{k+1}\Vert^2-\Vert\mathbf{u}^k\Vert^2.$ 于是移项可得 $\Vert\mathbf{u}^{k+1}\Vert^2+\frac{2}{L_k}t_k^2v_{k+1}\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k,$ 继续递推可得对 $\forall k\ge1$ , $\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^1\Vert^2+\frac{2}{L_0}t_0^2v_1=\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}}).$ 继续在prox-grad基本不等式中令 $\mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{y}^0,\,L=L_0$ , 则 $\frac{2}{L_0}(F(\mathbf{x}^*)-F(\mathbf{x}^1))\ge\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2+\ell_f(\mathbf{x}^*,\mathbf{y}^0)\ge\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2.$ 又 $\mathbf{y}^0=\mathbf{x}^0$ , 所以 $\Vert\mathbf{x}^1-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}})\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2.$ 代入之前的不等式即有 $\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2.$ 由 $v_k$ 的定义, $L_{k_1}\le\alpha L_f$ 与引理6, 最终得到 $F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{L_{k-1}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{2t_{k-1}^2}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}.$

由定理14的证明我们发现, 对于自适应步长序列 $\{t_k\}_{k\ge0}$ , 我们真正用到的性质只有

$t_k\ge\frac{k+2}{2}$ ;
$t_k^2-t_k\le t_{k-1}^2$ .

因此满足这两个性质的步长均可以得到FISTA的 $O(1/k^2)$ 收敛速度. 例如 $t_k=\frac{k+2}{2}$ .

7.3 FISTA应用实例

例3 考虑以下问题 $\min_{\mathbf{x}\in\mathbb{R}^n}f(\mathbf{x})+\lambda\Vert\mathbf{x}\Vert_1,$ 其中 $\lambda>0,\,f:\mathbb{R}^n\to\mathbb{R}$ 为凸 $L_f$ -光滑函数. 我们在例2中考虑过这个问题. 当时我们用PGM处理, 得到ISTA算法. 其更新格式(取步长为 $\frac{1}{L_f}$ )为 $\mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_f}}\left(\mathbf{x}^k-\frac{1}{L_f}\nabla f(\mathbf{x}^k)\right).$ 而若使用FISTA, 则更新格式分为以下3步:

$\mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_f}}\left(\mathbf{y}^k-\frac{1}{L_f}\nabla f(\mathbf{y}^k)\right)$ ;
$t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}$ ;
$\mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k)$ .

事实上, 对于这一问题的快速临近梯度法才能称得上是FISTA. 这是因为它实质是上ISTA的加速版本. 不过本书中, 我们仍将FISTA指代为处理一般非光滑 $g$ 的快速临近梯度法.

例4 ( $\ell_1$ -正则最小二乘) 考虑例3的特殊情形: $\min_{\mathbf{x}\in\mathbb{R}^n}\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2+\lambda\Vert\mathbf{x}\Vert_1,$ 其中 $\mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\lambda>0$ . 易知函数 $f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2$ 是凸 $L_f$ -光滑函数, 其中 $L_f=\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}=\lambda_{\max}(\mathbf{A}^T\mathbf{A})$ . 对此问题, FISTA的更新格式分为以下3步:

$\mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_k}}\left(\mathbf{y}^k-\frac{1}{L_k}\mathbf{A}^T(\mathbf{A}\mathbf{y}^k-\mathbf{b})\right)$ ;
$t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}$ ;
$\mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k)$ .

ISTA的更新格式只有1步: $\mathbf{x}^{k+1}=\mathcal{T}_{\frac{\lambda}{L_k}}\left(\mathbf{x}^k-\frac{1}{L_k}\mathbf{A}^T(\mathbf{Ax}^k-\mathbf{b})\right).$ 两种方法的步长均可以选取为 $L_k\equiv\lambda_{\max}(\mathbf{A}^T\mathbf{A})$ .

为更清楚地说明FISTA与ISTA处理问题效果的差别, 我们按标准正态分布独立随机生成了 $\mathbf{A}\in\mathbb{R}^{100\times110}$ 的分量. 令 $\lambda=1$ . 我们设问题的真实解为 $\mathbf{x}_{\text{true}}=\mathbf{e}_3-\mathbf{e}_7$ , 从而 $\mathbf{b}=\mathbf{A}\mathbf{x}_{\text{true}}$ . 从初始点 $\mathbf{x}=\mathbf{e}$ 出发, 运行ISTA与FISTA迭代200步.

我们同时也关注解的稀疏性. $\ell_1$ -正则已被广泛应用, 其中一个原因便是它可以促使算法输出较为稀疏的解².

我们画出 $\{F(\mathbf{x}^k)-F_{\mathrm{opt}})\}_{k\ge0}$ 以及迭代200次后输出的解.

在这里插入图片描述
不论从函数值收敛的速度, 还是输出解的稀疏性, FISTA在此问题上都要明显优于ISTA.

7.4 MFISTA

FISTA产生的函数值序列并不是单调下降的. 不过, 我们也可以修改原本的FISTA得到它的一种单调变体——MFISTA. 我们同时也希望MFISTA能到达与FISTA同样的收敛速度. 这便是本小节要说明的内容.

在这里插入图片描述
从上述算法描述即可知, 产生的函数值序列 $\{F(\mathbf{x}^k\}_{k\ge0}$ 是单调下降的. 同时, 为了满足©中的条件, 一种很自然的选择就是 $\mathbf{x}^{k+1}\in\arg\min\{F(\mathbf{x}):\mathbf{x}=\mathbf{x}^k,\mathbf{z}^k\}$ . 而在证明MFISTA的收敛速度时, 我们仅要用到 $F(\mathbf{x}^{k+1})\le F(\mathbf{z}^k)$ .

MFISTA收敛速度的证明与FISTA的是类似的.

定理15 (MFISTA的 $O(1/k^2)$ 收敛速度) 假定假设条件2成立. 设 $\{\mathbf{x}^k\}_{k\ge0}$ 为由基于常值 $L_k\equiv L_f,\,\forall k\ge0$ 或回溯B3 $(s,\eta):s>0,\eta>1$ 步长准则的MFISTA生成的迭代序列. 则对 $\forall\mathbf{x}^*\in X^*,\,k\ge1$ , $F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2},$ 其中 $\alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right.$

证明: 设 $k\ge1$ . 由于在两种步长准则都满足充分下降条件, 在prox-grad基本不等式中令 $\mathbf{x}=t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k,\,L=L_k$ , 我们有 $\begin{aligned}&F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{z}^k)\\&\ge\frac{L_k}{2}\Vert\mathbf{z}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2-\frac{L_k}{2}\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k,\mathbf{y}^k)\\&\ge\frac{L_k}{2}\Vert\mathbf{z}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2-\frac{L_k}{2}\Vert\mathbf{y}^k-(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\Vert^2+\ell_f(t_k^{-1}\mathbf{x}^*\,(f是凸函数)\\&=\frac{L_k}{2t_k^2}\Vert t_k\mathbf{z}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2-\frac{L_k}{2t_k^2}\Vert t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)\Vert^2.\end{aligned}$ 由 $F$ 是凸函数, $t_k\ge1$ , 我们有 $F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)\le t_k^{-1}F(\mathbf{x}^*)+(1-t_k^{-1})F(\mathbf{x}^k).$ 记 $v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}},\,\forall n\ge0$ . 由于 $F(\mathbf{x}^{k+1})\le F(\mathbf{z}^k)$ , 所以 $\begin{aligned}F(t_k^{-1}\mathbf{x}^*+(1-t_k^{-1})\mathbf{x}^k)-F(\mathbf{z}^k)&\le(1-t_k^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))\\&=(1-t_k^{-1})v_k-v_{k+1}.\end{aligned}$ 另一边, 由于 $\mathbf{y}^k=\mathbf{x}^k+\frac{t_{k-1}}{t_k}(\mathbf{z}^{k-1}-\mathbf{x}^k)+\left(\frac{t_{k-1}-1}{t_k}\right)(\mathbf{x}^k-\mathbf{x}^{k-1})$ , 所以 $t_k\mathbf{y}^k-(\mathbf{x}^*+(t_k-1)\mathbf{x}^k)=t_{k-1}\mathbf{z}^{k-1}-(\mathbf{x}^*+(t_{k-1}-1)\mathbf{x}^{k-1}).$ 记 $\mathbf{u}^{n}=t_{n-1}\mathbf{z}^{n-1}-(\mathbf{x}^*+(t_{n-1}-1)\mathbf{x}^{n-1}),\,\forall n\ge1$ . 合起来就有 $(t_k^2-t_k)v_k-t_k^2v_{k+1}\ge\frac{L_k}{2}\Vert\mathbf{u}^{k+1}\Vert^2-\frac{L_k}{2}\Vert\mathbf{u}^k\Vert^2.$ 由于 $t_k^2-t_k=t_{k-1}^2$ 以及 $L_k\ge L_{k-1}$ , 因此 $\frac{2}{L_{k-1}}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\frac{2}{L_k}t_{k-1}^2v_k-\frac{2}{L_k}t_k^2v_{k+1}\ge\Vert\mathbf{u}^{k+1}\Vert^2-\Vert\mathbf{u}^k\Vert^2.$ 整理后可得 $\Vert\mathbf{u}^{k+1}\Vert^2+\frac{2}{L_k}t_k^2v_{k+1}\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k,$ 对指标 $k$ 递推可得, 对 $\forall k\ge1$ , $\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^1\Vert^2+\frac{2}{L_0}t_0^2v_1=\Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}}).$ 再在prox-grad基本不等式中令 $\mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{y}^0,\,L=L_0$ 并利用 $f$ 的凸性, 即得 $\frac{2}{L_0}(F(\mathbf{x}^*)-F(\mathbf{z}^0))\ge\Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2-\Vert\mathbf{y}^0-\mathbf{x}^*\Vert^2,$ 因为 $\mathbf{y}^0=\mathbf{x}^0,\,F(\mathbf{x}^1)\le F(\mathbf{z}^0)$ , 所以 $\Vert\mathbf{z}^0-\mathbf{x}^*\Vert^2+\frac{2}{L_0}(F(\mathbf{x}^1)-F_{\mathrm{opt}})\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2.$ 代入可得 $\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{u}^k\Vert^2+\frac{2}{L_{k-1}}t_{k-1}^2v_k\le\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2.$ 移项并利用 $L_{k-1}\le\alpha L_f$ , $v_k$ 的定义以及引理6, 即有 $F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{L_{k-1}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{2t_{k-1}^2}\le\frac{2\alpha L_f\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2}{(k+1)^2}.$

注意这个结果与FISTA的是一样的.

7.5 加权FISTA

我们在本章中默认空间是欧式空间, 但这并不意味着空间内积必定是点积. 现假定 $\mathbb{E}=\mathbb{R}^n$ , 内积为 $\mathbf{Q}$ -内积: $\langle\mathbf{x,y}\rangle=\mathbf{x}^T\mathbf{Qy}$ , 其中 $\mathbf{Q}\in\mathbb{S}_{++}^n$ . 此时由第三章第3.3节的注4可得 $\nabla f(\mathbf{x})=\mathbf{Q}^{-1}D_f(\mathbf{x}),$ 其中 $D_f(\mathbf{x})=\begin{pmatrix}\frac{\partial f}{\partial x_1}(\mathbf{x})\\\frac{\partial f}{\partial x_2}(\mathbf{x})\\\vdots\\\frac{\partial f}{\partial x_n}(\mathbf{x})\end{pmatrix}.$ 我们假设 $f$ 对 $\mathbf{Q}$ -范数是 $L_f^{\mathbf{Q}}$ -光滑的, 即 $\Vert\mathbf{Q}^{-1}D_f(\mathbf{x})-\mathbf{Q}^{-1}D_f(\mathbf{y})\Vert_{\mathbf{Q}}\le L_f^{\mathbf{Q}}\Vert\mathbf{x-y}\Vert_{\mathbf{Q}},\quad\forall\mathbf{x,y}\in\mathbb{R}^n.$ 于是此时的FISTA更新格式变为以下3步:

$\mathbf{x}^{k+1}=\mathrm{prox}_{\frac{1}{L_f^{\mathbf{Q}}g}}\left(\mathbf{y}^k-\frac{1}{L_f^{\mathbf{Q}}}\mathbf{Q}^{-1}D_f(\mathbf{y}^k)\right)$ ;
$t_{k+1}=\frac{1+\sqrt{1+4t_k^2}}{2}$ ;
$\mathbf{y}^{k+1}=\mathbf{x}^{k+1}+\left(\frac{t_k-1}{t_{k+1}}\right)(\mathbf{x}^{k+1}-\mathbf{x}^k)$ .

注意其中第1步的临近算子中的临近项要以 $\mathbf{Q}$ -范数计算: $\mathrm{prox}_h(\mathbf{x})=\arg\min_{\mathbf{u}\in\mathbb{R}^n}\left\{h(\mathbf{u})+\frac{1}{2}\Vert\mathbf{u-x}\Vert_{\mathbf{Q}}^2\right\}.$ 定理14的收敛结论就变成 $F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{2L_f^{\mathbf{Q}}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert_{\mathbf{Q}}^2}{(k+1)^2}.$

7.6 强凸情形下的重启FISTA

我们现在再来考虑FISTA在 $f$ 是 $\sigma$ -强凸函数时的应用. 由定理12, PGM在强凸情形下的收敛速度由原来的 $O (1 / k)$ 改进到线性收敛速度. 因此我们自然要问FISTA在强凸的情形下能获得多大的改进. 我们将会给出两种讨论的路线. 它们均能将收敛速度改进为线性的.

首先, 我们来看最有意思的一条路线: 重启FISTA.

在这里插入图片描述
重启FISTA本质上包含内外迭代: 每个外迭代包含 $N$ 个FISTA内迭代. 为避免混淆, 我们称外迭代为循环(cycle). 下面的定理16给出了重启FISTA的复杂度分析.

定理16 (重启FISTA的 $O\left(\sqrt{\kappa}\log\left(\frac{1}{\epsilon}\right)\right)$ 复杂度) 假定假设条件2成立, 且 $f$ 是 $\sigma$ -强凸函数 $(\sigma>0)$ . 设 $\{\mathbf{z}^k\}_{k\ge0}$ 为由 $N=\lceil\sqrt{8\kappa}-1\rceil$ 的重启FISTA产生的外迭代序列, 其中 $\kappa=\frac{L_f}{\sigma}$ . 设 $R$ 为 $\Vert\mathbf{z}^{-1}-\mathbf{x}^*\Vert$ 的一个上界, 其中 $\mathbf{x}^*$ 为问题的唯一最优解. 则
(i) 对 $\forall k\ge0$ , $F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^k;$ (ii) 若 $k$ 满足 $k\ge\sqrt{8\kappa}\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right),$ 则经 $k$ 次FISTA迭代后, 有 $F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\epsilon.$

证明: (i) 由定理14, 对 $\forall n\ge0$ , $F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{2L_f\Vert\mathbf{z}^n-\mathbf{x}^*\Vert^2}{(N+1)^2}.$ 因 $f$ 是 $\sigma$ -强凸函数, 由强凸函数在极小点附近的增长性质(第五章定理7(ii)), $F(\mathbf{z}^n)-F_{\mathrm{opt}}\ge\frac{\sigma}{2}\Vert\mathbf{z}^n-\mathbf{x}^*\Vert^2,$ 合起来便有 $F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{4\kappa(F(\mathbf{z}^n)-F_{\mathrm{opt}})}{(N+1)^2}.$ 因为 $n\ge\sqrt{8\kappa}-1$ , 所以 $\frac{4\kappa}{(N+1)^2}\le\frac{1}{2}$ , $F(\mathbf{z}^{n+1})-F_{\mathrm{opt}}\le\frac{1}{2}(F(\mathbf{z}^n)-F_{\mathrm{opt}})$ . 对指标 $n$ 递推即可得 $F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\left(\frac{1}{2}\right)^k(F(\mathbf{z}^0)-F_{\mathrm{opt}}).$ 注意到 $\mathbf{z}^0=T_{L_f}(\mathbf{z}^{-1})$ . 在prox-grad基本不等式中令 $\mathbf{x}=\mathbf{x}^*,\,\mathbf{y}=\mathbf{z}^{-1},\,L=L_f$ , 并考虑到 $f$ 是凸函数, 就有 $F(\mathbf{x}^*)-F(\mathbf{z}^0)\ge\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^0\Vert^2-\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^{-1}\Vert^2,$ 因此 $F(\mathbf{z}^0)-F_{\mathrm{opt}}\le\frac{L_f}{2}\Vert\mathbf{x}^*-\mathbf{z}^{-1}\Vert^2\le\frac{L_fR^2}{2}.$ 于是 $F(\mathbf{z}^k)-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^k.$

(ii) 在FISTA迭代 $k$ 步后, 共经历 $\lfloor\frac{k}{N}\rfloor$ 次循环. 由(i), $F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\frac{L_fR^2}{2}\left(\frac{1}{2}\right)^{\lfloor\frac{k}{N}\rfloor}\le L_fR^2\left(\frac{1}{2}\right)^{\frac{k}{N}}.$ 为使 $F(\mathbf{z}^{\lfloor\frac{k}{N}\rfloor})-F_{\mathrm{opt}}\le\epsilon$ , 只需 $L_fR^2\left(\frac{1}{2}\right)^{\frac{k}{N}}\le\epsilon\Rightarrow k\ge N\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right).$ 再因 $N=\lceil\sqrt{8\kappa}-1\rceil\le\sqrt{8\kappa}$ , 即得证.

从定理16的证明我们可看出:

$N$ 的选择不是唯一的. 只需满足 $\frac{4\kappa}{(N+1)^2}\le1\Rightarrow N\ge\sqrt{4\kappa}-1.$
我们实际上只需要对 $N$ 设置下界. 定理16中对 $N$ 的上界用在(ii)的一个统一迭代次数估计上. 而若从 $k\ge N\left(\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right)$ 看, 我们也能知道一些额外的信息: 需要做 $\left\lceil\frac{\log\left(\frac{1}{\epsilon}\right)}{\log(2)}+\frac{\log(L_fR^2)}{\log(2)}\right\rceil$ 次循环.

7.7 强凸情形下的V-FISTA

本小节中我们将介绍FISTA的一个变体, V-FISTA. 相比于原来的FISTA, V-FISTA仅仅改动了校正步中的自适应步长. 我们会证明在 $f$ 是强凸函数时, V-FISTA可达到与重启FISTA同样的线性收敛速度.

在这里插入图片描述
V-FISTA的收敛速度证明类似于非强凸情形下FISTA的收敛速度证明.

定理17 (V-FISTA的 $O((1-1/\sqrt{\kappa})^k$ 收敛速度) 假定假设条件2成立, 且 $f$ 是 $\sigma$ -强凸函数 $(\sigma>0)$ . 设 $\{\mathbf{x}^k\}_{k\ge0}$ 为由V-FISTA生成的迭代序列. 则对 $\forall\mathbf{x}^*\in X^*,\,k\ge0$ , $F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\left(1-\frac{1}{\sqrt{\kappa}}\right)^k\left(F(\mathbf{x}^0)-F_{\mathrm{opt}}+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right),$ 其中 $\kappa=\frac{L_f}{\sigma}>1$ .

证明: 由于充分下降条件对常值步长 $L_f$ 成立, 因此对 $\forall\mathbf{x,y}\in\mathbb{E}$ , 我们有prox-grad基本不等式 $\begin{aligned}F(\mathbf{x})-F(T_{L_f}(\mathbf{y}))&\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f}{2}\Vert\mathbf{x-y}\Vert^2+f(\mathbf{x})-f(\mathbf{y})-\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle\\&\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f}{2}\Vert\mathbf{x-y}\Vert^2+\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2\,(f是\sigma-强凸函数).\end{aligned}$ 因此, $F(\mathbf{x})-F(T_{L_f}(\mathbf{y}))\ge\frac{L_f}{2}\Vert\mathbf{x}-T_{L_f}(\mathbf{y})\Vert^2-\frac{L_f-\sigma}{2}\Vert\mathbf{x-y}\Vert^2.$ 设 $k\ge0,\,t=\sqrt{\kappa}=\sqrt{\frac{L_f}{\sigma}}$ . 在上述不等式中令 $\mathbf{x}=t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k,\,\mathbf{y}=\mathbf{y}^k$ , 则有 $\begin{aligned}&F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\ge\frac{L_f}{2}\Vert\mathbf{x}^{k+1}-(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\Vert^2-\frac{L_f-\sigma}{2}\Vert\mathbf{y}^k-(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\Vert^2\\&=\frac{L_f}{2t^2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2-\frac{L_f-\sigma}{2t^2}\Vert t\mathbf{y}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned}$ 由于 $F$ 是 $\sigma$ -强凸函数以及 $t > 1$ , 所以 $F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)\le t^{-1}F(\mathbf{x}^*)+(1-t^{-1})F(\mathbf{x}^k)-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2.$ 记 $v_n\equiv F(\mathbf{x}^n)-F_{\mathrm{opt}},\,\forall n\ge0$ , $\begin{aligned}&F(t^{-1}\mathbf{x}^*+(1-t^{-1})\mathbf{x}^k)-F(\mathbf{x}^{k+1})\\&\le(1-t^{-1})(F(\mathbf{x}^k)-F(\mathbf{x}^*))-(F(\mathbf{x}^{k+1})-F(\mathbf{x}^*))-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&=(1-t^{-1})v_k-v_{k+1}-\frac{\sigma}{2}t^{-1}(1-t^{-1})\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2,\end{aligned}$ 合起来就有 $\begin{aligned}&t(t-1)v_k+\frac{L_f-\sigma}{2}\Vert t\mathbf{y}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2-\frac{\sigma(t-1)}{2}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&\ge t^2v_{k+1}+\frac{L_f}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned}$ 对 $\forall\mathbf{a,b}\in\mathbb{E},\,\beta\in[0,1)$ : $\Vert\mathbf{a+b}\Vert^2-\beta\Vert\mathbf{a}\Vert^2=(1-\beta)\left\Vert\mathbf{a}+\frac{1}{1-\beta}\mathbf{b}\right\Vert^2-\frac{\beta}{1-\beta}\Vert\mathbf{b}\Vert^2.$ 代入 $\mathbf{a}=\mathbf{x}^k-\mathbf{x}^*,\,\mathbf{b}=t(\mathbf{y}^k-\mathbf{x}^k),\,\beta=\frac{\sigma(t-1)}{L_f-\sigma}$ , 我们有 $\begin{aligned}&\frac{L_f-\sigma}{2}\Vert t(\mathbf{y}^k-\mathbf{x}^k)+\mathbf{x}^k-\mathbf{x}^*\Vert^2-\frac{\sigma(t-1)}{2}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\\&=\frac{L_f-\sigma}{2}\left[\Vert t(\mathbf{y}^k-\mathbf{x}^k)+\mathbf{x}^k-\mathbf{x}^*\Vert^2-\frac{\sigma(t-1)}{L_f-\sigma}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\right]\\&=\frac{L_f-\sigma}{2}\left[\frac{L_f-\sigma t}{L_f-\sigma}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2-\frac{\sigma(t-1)}{L_f-\sigma t}\Vert\mathbf{x}^k-\mathbf{x}^*\Vert^2\right]\\&\le\frac{L_f-\sigma t}{2}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2.\end{aligned}$ 于是不等式变成 $\begin{aligned}&t(t-1)v_k+\frac{L_f-\sigma t}{2}\left\Vert\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)\right\Vert^2\\&\ge t^2v_{k+1}+\frac{L_f}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2.\end{aligned}$

若 $k\ge1$ , 则 $\mathbf{y}^k=\mathbf{x}^k+\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}(\mathbf{x}^k-\mathbf{x}^{k-1}),\,t=\sqrt{\kappa}=\sqrt{\frac{L_f}{\sigma}}$ , 代入其中可得 $\begin{aligned}\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^k-\mathbf{x}^k)&=\mathbf{x}^k-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}\frac{t(t-1)}{t+1}(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=\mathbf{x}^k-\mathbf{x}^*+\frac{\kappa-1}{\kappa-\sqrt{\kappa}}\frac{\sqrt{\kappa}(\sqrt{\kappa}-1)}{\sqrt{\kappa}+1}(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=\mathbf{x}^k-\mathbf{x}^*+(\sqrt{\kappa}-1)(\mathbf{x}^k-\mathbf{x}^{k-1})\\&=t\mathbf{x}^k-(\mathbf{x}^*+(t-1)\mathbf{x}^{k-1}).\end{aligned}$
若 $k = 0$ , 注意到 $\mathbf{y}^0=\mathbf{x}^0$ , 所以 $\mathbf{x}^0-\mathbf{x}^*+\frac{L_f-\sigma}{L_f-\sigma t}t(\mathbf{y}^0-\mathbf{x}^0)=\mathbf{x}^0-\mathbf{x}^*.$

因此我们有 $\begin{aligned}&v_{k+1}+\frac{\sigma}{2}\Vert t\mathbf{x}^{k+1}-(\mathbf{x}^*+(t-1)\mathbf{x}^k)\Vert^2\\&\le\left\{\begin{array}{ll}\left(1-\frac{1}{t}\right)\left[v_k+\frac{\sigma}{2}\Vert t\mathbf{x}^k-(\mathbf{x}^*-(\mathbf{x}^*+(t-1)\mathbf{x}^{k-1})\Vert^2\right], & k\ge1,\\\left(1-\frac{1}{t}\right)\left[v_0+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right], & k=0.\end{array}\right.\end{aligned}$ 因此对 $\forall k\ge0$ , $v_k\le\left(1-\frac{1}{t}\right)^k\left(v_0+\frac{\sigma}{2}\Vert\mathbf{x}^0-\mathbf{x}^*\Vert^2\right).$ 由 $v_k$ 的定义即可得证.

8. 光滑化与S-FISTA

8.1 动机

在第八章和第九章中我们讨论了求解非光滑凸优化问题的 $O(1/\epsilon^2)$ 复杂度方法. 而在上一节中的FISTA则用于求解组合模型 $\min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x})+g(\mathbf{x}),$ 复杂度降为 $O(1/\sqrt{\epsilon})$ , 其中 $f$ 是 $L_f$ -光滑函数, $g$ 为正常闭凸函数. 本节我们讨论如何将FISTA用于更加一般的非光滑凸问题, 并证明其复杂度为 $O(1/\epsilon)$ . 我们将要讨论的问题比原本的组合模型又多了一项: $\min\{f(\mathbf{x})+h(\mathbf{x})+g(\mathbf{x}):\mathbf{x}\in\mathbb{E}\}.$ 这里函数 $h$ 是实值凸函数.

我们假设 $h$ 的临近算子不易求得(而之前对 $g$ 的隐含条件是其临近算子易求). 因此直接将FISTA用于组合模型 $(f, g + h)$ 是不现实的. 因此我们考虑先找 $h$ 的一个光滑逼近 $\tilde h$ , 之后用FISTA求解组合问题 $(f+\tilde h,g)$ . 为此, 我们先介绍光滑逼近(smooth approximation)和可光滑性(smoothability)的概念.

8.2 可光滑函数与光滑逼近

定义2 (可光滑函数) 我们称凸函数 $h:\mathbb{E}\to\mathbb{R}$ 是 $(\alpha,\beta)$ -可光滑的 $(\alpha,\beta>0)$ , 若对 $\forall\mu>0$ , 存在凸可微函数 $h_{\mu}:\mathbb{E}\to\mathbb{R}$ 使得
(i) $h_{\mu}(\mathbf{x})\le h(\mathbf{x})\le h_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E}$ ;
(ii) $h_{\mu}$ 是 $\frac{\alpha}{\mu}$ -光滑函数.
这里的 $h_{\mu}$ 称作是 $h$ 对参数 $(\alpha,\beta)$ 的 $\frac{1}{\mu}$ -光滑逼近.

例5 ( $\Vert\mathbf{x}\Vert_2$ 的光滑逼近) 考虑函数 $h:\mathbb{R}^n\to\mathbb{R}$ 定义为 $h(\mathbf{x})=\Vert\mathbf{x}\Vert_2$ . 对 $\forall\mu>0$ , 定义 $h_{\mu}(\mathbf{x})=\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}-\mu$ . 则对 $\forall\mathbf{x}\in\mathbb{R}^n$ , $\begin{aligned}h_{\mu}(\mathbf{x})&=\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}-\mu\le\Vert\mathbf{x}\Vert_2+\mu-\mu=\Vert\mathbf{x}\Vert_2=h(\mathbf{x}),\\h(\mathbf{x})&=\Vert\mathbf{x}\Vert_2\le\sqrt{\Vert\mathbf{x}\Vert_2^2+\mu^2}=h_{\mu}(\mathbf{x})+\mu,\end{aligned}$ 这表明定义2中的(i)对 $\beta=1$ 成立. 下证(ii)对 $\alpha=1$ 成立. 根据第五章例6, 函数 $\varphi(\mathbf{x})=\sqrt{\Vert\mathbf{x}\Vert_2^2+1}$ 是 $1$ -光滑的, 所以 $h_{\mu}(\mathbf{x})=\mu\varphi(\mathbf{x}/\mu)-\mu$ 是 $\frac{1}{\mu}$ -光滑的. 根据定义2, $h_{\mu}$ 是 $h$ 对参数 $(1, 1)$ 的 $\frac{1}{\mu}$ -光滑逼近, $h$ 是 $(1, 1)$ -可光滑的.

例6 ( $max_i\{x_i\}$ 的光滑逼近) 考虑函数 $h:\mathbb{R}^n\to\mathbb{R}$ 定义为 $h(\mathbf{x})=\max\{x_1,x_2,\ldots,x_n\}$ . 对 $\forall\mu>0$ , 定义 $h_{\mu}(\mathbf{x})=\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)-\mu\log n.$ 则对 $\forall\mathbf{x}\in\mathbb{R}^n$ , $\begin{aligned}h_{\mu}(\mathbf{x})&=\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)-\mu\log n\\&\le\mu\log\left(ne^{\max_i\{x_i\}/\mu}\right)-\mu\log n=h(\mathbf{x}),\\h(\mathbf{x})&=\max_i\{x_i\}\le\mu\log\left(\sum_{i=1}^ne^{x_i/\mu}\right)=h_{\mu}(\mathbf{x})+\mu\log n.\end{aligned}$ 再根据第五章例7, $\varphi(\mathbf{x})=\log(\sum_{i=1}^ne^{x_i})$ 是 $1$ -光滑的, 从而 $h_{\mu}(\mathbf{x})=\mu\varphi(\mathbf{x}/\mu)-\mu\log n$ 是 $\frac{1}{\mu}$ -光滑的. 根据定义2, $h_{\mu}$ 是 $h$ 对参数 $(1,\log n)$ 的 $\frac{1}{\mu}$ -光滑逼近, $h$ 是 $(1,\log n)$ -可光滑的.

定理18 (光滑逼近的运算法则)
(i) 设 $h^1,h^2:\mathbb{E}\to\mathbb{R}$ 为凸函数, $\gamma_1,\gamma_2\ge0$ . 假设对 $\forall\mu>0$ , $h_{\mu}^i$ 是 $h^i$ 对参数 $(\alpha_i,\beta_i)$ 的 $\frac{1}{\mu}$ -光滑逼近, $i = 1, 2$ . 则 $\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2$ 是 $\gamma_1h^1+\gamma_2h^2$ 对参数 $(\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2)$ 的 $\frac{1}{\mu}$ -光滑逼近.
(ii) 设 $\mathcal{A}:\mathbb{E}\to\mathbb{V}$ 为欧式空间 $\mathbb{E},\mathbb{V}$ 之间的线性映射. 设 $h:\mathbb{V}\to\mathbb{R}$ 为一凸函数, 定义 $q(\mathbf{x})\equiv h(\mathcal{A}(\mathbf{x})+\mathbf{b}),$ 其中 $\mathbf{b}\in\mathbb{V}$ . 假设对 $\forall\mu>0$ , $h_{\mu}$ 为 $h$ 对参数 $(\alpha,\beta)$ 的 $\frac{1}{\mu}$ -光滑逼近. 则 $q_{\mu}(\mathbf{x})\equiv h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})$ 是 $q$ 对参数 $(\alpha\Vert\mathcal{A}\Vert^2,\beta)$ 的 $\frac{1}{\mu}$ -光滑逼近.

证明: (i) 由定义, $h_{\mu}^{i}(i=1,2)$ 是凸 $\frac{\alpha_i}{\mu}$ -光滑函数, 且 $h_{\mu}^i(\mathbf{x})\le h^i(\mathbf{x})\le h_{\mu}^i(\mathbf{x})+\beta_i\mu,\,\forall\mathbf{x}\in\mathbb{E}$ . 因此 $\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2$ 是凸函数, 且对 $\forall\mathbf{x,y}\in\mathbb{E}$ $\gamma_1h_{\mu}^1(\mathbf{x})+\gamma_2h_{\mu}^2(\mathbf{x})\le\gamma_1h^1(\mathbf{x})+\gamma_2h^2(\mathbf{x})\le\gamma_1h_{\mu}^1(\mathbf{x})+\gamma_2h_{\mu}^2(\mathbf{x})+(\gamma_1\beta_1+\gamma_2\beta_2)\mu,$ 以及 $\begin{aligned}\Vert\nabla(\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2)(\mathbf{x})-\nabla(\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2)(\mathbf{y})\Vert\le&\gamma_1\Vert\nabla h_{\mu}^1(\mathbf{x})-\nabla h_{\mu}^1(\mathbf{y})\Vert\\+&\gamma\Vert\nabla h_{\mu}^2(\mathbf{x})-\nabla h_{\mu}^2(\mathbf{y})\Vert\\\le&\gamma_1\frac{\alpha_1}{\mu}\Vert\mathbf{x-y}\Vert+\gamma_2\frac{\alpha_2}{\mu}\Vert\mathbf{x-y}\Vert\\=&\frac{\gamma_1\alpha_1+\gamma_2\alpha_2}{\mu}\Vert\mathbf{x-y}\Vert,\end{aligned}$ 这表明 $\gamma_1h_{\mu}^1+\gamma_2h_{\mu}^2$ 是 $\gamma_1h^1+\gamma_2h^2$ 对参数 $(\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2)$ 的 $\frac{1}{\mu}$ -光滑逼近.

(ii) 因 $h_{\mu}$ 是 $h$ 对参数 $(\alpha,\beta)$ 的 $\frac{1}{\mu}$ -光滑逼近, 因此 $h_{\mu}$ 是凸 $\frac{\alpha}{\mu}$ -光滑函数, 且对 $\forall\mathbf{y}\in\mathbb{V}$ , $h_{\mu}(\mathbf{y})\le h(\mathbf{y})\le h_{\mu}(\mathbf{y})+\beta\mu.$ 设 $\mathbf{x}\in\mathbb{E}$ , 并代入 $\mathbf{y}=\mathcal{A}(\mathbf{x})+\mathbf{b}$ 就有 $q_{\mu}(\mathbf{x})\le q(\mathbf{x})\le q_{\mu}(\mathbf{x})+\beta\mu.$ 另外, 由 $h_{\mu}$ 的 $\frac{\alpha}{\mu}$ -光滑性, 我们有对 $\forall\mathbf{x,y}\in\mathbb{E}$ , $\begin{aligned}\Vert\nabla q_{\mu}(\mathbf{x})-\nabla q_{\mu}(\mathbf{y})\Vert&=\Vert\mathcal{A}^T\nabla h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})-\mathcal{A}^T\nabla h_{\mu}(\mathcal{A}(\mathbf{y})+\mathbf{b})\Vert\\&\le\Vert\mathcal{A}^T\Vert\cdot\Vert\nabla h_{\mu}(\mathcal{A}(\mathbf{x})+\mathbf{b})-\nabla h_{\mu}(\mathcal{A}(\mathbf{y})+\mathbf{b})\Vert\\&\le\frac{\alpha}{\mu}\Vert\mathcal{A}^T\Vert\cdot\Vert\mathcal{A}(\mathbf{x})+\mathbf{b}-\mathcal{A}(\mathbf{y})-\mathbf{b}\Vert\\&\le\frac{\alpha}{\mu}\Vert\mathcal{A}^T\Vert\cdot\Vert\mathcal{A}\Vert\cdot\Vert\mathbf{x-y}\Vert\\&=\frac{\alpha\Vert\mathcal{A}\Vert^2}{\mu}\Vert\mathbf{x-y}\Vert,\end{aligned}$ 这表明 $q_{\mu}$ 是 $q$ 对参数 $(\alpha\Vert\mathcal{A}\Vert^2,\beta)$ 的 $\frac{1}{\mu}$ -光滑逼近.

推论4 (保可光滑性运算)
(i) 设 $h^1,h^2:\mathbb{E}\to\mathbb{R}$ 为凸函数, $\gamma_1,\gamma_2\ge0$ . 假设对 $h^i$ 是 $(\alpha_i,\beta_i)$ -可光滑的, $i = 1, 2$ . 则 $\gamma_1h^1+\gamma_2h^2$ 是 $(\gamma_1\alpha_1+\gamma_2\alpha_2,\gamma_1\beta_1+\gamma_2\beta_2)$ -可光滑的.
(ii) 设 $\mathcal{A}:\mathbb{E}\to\mathbb{V}$ 为欧式空间 $\mathbb{E},\mathbb{V}$ 之间的线性映射. 设 $h:\mathbb{V}\to\mathbb{R}$ 为一凸函数, 定义 $q(\mathbf{x})\equiv h(\mathcal{A}(\mathbf{x})+\mathbf{b}),$ 其中 $\mathbf{b}\in\mathbb{V}$ . 假设 $h$ 为 $(\alpha,\beta)$ -可光滑函数. 则 $q$ 是 $(\alpha\Vert\mathcal{A}\Vert^2,\beta)$ 可光滑的.

例7 ( $\Vert\mathbf{Ax+b}\Vert_2$ 的光滑逼近) 设 $q:\mathbb{R}^n\to\mathbb{R}$ 定义为 $q(\mathbf{x})=\Vert\mathbf{Ax+b}\Vert_2$ , 其中 $\mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m$ . 则 $q(\mathbf{x})=g(\mathbf{Ax+b})$ , 其中 $g:\mathbb{R}^m\to\mathbb{R}$ 定义为 $g(\mathbf{y})=\Vert\mathbf{y}\Vert_2$ . 对 $\forall\mu>0$ , 由例5, $g_{\mu}(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_2^2+\mu^2}-\mu$ 是 $g$ 对参数 $(1, 1)$ 的 $\frac{1}{\mu}$ -光滑逼近, 从而再由定理18(ii), $q_{\mu}(\mathbf{x})\equiv g_{\mu}(\mathbf{Ax+b})=\sqrt{\Vert\mathbf{Ax+b}\Vert_2^2+\mu^2}-\mu$ 就是 $q$ 对参数 $(\Vert\mathbf{A}\Vert_{2,2}^2,1)$ 的 $\frac{1}{\mu}$ -光滑逼近.

例8 (分片线性函数的光滑逼近) 设 $q:\mathbb{R}^n\to\mathbb{R}$ 定义为 $q(\mathbf{x})=\max_{i=1,\ldots,m}\{\mathbf{a}_i^T\mathbf{x}+b_i\}$ , 其中 $\mathbf{a}_i\in\mathbb{R}^n,\,b_i\in\mathbb{R},\,i=1,2,\ldots,m$ . 则 $q(\mathbf{x})=g(\mathbf{Ax+b})$ , 其中 $g(\mathbf{y})=\max\{y_1,y_2,\ldots,y_m\}$ , $\mathbf{A}=\begin{pmatrix}\mathbf{a}_1,\mathbf{a}_2,\ldots,\mathbf{a}_m\end{pmatrix}^T$ , $\mathbf{b}=(b_1,b_2,\ldots,b_m)^T$ . 对 $\forall\mu>0$ , 由例6, $g_{\mu}(\mathbf{y})=\mu\log(\sum_{i=1}^me^{y_i/\mu})-\mu\log m$ 是 $g$ 对参数 $(1,\log m)$ 的 $\frac{1}{\mu}$ -光滑逼近. 因此再由定理18(ii), $q_{\mu}(\mathbf{x})=g_{\mu}(\mathbf{Ax+b})=\mu\log\left(\sum_{i=1}^me^{(\mathbf{a}_i^T\mathbf{x}+b_i)/\mu}\right)-\mu\log m$ 是 $q$ 对参数 $(\Vert\mathbf{A}\Vert_{2,2}^2,\log m)$ 的 $\frac{1}{\mu}$ -光滑逼近.

例9 (光滑参数是最好的吗?) 考虑绝对值函数 $q:\mathbb{R}\to\mathbb{R}$ 定义为 $q (x) = ∣ x ∣$ . 由例5, 对 $\forall\mu>0$ , 函数 $\sqrt{x^2+\mu^2}-\mu$ 是 $q$ 对参数 $(1, 1)$ 的 $\frac{1}{\mu}$ -光滑逼近. 下面我们考虑另一种利用定理18的构造 $q$ 的光滑逼近的方法. 注意到 $q(x)=\{x,-x\}$ . 于是由例8, 函数 $q_{\mu}(x)=\mu\log(e^{x/\mu}+e^{-x/\mu})-\mu\log 2$ 是 $q$ 对参数 $(\Vert\mathbf{A}\Vert_{2,2}^2,\log 2)$ 的 $\frac{1}{\mu}$ -光滑逼近, 其中 $\mathbf{A}=\begin{pmatrix}1\\-1\end{pmatrix}$ . 由于 $\Vert\mathbf{A}\Vert_{2,2}^2=2$ , 所以 $q_{\mu}$ 是 $q$ 对参数 $(2,\log 2)$ 的 $\frac{1}{\mu}$ -光滑逼近. 一个自然的问题是, 这些光滑参数是不是满足定义的最小参数³.

考虑 $q_{\mu}$ 的情形. 首先由于 $\lim_{x\to\infty}q(x)-q_{\mu}(x)=\mu\log 2$ , 所以 $\beta$ 是最好的. 而对 $\forall x\in\mathbb{R}$ , $q_1''(x)=\frac{4}{(e^x+e^{-x})^2}.$ 因此 $|q_1''(x)|\le1,\,\forall x\in\mathbb{R}$ . 根据第五章定理4, 就知道 $q_1$ 是 $1$ -光滑函数. 于是 $q_{\mu}(\mathbf{x})=\mu q_1(\mathbf{x}/\mu)$ 是 $\frac{1}{\mu}$ -光滑函数. 这表明 $q_{\mu}$ 实际上也是 $q$ 对参数 $(1,\log 2)$ 的 $\frac{1}{\mu}$ -光滑逼近.

8.3 再看Moreau包络

任意给定一实值Lipschitz连续的凸函数 $h:\mathbb{E}\to\mathbb{R}$ , 它的一个最自然的 $\frac{1}{\mu}$ -光滑逼近就是其Moreau包络 $M_h^{\mu}$ . 本小节就是要说明这一点. 回顾第六章第7节中Moreau分解的定义: $M_h^{\mu}(\mathbf{x})=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})+\frac{1}{2\mu}\Vert\mathbf{x-u}\Vert^2\right\}.$

定理19 (实值Lipschitz连续凸函数的可光滑性) 设 $h:\mathbb{E}\to\mathbb{R}$ 是满足 $|h(\mathbf{x})-h(\mathbf{y})|\le\ell_h\Vert\mathbf{x-y}\Vert,\quad\forall\mathbf{x,y}\in\mathbb{E}$ 的凸函数. 则对 $\forall\mu>0$ , $M_h^{\mu}$ 是 $h$ 对参数 $(1,\frac{\ell_h^2}{2})$ 的 $\frac{1}{\mu}$ -光滑逼近.

证明: 根据第七章定理22, $M_h^{\mu}$ 是 $\frac{1}{\mu}$ -光滑函数. 下面验证定义2的(i). 对 $\forall\mathbf{x}\in\mathbb{E}$ , $M_h^{\mu}(\mathbf{x})=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\le h(\mathbf{x})+\frac{1}{2\mu}\Vert\mathbf{x-x}\Vert^2=h(\mathbf{x}).$ 任取 $\mathbf{g}_{\mathbf{x}}\in\partial h(\mathbf{x})$ . 由于 $h$ 是 $\ell_h$ -Lipschitz连续函数, 根据第三章定理23, 就有 $\Vert\mathbf{g}_{\mathbf{x}}\Vert\le\ell_h$ . 于是 $\begin{aligned}M_h^{\mu}(\mathbf{x})-h(\mathbf{x})&=\min_{\mathbf{u}\in\mathbb{E}}\left\{h(\mathbf{u})-h(\mathbf{x})+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\\&\ge\min_{\mathbf{u}\in\mathbb{E}}\left\{\langle\mathbf{g}_{\mathbf{x}},\mathbf{u-x}\rangle+\frac{1}{2\mu}\Vert\mathbf{u-x}\Vert^2\right\}\\&=-\frac{\mu}{2}\Vert\mathbf{g}_{\mathbf{x}}\Vert^2\\&\ge-\frac{\ell_h^2}{2}\mu.\end{aligned}$ 这就证明了定义2的(i): $M_h^{\mu}(\mathbf{x})\le h(\mathbf{x})\le M_h^{\mu}(\mathbf{x})+\frac{\ell_h^2}{2}\mu.$

推论5 设 $h:\mathbb{E}\to\mathbb{R}$ 是 $\ell_h$ -Lipschitz连续的凸函数. 则 $h$ 是 $(1,\frac{\ell_h^2}{2})$ -可光滑的.

例10 ( $\ell_2$ -范数的光滑逼近) 考虑函数 $h:\mathbb{R}^n\to\mathbb{R}$ 定义为 $h(\mathbf{x})=\Vert\mathbf{x}\Vert_2$ . 则 $h$ 是凸函数且其Lipschitz常数为 $\ell_h=1$ . 于是由定理19, 对 $\forall\mu>0$ , 其Moreau包络(也就是Huber函数, 可见第六章例25) $M_h^{\mu}(\mathbf{x})=H_{\mu}(\mathbf{x})=\left\{\begin{array}{ll}\frac{1}{2\mu}\Vert\mathbf{x}\Vert_2^2, & \Vert\mathbf{x}\Vert_2\le\mu,\\\Vert\mathbf{x}\Vert_2-\frac{\mu}{2}, & \Vert\mathbf{x}\Vert_2>\mu\end{array}\right.$ 就是 $h$ 对参数 $(1,\frac{1}{2})$ 的 $\frac{1}{\mu}$ -光滑逼近.

例11 ( $\ell_1$ -范数的光滑逼近) 考虑函数 $h:\mathbb{R}^n\to\mathbb{R}$ 定义为 $h(\mathbf{x})=\Vert\mathbf{x}\Vert_1$ . 则 $h$ 是凸函数且其Lipschitz常数为 $\sqrt{n}$ ⁴. 于是由定理19, 对 $\forall\mu>0$ , $h$ 的Moreau包络 $M_h^{\mu}(\mathbf{x})=\sum_{i=1}^nH_{\mu}(x_i)$ 就是 $h$ 对参数 $(1,\frac{n}{2})$ 的 $\frac{1}{\mu}$ -光滑逼近.

例12 (绝对值函数的光滑逼近) 我们再来考虑绝对值函数 $h (x) = ∣ x ∣$ . 到现在为止我们已经讨论了 $h$ 的三种 $\frac{1}{\mu}$ -光滑逼近:

例5: $h_{\mu}^1(x)=\sqrt{x^2+\mu^2}-\mu,\,(\alpha,\beta)=(1,1)$ ;
例9: $h_{\mu}^2(x)=\mu\log(e^{x/\mu}+e^{-x/\mu})-\mu\log 2,\,(\alpha,\beta)=(1,\log 2)$ ;
例10: $h_{\mu}^3(x)=H_{\mu}(x),\,(\alpha,\beta)=(1,\frac{1}{2})$ .

三者的 $\alpha$ 参数相同; 相比之下 $h_{\mu}^3$ 的 $\beta$ 最小. 所以Huber函数时这三者中最好的 $\frac{1}{\mu}$ -光滑逼近. 这从图像上也可以看出(下图是 $\mu=0.2$ 的情形).

在这里插入图片描述

8.4 S-FISTA

现在, 我们考虑模型问题 $\min_{\mathbf{x}\in\mathbb{E}}\{H(\mathbf{x})\equiv f(\mathbf{x})+h(\mathbf{x})+g(\mathbf{x})\}.$ 我们对其做如下假设:

假设条件3
(i) $f:\mathbb{E}\to\mathbb{R}$ 是 $L_f$ -光滑函数 $L_f>0)$ ;
(ii) $h:\mathbb{E}\to\mathbb{R}$ 是 $(\alpha,\beta)$ -可光滑函数 $(\alpha,\beta>0)$ . 对 $\forall\mu>0$ , $h_{\mu}$ 表示 $h$ 对参数 $(\alpha,\beta)$ 的 $\frac{1}{\mu}$ -光滑逼近;
(iii) $g:\mathbb{E}\to(-\infty,\infty]$ 是正常闭凸函数;
(iv) $H$ 水平集有界: 对 $\forall\delta>0$ , 存在 $R_{\delta}>0$ 使得 $\Vert\mathbf{x}\Vert\le R_{\delta},\quad\forall\mathbf{x}:H(\mathbf{x})\le\delta.$ (v) 问题最优解集非空, 记为 $X^*$ ; 最优值记为 $H_{\mathrm{opt}}$ ⁵.

S-FISTA的思想就是对光滑化的模型 $(\mu>0)$ $\min_{\mathbf{x}\in\mathbb{E}}\{H_{\mu}(\mathbf{x})\equiv \underbrace{f(\mathbf{x})+h_{\mu}(\mathbf{x})}_{F_{\mu}(\mathbf{x})}+g(\mathbf{x})\}$ 应用FISTA. 实际上, 利用任何一种收敛速度为 $O(1/k^2)$ 的加速方法都是可以的, 而我们仅考虑带常值步长的FISTA. 注意到 $F_{\mu}$ 的Lipschitz常数为 $L_f+\frac{\alpha}{\mu}$ , 因此步长取为 $\frac{1}{L_f+\frac{\alpha}{\mu}}$ .

在这里插入图片描述
下面的结果表明, 给定精度 $\epsilon>0$ , 我们可以选取光滑参数 $\mu$ 使得S-FISTA的复杂度为 $O(1/\epsilon)$ .

定理20 (S-FISTA的 $O(1/\epsilon)$ 复杂度) 假定加假设条件3成立. 设 $\epsilon\in(0,\bar\epsilon),\,\bar\epsilon>0$ . 设 $\{\mathbf{x}^k\}_{k\ge0}$ 是由S-FISTA生成的迭代序列, 其中光滑参数⁶ $\mu=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}.$ 则若 $k\ge2\sqrt{2\alpha\beta\Gamma}\frac{1}{\epsilon}+\sqrt{2L_f\Gamma}\frac{1}{\sqrt{\epsilon}},$ 其中 $\Gamma=\left(R_{H(\mathbf{x}^0)+\frac{\bar\epsilon}{2}}+\Vert\mathbf{x}^0\Vert\right)^2$ , 就有 $H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon$ .

证明: 由S-FISTA的定义, $\{\mathbf{x}^k\}_{k\ge0}$ 是将FISTA应用于 $(F_{\mu},g,\mathbf{x}^0)$ 上得到的迭代序列. 注意到 $\arg\min_{\mathbf{x}\in\mathbb{E}}H_{\mu}(\mathbf{x})=\arg\min_{\mathbf{x}\in\mathbb{E}}\{H_{\mu}(\mathbf{x}):H_{\mu}(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)\}.$ 因为 $H_{\mu}$ 是闭函数, 因此右端问题的可行集 $C\equiv\{\mathbf{x}\in\mathbb{E}:H_{\mu}(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)\}$ 是闭集. 下面我们证明它也是有界集. 事实上, 由于 $h_{\mu}$ 是 $h$ 对参数 $(\alpha,\beta)$ 的 $\frac{1}{\mu}$ -光滑逼近, 因此 $h(\mathbf{x})\le h_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E}\Rightarrow H(\mathbf{x})\le H_{\mu}(\mathbf{x})+\beta\mu,\,\forall\mathbf{x}\in\mathbb{E}$ . 因此 $C\subset\{\mathbf{x}\in\mathbb{E}:H(\mathbf{x})\le H_{\mu}(\mathbf{x}^0)+\beta\mu\},$ 这结合假设条件3的(iv)即得 $C$ 是有界集, 从而是紧集. 根据闭函数的Weierstrass定理, $H_{\mu}$ 就可在某个 $\mathbf{x}_{\mu}^*$ 取到极小. 记最优值为 $H_{\mu,\mathrm{opt}}$ . 由定理14, 由 $F_{\mu}$ 是 $(L_f+\frac{\alpha}{\mu})$ -光滑函数, 就有 $H_{\mu}(\mathbf{x}^k)-H_{\mu,\mathrm{opt}}\le2\left(L_f+\frac{\alpha}{\mu}\right)\frac{\Vert\mathbf{x}^0-\mathbf{x}_{\mu}^*\Vert^2}{(k+1)^2}=2\left(L_f+\frac{\alpha}{\mu}\right)\frac{\Lambda}{(k+1)^2},$ 其中 $\Lambda=\Vert\mathbf{x}^0-\mathbf{x}_{\mu}^*\Vert^2$ . 再次由 $h_{\mu}$ 的逼近性质, 对 $\forall\mathbf{x}\in\mathbb{E}$ , $H_{\mu}(\mathbf{x})\le H(\mathbf{x})\le H_{\mu}(\mathbf{x})+\beta\mu.$ 特别地, 可以推出 $H_{\mathrm{opt}}\ge H_{\mu,\mathrm{opt}},\quad H(\mathbf{x}^k)\le H_{\mu}(\mathbf{x}^k)+\beta\mu,\,k=0,1,\ldots.$ 所以 $\begin{aligned}H(\mathbf{x}^k)-H_{\mathrm{opt}}&\le H_{\mu}(\mathbf{x}^k)+\beta\mu-H_{\mu,\mathrm{opt}}\le2L_f\frac{\Lambda}{(k+1)^2}+\frac{2\alpha\Lambda}{(k+1)^2}\frac{1}{\mu}+\beta\mu\\&\le2L_f\frac{\Lambda}{k^2}+\left(\frac{2\alpha\Lambda}{k^2}\right)\frac{1}{\mu}+\beta\mu.\end{aligned}$ 因此对于一给定 $K > 0$ , 对 $\forall k\ge K$ , 均有 $H(\mathbf{x}^k)-H_{\mathrm{opt}}\le 2L_f\frac{\Lambda}{K^2}+\left(\frac{2\alpha\Lambda}{K^2}\right)\frac{1}{\mu}+\beta\mu.$ 上式中, 有两个参数未定: $\mu,\Lambda$ .

确定 $\mu$ : 由于上式对 $\forall\mu>0$ 都成立, 所以可对右端对 $\mu$ 求最小, 得到 $\mu=\sqrt{\frac{2\alpha\Lambda}{\beta}}\frac{1}{K}.$ 代入可得 $H(\mathbf{x}^k)-H_{\mathrm{opt}}\le 2L_f\frac{\Lambda}{K^2}+2\sqrt{2\alpha\beta\Lambda}\frac{1}{K}.$ 因此, 为使 $\mathbf{x}^k$ 为 $\epsilon$ -最优解 $(\forall k\ge K)$ , 只需 $2L_f\frac{\Lambda}{K^2}+2\sqrt{2\alpha\beta\Lambda}\frac{1}{K}\le\epsilon.$ 令 $t=\frac{\sqrt{2\Lambda}}{K}$ , 则上式变成 $L_ft^2+2\sqrt{\alpha\beta}t-\epsilon\le0,$ 因为 $t > 0$ , 所以等价于 $\frac{\sqrt{2\Lambda}}{K}=t\le\frac{-\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}{L_f}=\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}.$ 因此只需 $K$ 满足 $K\ge\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}.$ 特别地, 记 $K=K_1\equiv\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon},$ 从而 $\mu$ 取 $\mu=\sqrt{\frac{2\alpha\Lambda}{\beta}}\frac{1}{K_1}=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}\le\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta}}\le\frac{\bar\epsilon}{2\beta}.$
确定 $\Lambda$ : 由上述推导可得当 $k\ge K_1$ 时, $H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon$ . 由 $H,H_{\mu}$ 的关系进一步可得 $H(\mathbf{x}_{\mu}^*)-\beta\mu\le H_{\mu}(\mathbf{x}_{\mu}^*)=H_{\mu,\mathrm{opt}}\le H_{\mathrm{opt}}\le H(\mathbf{x}^0)\Rightarrow H(\mathbf{x}_{\mu}^*)\le H(\mathbf{x}^0)+\frac{\bar\epsilon}{2}.$ 由假设条件3(iv), $\Vert\mathbf{x}_{\mu}^*\Vert\le R_{\delta}$ , 其中 $\delta=H(\mathbf{x}^0)+\frac{\bar\epsilon}{2}$ . 因此 $\Lambda=\Vert\mathbf{x}_{\mu}^*-\mathbf{x}^0\Vert^2\le(R_{\delta}+\Vert\mathbf{x}^0\Vert)^2=\Gamma$ . 最后再考虑 $K_1$ 中的 $\Lambda$ : $\begin{aligned}K_1&=\frac{\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda\alpha\beta+2\Lambda L_f\epsilon}}{\epsilon}\\ &\le\frac{2\sqrt{2\Lambda\alpha\beta}+\sqrt{2\Lambda L_f\epsilon}}{\epsilon}\,(\sqrt{\gamma+\delta}\le\sqrt{\gamma}+\sqrt{\delta},\,\forall\gamma,\delta\ge0)\\ &\le\frac{2\sqrt{2\Gamma\alpha\beta}+\sqrt{2\Gamma L_f\epsilon}}{\epsilon}\\ &\equiv K_2.\end{aligned}$ 所以对 $\forall k\ge K_2$ , 都有 $H(\mathbf{x}^k)-H_{\mathrm{opt}}\le\epsilon$ . 得证.

例13 考虑问题 $\min_{\mathbf{x}\in\mathbb{E}}\{h(\mathbf{x}):\mathbf{x}\in C\},$ 其中 $C$ 为非空闭凸集, $h:\mathbb{E}\to\mathbb{R}$ 为凸 $\ell_h$ -Lipschitz函数. 此问题是本节讨论模型中 $f\equiv0,\,g=\delta_C$ 时的特例. 由定理19, 对 $\forall\mu>0$ , Moreau包络 $M_h^{\mu}$ 是 $h$ 对参数 $(\alpha,\beta)=(1,\frac{\ell_h^2}{2})$ 的 $\frac{1}{\mu}$ -光滑逼近. 另外, 根据第六章定理22, $\nabla M_h^{\mu}(\mathbf{x})=\frac{1}{\mu}(\mathbf{x}-\mathrm{prox}_{\mu h}(\mathbf{x}))$ . 所以我们取 $h_{\mu}=M_h^{\mu}$ , 从而 $F_{\mu}=f+h_{\mu}=M_h^{\mu}$ . 由定理20, 注意到 $L_f=0$ , 令 $\mu=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta}}=\frac{\epsilon}{2\beta}=\frac{\epsilon}{\ell_h^2},$ 则经过量阶为 $O(1/\epsilon)$ 次迭代后, S-FISTA即可得到 $\epsilon$ -最优解. 此处步长为 $\frac{1}{\tilde L}$ , 其中 $\tilde L=\frac{\alpha}{\mu}=\frac{1}{\mu}$ . S-FISTA的主要更新格式为 $\begin{aligned}\mathbf{x}^{k+1}&=\mathrm{prox}_{\frac{1}{\tilde L}g}\left(\mathbf{y}^k-\frac{1}{\tilde L}\nabla F_{\mu}(\mathbf{y}^k)\right)=P_C\left(\mathbf{y}^k-\frac{1}{\tilde L\mu}(\mathbf{y}^k-\mathrm{prox}_{\mu h}(\mathbf{y}^k))\right)\\&=P_C(\mathrm{prox}_{\mu h}(\mathbf{y}^k)).\end{aligned}$ 此时S-FISTA变成:

在这里插入图片描述
例14 考虑问题 $(\text{P})\quad\min_{\mathbf{x}\in\mathbb{R}^n}\left\{\frac{1}{2}\Vert\mathbf{Ax-b}\Vert^2_2+\Vert\mathbf{Dx}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\right\},$ 其中 $\mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\mathbf{D}\in\mathbb{R}^{p\times n},\,\lambda>0$ . 问题 $(\text{P})$ 相当于本节模型中 $f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_2^2,\,h(\mathbf{x})=\Vert\mathbf{Dx}\Vert_1,\,g(\mathbf{x})=\lambda\Vert\mathbf{x}\Vert_1$ . 易知 $f$ 是凸函数且 $L_f$ -光滑 $(L_f=\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}=\Vert\mathbf{A}\Vert_{2,2}^2)$ , $g$ 正常闭凸, $h$ 实值凸且目标函数的水平集是有界的. 因此假设条件3成立. 注意到 $h(\mathbf{x})=q(\mathbf{Dx})$ , 其中 $q:\mathbb{R}^p\to\mathbb{R}$ 定义为 $q(\mathbf{y})=\Vert\mathbf{y}\Vert_1$ . 由例11, 对 $\forall\mu>0$ , $q_{\mu}(\mathbf{y})=M_q^{\mu}(\mathbf{y})=\sum_{i=1}^pH_{\mu}(y_i)$ 是 $q$ 对参数 $(1,\frac{p}{2})$ 的 $\frac{1}{\mu}$ -光滑逼近. 再由定理18(ii), $q_{\mu}(\mathbf{Dx})$ 就是 $h$ 对参数 $(\alpha,\beta)=(\Vert\mathbf{D}\Vert_{2,2}^2,\frac{p}{2})$ 的 $\frac{1}{\mu}$ -光滑逼近.

令 $h_{\mu}(\mathbf{x})=M_q^{\mu}(\mathbf{Dx}),\,F_{\mu}(\mathbf{x})=f(\mathbf{x})+h_{\mu}(\mathbf{x})$ . 由定理20, 令 $\begin{aligned}\mu&=\sqrt{\frac{\alpha}{\beta}}\frac{\epsilon}{\sqrt{\alpha\beta}+\sqrt{\alpha\beta+L_f\epsilon}}\\&=\frac{2\Vert\mathbf{D}\Vert_{2,2}}{\sqrt{p}}\cdot\frac{\epsilon}{\sqrt{\Vert\mathbf{D}\Vert_{2,2}^2p}+\sqrt{\Vert\mathbf{D}\Vert_{2,2}^2p+2\Vert\mathbf{A}^T\mathbf{A}\Vert_{2,2}\epsilon}}.\end{aligned}$ 此时 $\begin{aligned}\nabla F_{\mu}(\mathbf{x})&=\nabla f(\mathbf{x})+\mathbf{D}^T\nabla M_q^{\mu}(\mathbf{Dx})\\&=\nabla f(\mathbf{x})+\frac{1}{\mu}\mathbf{D}^T(\mathbf{Dx}-\mathrm{prox}_{\mu q}(\mathbf{Dx}))\\&=\nabla f(\mathbf{x})+\frac{1}{\mu}\mathbf{D}^T(\mathbf{Dx}-\mathcal{T}_{\mu}(\mathbf{Dx})).\end{aligned}$ 此时S-FISTA变成:

在这里插入图片描述
注意问题 $(\text{P})$ 由于其特殊结构, 实际上让我们能够确切地算出定理20中出现的常数 $\Gamma$ . 事实上, 若 $H(\mathbf{x})\le\alpha$ , 则 $\lambda\Vert\mathbf{x}\Vert_2\le\lambda\Vert\mathbf{x}\Vert_1\le\frac{1}{2}\Vert\mathbf{Ax-b}\Vert_{2}^2+\Vert\mathbf{Dx}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\le\alpha,$ 因此 $R_{\alpha}$ 可以取为 $\frac{\alpha}{\lambda}$ , 进一步就可以计算出 $\Gamma$ .

9. 非欧情形下的临近梯度法

本节, 我们讨论空间不是欧式空间的情形. 我们考虑两种处理方法, 它们分别针对不同形式的问题:

利用梯度下降法的变体, 求解光滑无约束问题;
基于Bregman距离(见第九章定义1), 修改PGM, 求解组合问题.

9.1 非欧梯度下降法

考虑无约束问题 $\min\{f(\mathbf{x}):\mathbf{x}\in\mathbb{E}\},$ 其中我们假设 $f$ 对于所处空间的范数是 $L_f$ -光滑的.

首先我们回忆以下梯度下降法, 其迭代格式为 $\mathbf{x}^{k+1}=\mathbf{x}^k-t_k\nabla f(\mathbf{x}^k).$ 正如我们在上一章讨论的, 在非欧空间中使用这一格式存在逻辑上的问题: $\mathbf{x}^k\in\mathbb{E},\,\nabla f(\mathbf{x}^k)\in\mathbb{E}^*$ . 注意到 $\mathbb{E},\mathbb{E}^*$ 在元素上是一一对应的⁷, 因此我们在使用上述格式时, 完全可以把 $\nabla f(\mathbf{x}^k)$ 当做其在 $\mathbb{E}$ 中的对应(这个对应不一定好找), 代入后再去运算. 但是这里, 我们考虑将上式中的 $\nabla f(\mathbf{x}^k)$ 替换成其在 $\mathbb{E}$ 中的“原始对等元(primal counterpart)”. 我们先给出原始对等元的定义: 对 $\forall\mathbf{a}\in\mathbb{E}^*$ , $\mathbf{a}$ 的原始对等元(集合)为 $\Lambda_{\mathbf{a}}=\arg\max_{\mathbf{v}\in\mathbb{E}}\{\langle\mathbf{a,v}\rangle:\Vert\mathbf{v}\Vert\le1\}.$ 下面的引理列出了 $\Lambda_{\mathbf{a}}$ 的一些基本性质. 它们都可以由原始对等元及对偶范数的定义推出.

引理7 (原始对等元集合的性质) 设 $\mathbf{a}\in\mathbb{E}^*$ .
(i) 若 $\mathbf{a\ne0}$ , 则 $\Vert\mathbf{a}^{\dagger}\Vert=1,\,\forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}}$ ;
(ii) 若 $\mathbf{a=0}$ , 则 $\Lambda_{\mathbf{a}}=B_{\Vert\cdot\Vert}[\mathbf{0},1]$ ;
(iii) $\langle\mathbf{a},\mathbf{a}^{\dagger}\rangle=\Vert\mathbf{a}\Vert_*,\,\forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}}$ ;
(iv) $\Lambda_{\mathbf{a}}=\partial h(\mathbf{a})$ ,其中 $h(\cdot)=\Vert\cdot\Vert_*$ .

证明: 由对偶范数的定义即得(iii)成立. 若 $\mathbf{a=0}$ , 则 $\langle\mathbf{a,v}\rangle\equiv0,\,\forall\mathbf{v}:\Vert\mathbf{v}\Vert\le1$ . 因此必然有 $\Lambda_{\mathbf{a}}=B_{\Vert\cdot\Vert}[\mathbf{0},1]$ ; 若 $\mathbf{a\ne0}$ , 假设 $\Vert\mathbf{a}^{\dagger}\Vert\le1,\,\exists\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}}$ . 则 $\Vert\mathbf{a}\Vert_*=\langle\mathbf{a},\mathbf{a}^{\dagger}\rangle\le\Vert\mathbf{a}\Vert_*\Vert\mathbf{a}^{\dagger}\Vert<\Vert\mathbf{a}\Vert_*$ , 矛盾. 所以(i),(ii)得证. (iv)是共轭次梯度定理(第四章定理12)的推论. 注意由第四章4.12节, 我们有 $h^*(\mathbf{v})=\delta_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{v}).$ 因此对 $\forall\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}}$ , 由(iii), $\langle\mathbf{a},\mathbf{a}^{\dagger}\rangle=h(\mathbf{a})+\delta_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{a}^{\dagger})=h(\mathbf{a})+h^*(\mathbf{a}^{\dagger}).$ 所以 $\mathbf{a}^{\dagger}\in\partial h(\mathbf{a})$ . 由 $\mathbf{a}^{\dagger}\in\Lambda_{\mathbf{a}}$ 的任意性, 就有 $\Lambda_{\mathbf{a}}=\partial h(\mathbf{a})$ .

例15 设 $\mathbb{E}=\mathbb{R}^n$ 中的范数为欧式 $\ell_2$ -范数. 此时对 $\forall\mathbf{a\ne0}$ , 由引理7的(iv), $\Lambda_{\mathbf{a}}=\left\{\frac{\mathbf{a}}{\Vert\mathbf{a}\Vert_2}\right\}.$

例16 设 $\mathbb{E}=\mathbb{R}^n$ 中的范数为 $\ell_1$ -范数. 此时对 $\forall\mathbf{a\ne0}$ , 根据第三章例18, $\Lambda_{\mathbf{a}}=\partial\Vert\cdot\Vert_{\infty}(\mathbf{a})=\left\{\sum_{i\in I(\mathbf{a})}\lambda_i\mathrm{sgn}(a_i)\mathbf{e}_i:\sum_{i\in I(\mathbf{a})}\lambda_i=1,\,\lambda_j\ge0,\,j\in I(\mathbf{a})\right\},$ 其中 $I(\mathbf{a})=\arg\max_{i=1,2,\ldots,n}|a_i|$ .

例17 设 $\mathbb{E}=\mathbb{R}^n$ 中的范数为 $\ell_{\infty}$ -范数. 则对 $\forall\mathbf{a\ne0}$ , 根据第三章例11, $\Lambda_{\mathbf{a}}=\partial\Vert\cdot\Vert_1(\mathbf{a})=\left\{\mathbf{z}\in\mathbb{R}^n:z_i=\mathrm{sgn}(a_i),\,i\in I_{\ne}(\mathbf{a});\,|z_j|\le1,\,j\in I_0(\mathbf{a})\right\},$ 其中 $I_{\ne}(\mathbf{a})=\{i\in\{1,2,\ldots,n\}:a_i\ne0\},\,I_0(\mathbf{a})=\{i\in\{1,2,\ldots,n\}:a_i=0\}.$

所谓的非欧梯度下降法, 实际就是把梯度下降法中的 $\nabla f(\mathbf{x}^k)$ 替换成某个 $\nabla f(\mathbf{x}^k)^{\dagger}\in\Lambda_{\nabla f(\mathbf{x}^k)}$ .

在这里插入图片描述
我们先证明非欧梯度下降法的充分下降引理. 其过程基本与引理1相同.

引理8 (非欧梯度下降法的充分下降引理) 设 $f:\mathbb{E}\to\mathbb{R}$ 为一 $L_f$ -光滑函数, $\{\mathbf{x}^k\}_{k\ge0}$ 为由非欧梯度下降法生成的迭代序列. 则对 $\forall k\ge0$ , $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge\frac{L_k-\frac{L_f}{2}}{L_k^2}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2.$

证明: 由 $L_f$ -光滑函数的下降引理, $\begin{aligned}f(\mathbf{x}^{k+1})&\le f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}^{k+1}-\mathbf{x}^k\rangle+\frac{L_f}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2\\&=f(\mathbf{x}^k)-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_k}\langle\nabla f(\mathbf{x}^k),\nabla f(\mathbf{x}^k)^{\dagger}\rangle+\frac{L_f\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{2L_k^2}\\&\overset{引理7(\text{iii})}{=}f(\mathbf{x}^k)-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{L_k}+\frac{L_f\Vert\nabla f(\mathbf{x}^k)\Vert_*^2}{2L_k^2}\\&=f(\mathbf{x}^k)-\frac{L_k-\frac{L_f}{2}}{L_k^2}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2.\end{aligned}$

我们考虑三种步长准则: 常值、回溯、精确线搜索.

常值: $L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right),\,\forall k$ ;
回溯B4: 输入参数 $(s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1$ . 按如下流程选取 $L_k$ :
1. $L_k:=s$ ;
2. 若 $f(\mathbf{x}^k)-f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_k}\nabla f(\mathbf{x}^k)^{\dagger}\right)<\frac{\gamma}{L_k}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2,$ 则 $L_k:=\eta L_k$ .
  换句话说, $L_k$ 选取为 $L_k=s\eta^{i_k}$ , 其中 $i_k$ 为使 $f(\mathbf{x}^k)-f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*\Vert}{s\eta^{i_k}}\nabla f(\mathbf{x}^k)^{\dagger}\right)\ge\frac{\gamma}{s\eta^{i_k}}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2$ 成立的最小非负整数.
精确线搜索: $L_k\in\arg\min_{L>0}f\left(\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L}\nabla f(\mathbf{x}^k)^{\dagger}\right)$ .

类似地, 我们可以证明回溯B4准则下步长的上界 $L_k\le\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}.$

9.1.1 非凸情形下的收敛性分析

下面的引理9和定理21类似于引理5和定理3.

引理9 (具体步长准则下非欧梯度下降法的充分下降引理) 设 $f$ 为 $L_f$ -光滑函数, $\{\mathbf{x}^k\}_{k\ge0}$ 为由基于常值 $\left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right)$ 、回溯B4 $((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1)$ 或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则对 $\forall k\ge0$ , $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2,$ 其中 $M=\left\{\begin{array}{ll}\dfrac{\bar L-\frac{L_f}{2}}{(\bar L)^2}, & 常值,\\\dfrac{\gamma}{\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}}, & 回溯,\\\dfrac{1}{2L_f}, & 精确线搜索.\end{array}\right.$

证明: 常值和回溯B4步长准则下的结论是显然的. 我们考虑精确线搜素准则. 由精确线搜索的最优性, 我们有 $f(\mathbf{x}^{k+1})\le f(\tilde\mathbf{x}^k)$ , 其中 $\tilde\mathbf{x}^k=\mathbf{x}^k-\frac{\Vert\nabla f(\mathbf{x}^k)\Vert_*}{L_f}\nabla f(\mathbf{x}^k)^{\dagger}$ . 因此 $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge f(\mathbf{x}^k)-f(\tilde\mathbf{x}^k)\ge\frac{1}{2L_f}\Vert\nabla f(\mathbf{x}^k)\Vert_*^2.$ 得证.

定理21 (非凸情形下非欧梯度下降法的收敛性) 设 $f$ 为 $L_f$ -光滑函数, $\{\mathbf{x}^k\}_{k\ge0}$ 为由基于常值 $\left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right)$ 、回溯B4 $((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1)$ 或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则
(i) 函数值序列 $\{f(\mathbf{x}^k)\}_{k\ge0}$ 单调递减; 另外, $f(\mathbf{x}^{k+1})<f(\mathbf{x}^k)$ 当且仅当 $\nabla f(\mathbf{x}^k)\ne\mathbf{0}$ ;
(ii) 若函数值序列 $\{f(\mathbf{x}^k)\}_{k\ge0}$ 有下界, 则 $\nabla f(\mathbf{x}^k)\to\mathbf{0}$ ;
(iii) 若最优值有限, 记为 $f_{\mathrm{opt}}$ , 则 $\min_{n=0,1,\ldots,k}\Vert\nabla f(\mathbf{x}^k)\Vert_*\le\frac{\sqrt{f(\mathbf{x}^0)-f_{\mathrm{opt}}}}{\sqrt{M(k+1)}},$ 其中 $M$ 如引理9中定义;
(iv) $\{\mathbf{x}^k\}_{k\ge0}$ 的所有聚点都是问题的稳定点.

证明: (i) 由引理9, $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2,$ 其中 $M > 0$ . 于是显然有函数值序列单调递减. 另外, 若 $\nabla f(\mathbf{x}^k)\ne\mathbf{0}$ , 则 $f(\mathbf{x}^k)>f(\mathbf{x}^{k+1})$ ; 若 $\nabla f(\mathbf{x}^k)=\mathbf{0}$ , 则 $\mathbf{x}^{k+1}=\mathbf{x}^k$ , 从而 $f(\mathbf{x}^{k+1})=f(\mathbf{x}^k)$ .

(ii) 由于函数值序列单调递减且下有界, 所以收敛. 特别由Cauchy收敛准则, $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\to0$ . 结合引理9就有 $\nabla f(\mathbf{x}^k)\to\mathbf{0}$ .

(iii) 由于对 $\forall n\ge0$ , $f(\mathbf{x}^n)-f(\mathbf{x}^{n+1})\ge M\Vert\nabla f(\mathbf{x}^n)\Vert_*^2.$ 对指标 $n=0,1,\ldots,k$ 求和即得 $f(\mathbf{x}^0)-f(\mathbf{x}^{k+1})\ge M\sum_{n=0}^k\Vert\nabla f(\mathbf{x}^n)\Vert_*^2\ge(k+1)M\min_{n=0,1,\ldots,k}\Vert\nabla f(\mathbf{x}^n)\Vert_*^2.$ 再由 $f(\mathbf{x}^{k+1})\ge f_{\mathrm{opt}}$ , 移项即得(iii).

(iv) 设 $\bar\mathbf{x}$ 为 $\{\mathbf{x}^k\}_{k\ge0}$ 的一个聚点. 则存在子列 $\{\mathbf{x}^{k_j}\}_{j\ge0}$ 收敛于 $\bar\mathbf{x}$ . 对 $\forall j\ge0$ , $\Vert\nabla f(\bar\mathbf{x})\Vert_*\le\Vert\nabla f(\mathbf{x}^{k_j})-\nabla f(\bar\mathbf{x})\Vert_*+\Vert\nabla f(\mathbf{x}^{k_j})\Vert_*\le L_f\Vert\mathbf{x}^{k_j}-\bar\mathbf{x}\Vert+\Vert\nabla f(\mathbf{x}^{k_j})\Vert_*\to0.$ 所以 $\nabla f(\bar\mathbf{x})=\mathbf{0}\Leftrightarrow\bar\mathbf{x}$ 是稳定点.

9.1.2 凸情形下的收敛性分析

为分析凸情形下的收敛性, 我们额外需要一个类似于有界性的假设.

假设条件4
(i) $f:\mathbb{E}\to\mathbb{R}$ 是 $凸L_f$ -光滑函数;
(ii) 问题 $\min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x})$ 的最优解集非空, 记为 $X^*$ ; 最优值记为 $f_{\mathrm{opt}}$ ;
(iii) 对 $\forall\alpha>0$ , 存在 $R_{\alpha}>0$ , 使得 $\max_{\mathbf{x},\mathbf{x}^*}\{\Vert\mathbf{x}^*-\mathbf{x}\Vert:f(\mathbf{x})\le\alpha,\,\mathbf{x}^*\in X^*\}\le R_{\alpha}.$ 意即 $f$ 的任一水平集与最优解集 $X^*$ 的最大距离均有上界.

为证明收敛速度, 我们需要下面的引理10、11.

引理10 假定假设条件4成立. 设 $\{\mathbf{x}^k\}_{k\ge0}$ 为由基于常值 $\left(L_k\equiv\bar L\in\left(\frac{L_f}{2},\infty\right)\right)$ 、回溯B4 $((s,\gamma,\eta):s>0,\,\gamma\in(0,1),\,\eta>1)$ 或精确线搜索步长准则的非欧梯度下降法生成的迭代序列. 则 $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge\frac{1}{C}(f(\mathbf{x}^k)-f_{\mathrm{opt}})^2,$ 其中 $C=\left\{\begin{array}{ll}\frac{R_{\alpha}^2\bar L^2}{\bar L-\frac{L_f}{2}}, & 常值,\\\frac{R_{\alpha}^2}{\gamma}\max\left\{s,\frac{\eta L_f}{2(1-\gamma)}\right\}, & 回溯,\\2R_{\alpha}^2L_f, & 精确线搜索,\end{array}\right.$ $\alpha=f(\mathbf{x}^0)$ .

证明: 注意由定理21(i), $\{f(\mathbf{x}^k)\}_{k\ge0}$ 单调递减; 特别地, 对 $\forall k\ge0$ , $f(\mathbf{x}^k)\le f(\mathbf{x}^0)$ . 因此对 $\forall\mathbf{x}^*\in X^*,\,k\ge0$ , $\Vert\mathbf{x}^k-\mathbf{x}^*\Vert\le R_{\alpha},$ 其中 $\alpha=f(\mathbf{x}^0)$ . 一方面我们注意到, 由引理9, $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2.$ 另一方面由凸函数的性质以及Cauchy-Schwarz不等式, 对 $\forall\mathbf{x}^*\in X^*$ , $\begin{aligned}f(\mathbf{x}^k)-f_{\mathrm{opt}}&=f(\mathbf{x}^k)-f(\mathbf{x}^*)\\&\le\langle\nabla f(\mathbf{x}^k),\mathbf{x}^k-\mathbf{x}^*\rangle\\&\le\Vert\nabla f(\mathbf{x}^k)\Vert_*\Vert\mathbf{x}^k-\mathbf{x}^*\Vert\\&\le R_{\alpha}\Vert\nabla f(\mathbf{x}^k)\Vert_*.\end{aligned}$ 因此就有 $f(\mathbf{x}^k)-f(\mathbf{x}^{k+1})\ge M\Vert\nabla f(\mathbf{x}^k)\Vert_*^2\ge\frac{M}{R_{\alpha}^2}(f(\mathbf{x}^k)-f_{\mathrm{opt}})^2.$ 将 $M$ 的定义代入即可得证.

引理11 设 $\{a_k\}_{k\ge0}$ 为非负实数列, 且存在 $\gamma>0$ , 对 $\forall k\ge0$ , $a_k-a_{k+1}\ge\frac{1}{\gamma}a_k^2.$ 则对 $\forall k\ge1$ , $a_k\le\frac{\gamma}{k}.$

证明: 设 $k\ge1$ . 若 $a_k=0$ , 则显然结论成立. 假设 $a_k>0$ . 则由 $\{a_n\}_{n\ge0}$ 的单调性, 我们有 $a_0,a_1,\ldots,a_k>0$ . 对 $\forall n=1,2,\ldots,k$ , $\frac{1}{a_n}-\frac{1}{a_{n-1}}=\frac{a_{n-1}-a_n}{a_{n-1}a_n}\ge\frac{1}{\gamma}\frac{a_{n-1}^2}{a_{n-1}a_n}=\frac{1}{\gamma}\frac{a_{n-1}}{a_n}\ge\frac{1}{\gamma}.$ 对指标 $n=1,2,\ldots,k$ 求和上式可得 $\frac{1}{a_k}\ge\frac{1}{a_0}+\frac{k}{\gamma}\ge\frac{k}{\gamma}.$ 这就证明了结论.

将引理10代入引理11后, 我们立得非欧梯度下降法的 $O (1 / k)$ 收敛速度.

定理22 (非欧梯度下降法的 $O (1 / k)$ 收敛速度⁸) 在引理10的假设条件下, 对 $\forall k\ge1$ , $f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{C}{k},$ 其中 $C$ 如引理10中定义.

证明: 由引理10, $a_k-a_{k+1}\ge\frac{1}{C}a_k^2,$ 其中 $a_k=f(\mathbf{x}^k)-f_{\mathrm{opt}}$ . 再由引理11, 令其中 $\gamma=C$ . 于是就有 $a_k\le\frac{C}{k}$ .

9.1.3 $\ell_1$ -范数下 $\mathbb{R}^n$ 中的非欧梯度下降法

例18 设当前空间为 $\mathbb{R}^n$ , 其中范数为 $\ell_1$ -范数. 设 $f$ 为对 $\ell_1$ -范数的 $L_f$ -光滑函数. 注意此时对 $\forall\mathbf{a\ne0}$ , 其原始对等元集合(见例16)为 $\Lambda_{\mathbf{a}}=\left\{\sum_{i\in I(\mathbf{a})}\lambda_i\mathrm{sgn}(a_i)\mathbf{e}_i:\sum_{i\in I(\mathbf{a})}\lambda_i=1,\,\lambda_j\ge0,\,j\in I(\mathbf{a})\right\},$ 其中 $I(\mathbf{a})=\arg\max_{i=1,2,\ldots,n}|a_i|$ . 在用的时候, 我们可以任取 $i\in I(\mathbf{a})$ 并令 $\mathbf{a}^{\dagger}=\mathrm{sgn}(a_i)\mathbf{e}_i$ . 此时非欧梯度下降法变成:

在这里插入图片描述
注意此时的非欧梯度下降实质上就是坐标下降法(coordinate descent method)的一个变体. 只是每步更新的分量和步长具有一定的特殊性.

例19 考虑问题 $\min_{\mathbf{x}\in\mathbb{R}^n}\left\{\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}\right\},$ 其中 $\mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n$ . 此时 $\mathbb{E}=\mathbb{R}^n$ , 范数为 $\ell_p$ -范数 $(p\in[1,\infty])$ . 根据第五章例1, $f$ 是 $L_f^{(p)}$ -光滑函数, 其中 $L_f^{(p)}=\Vert\mathbf{A}\Vert_{p,q}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_q:\Vert\mathbf{x}\Vert_p\le1\},$ $q\in[1,\infty]:\frac{1}{p}+\frac{1}{q}=1$ . 其中两个特例为:

$p = 2$ . 此时因为 $\mathbf{A}$ 是正定矩阵, 所以 $L_f^{(2)}=\Vert\mathbf{A}\Vert_{2,2}=\lambda_{\max}(\mathbf{A})$ ;
$p = 1$ . 此时 $L_f^{(1)}=\Vert\mathbf{A}\Vert_{1,\infty}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_{\infty}:\Vert\mathbf{x}\Vert_1\le1\}$ . 一方面, 对 $\forall j$ , $\Vert\mathbf{A}\Vert_{1,\infty}\ge\Vert\mathbf{Ae}_j\Vert_{\infty}=\max_{i}|A_{i,j}|.$ 从而 $\Vert\mathbf{A}\Vert_{1,\infty}\ge\max_{i,j}|A_{i,j}|$ . 另一方面, $\begin{aligned}\Vert\mathbf{A}\Vert_{1,\infty}=\max_{\mathbf{x}}\max_i\left|\sum_{j=1}^nA_{i,j}x_j\right|&\le\max_{\mathbf{x}}\max_i\sum_{j=1}^n|A_{i,j}||x_j|\\&\le\max_{i,j}|A_{i,j}|\max_{\mathbf{x}}\max_i\sum_{j=1}^n|x_j|\\&=\max_{i,j}|A_{i,j}|.\end{aligned}$ 所以 $\Vert\mathbf{A}\Vert_{1,\infty}=\max_{i,j}|A_{i,j}|$ .

当 $p = 2$ 时, 非欧梯度下降法就是欧式梯度下降法, 其中步长固定为 $L_k\equiv L_f^{(2)}=\lambda_{\max}(\mathbf{A})$ .

在这里插入图片描述
当 $p = 1$ 时, 非欧梯度下降法就成了一个坐标下降型算法, 其中步长固定为 $L_k\equiv L_f^{(1)}=\max_{i,j}|A_{i,j}|$ .

在这里插入图片描述
由定理22⁹, $f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{2L_f^{(p)}R_{f(\mathbf{x}^0)}^2}{k}.$ 因此, 比值 $\frac{L_f^{(2)}}{L_f^{(1)}}$ 可作为这两种方法孰好孰差的指标.

同时, 我们注意到两种算法的每步的计算量不同. 算法G2每步均需要 $O(n^2)$ 的计算量, 而G1最少时只用 $O (n)$ . 因此, 为公平比较二者的性能, 我们把G1的 $n$ 步称作1步元迭代(meta-iteration).

例20 我们用数值算例具体比较例19中两种算法的性能. 我们令 $\mathbf{A}=\mathbf{A}^{(d)}\equiv\mathbf{J}+d\mathbf{I}$ , 其中 $\mathbf{J}$ 是全1矩阵. 于是对 $\forall d>0$ , $\mathbf{A}^{(d)}$ 是正定矩阵, 且 $\lambda_{\max}(\mathbf{A}^{(d})=d+n,\,\max_{i,j}|A_{i,j}^{(d)}|=d+1$ . 因此, 随着比值 $\rho_f=\frac{L_f^{(2)}}{L_f^{(1)}}=\frac{d+n}{d+1}$ 变得越大, 欧式梯度下降法(算法G2)将越逊于非欧梯度下降法(算法G1).

具体地, 我们取 $\mathbf{A}=\mathbf{A}^{(2)},\,\mathbf{b}=10\mathbf{e}_1$ . 初始点选为 $\mathbf{x}^0=\mathbf{e}_n$ . 我们分别在 $n = 10, 100$ 时画出两种算法下 $f(\mathbf{x}^k)-f_{\mathrm{opt}}$ 的变化曲线.

在这里插入图片描述其中上面是 $n = 10$ , 下面是 $n = 100$ . 左图是G1元迭代与G2的比较, 右图则是按原始迭代的比较.

从左图可知, 当比较G1元迭代与G2时, G1显著优于G2. 而从右图可知, 当 $n = 10$ 时, G1与G2差不多, 此时 $\rho_f=4$ ; 而当 $n = 100$ 时, G1仍比G2要好不少, 此时 $\rho_f=34$ . 注意右图的比较中, G1每步的计算量也要明显少于G2.

9.2 非欧临近梯度法

本小节我们考虑PGM常被应用的组合问题 $\min_{\mathbf{x}\in\mathbb{E}}\{F(\mathbf{x})\equiv f(\mathbf{x})+g(\mathbf{x})\},$ 其中 $\mathbb{E}$ 不再是欧式空间. 我们之后也将比较非欧与欧式算法. 我们事先说明, 当 $g\equiv0$ 时, 非欧PGM并不会变成非欧梯度下降法. 这就是说, 非欧PGM并不是非欧梯度下降法的推广. 这与PGM是梯度下降法的推广是不同的. 设计非欧PGM的过程类似于将PSGM推广到MDM的过程.

我们先做如下假设.

假设条件5
(i) $g:\mathbb{E}\to(-\infty,\infty]$ 为正常闭凸函数;
(ii) $f:\mathbb{E}\to(-\infty,\infty]$ 为正常闭凸函数; $\mathrm{g}\subset\mathrm{int}(\mathrm{dom}(f))$ , $f$ 在 $\mathrm{int}(\mathrm{dom}(f))$ 上 $L_f$ -光滑;
(iii) 问题的最优解集非空, 记为 $X^*$ ; 最优值记为 $F_{\mathrm{opt}}$ .

在欧式空间下, PGM的更新格式可以写成 $\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+g(\mathbf{x})+\frac{L_k}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\}.$ 类似于MDM, 我们将欧式距离替换成Bregman距离, 就得到了 $\mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+g(\mathbf{x})+L_kB_{\omega}(\mathbf{x},\mathbf{x}^k)\right\},$ 其中 $B_{\omega}$ 是与 $\omega$ 相关联的Bregman距离(见第九章定义1). 我们假设 $\omega$ 满足以下性质:

假设条件6
(i) $\omega$ 为正常闭凸函数;
(ii) $\omega$ 在 $\mathrm{dom}(\partial\omega)$ 上可微;
(iii) $\mathrm{dom}(g)\subset\mathrm{dom}(\omega)$ ;
(iv) $\omega+\delta_{\mathrm{dom}(g)}$ 是 $1$ -强凸函数.

此时非欧PGM如下:

在这里插入图片描述
首先根据第九章引理2, 令其中的 $\psi(\mathbf{x})=\left\langle\frac{1}{L_k}\nabla f(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\right\rangle+\frac{1}{L_k}g(\mathbf{x})$ , 再由假设条件5、6, 即得非欧PGM总是良定义的, 即 $\mathbf{x}^k\in\mathrm{dom}(g)\cap\mathrm{dom}(\partial\omega)$ .

下面我们讨论两种步长准则. 为记号方便, 我们引入 $V_L(\bar\mathbf{x})\equiv\arg\min_{\mathbf{x}\in\mathbb{E}}\left\{\left\langle\frac{1}{L}\nabla f(\bar\mathbf{x})-\nabla\omega(\bar\mathbf{x}),\mathbf{x}\right\rangle+\frac{1}{L}g(\mathbf{x})+\omega(\mathbf{x})\right\}.$

常值: $L_k\equiv\bar L=L_f,\,\forall k$ ;
回溯B5: 输入两个参数 $(s,\eta):s>0,\,\eta>1$ . 令 $L_{-1}=s$ . 按如下流程选取 $L_k(k\ge0)$ :
1. $L_k:=L_{k-1}$ ;
2. 若 $f(V_{L_k}(\mathbf{x}^k))>f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),V_{L_k}(\mathbf{x}^k)-\mathbf{x}^k\rangle+\frac{L_k}{2}\Vert V_{L_k}(\mathbf{x}^k)-\mathbf{x}^k\Vert^2,$ 则令 $L_k:=\eta L_k$ .

换句话说, 在回溯B5步长准则中, 步长具有形式 $L_k=L_{k-1}\eta^{i_k}$ , 其中 $i_k$ 是使得 $\begin{aligned}f(V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k))\le&f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k,V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k)-\mathbf{x}^k\rangle\\&+\frac{L_k}{2}\Vert V_{L_{k-1}\eta^{i_k}}(\mathbf{x}^k)-\mathbf{x}^k\Vert^2\end{aligned}$ 成立的最小非负整数.

注意到两种步长准则下, 都有充分下降条件成立: $f(\mathbf{x}^{k+1})\le f(\mathbf{x}^k)+\langle\nabla f(\mathbf{x}^k),\mathbf{x}^{k+1}-\mathbf{x}^k\rangle+\frac{L_k}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2.$ 类似地, 我们可给出步长的上界 $L_k\le\alpha L_f$ , 其中 $\alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right.$

定理22 (非欧PGM的 $O (1 / k)$ 收敛速度) 假定假设条件5、6成立. 设 $\{\mathbf{x}^k\}_{k\ge0}$ 为由基于常值 $L_k\equiv L_f,\,\forall k\ge0$ 或回溯B5 $(s,\eta):s>0,\eta>1$ 的非欧PGM生成的迭代序列. 则
(i) 函数值序列 $\{F(\mathbf{x}^k)\}_{k\ge0}$ 单调递减;
(ii) 对 $\forall k\ge1,\,\mathbf{x}^*\in X^*$ , $F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)}{k},$ 其中 $\alpha=\left\{\begin{array}{ll}1, & 常值,\\\max\left\{\eta,\frac{s}{L_f}\right\}, & 回溯.\end{array}\right.$

证明: (i) 记 $m(\mathbf{x,y})\equiv f(\mathbf{y})+\langle\nabla f(\mathbf{y}),\mathbf{x-y}\rangle$ . 则在两种步长准则下, 对 $\forall n\ge0$ , 均有 $f(\mathbf{x}^{n+1})\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+\frac{L_n}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2.$ 因此 $\begin{aligned}F(\mathbf{x}^{n+1})&=f(\mathbf{x}^{n+1})+g(\mathbf{x}^{n+1})\\&\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+\frac{L_n}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2\\&\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n),\end{aligned}$ 其中最后一个不等号是因为 $\omega+\delta_{\mathrm{dom}(g)}$ 是 $1$ -强凸函数. 又注意到 $\mathbf{x}^{n+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\},$ 所以 $\begin{aligned}m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1}+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)&\le m(\mathbf{x}^n,\mathbf{x}^n)+g(\mathbf{x}^n)+L_nB_{\omega}(\mathbf{x}^n,\mathbf{x}^n)\\&= f(\mathbf{x}^n)+g(\mathbf{x}^n)\\&=F(\mathbf{x}^n).\end{aligned}$ 这就证明了 $\{F(\mathbf{x}^k)\}_{k\ge0}$ 是单调递减的.

(ii) 设 $k\ge1,\,\mathbf{x}^*\in X^*$ . 再次由于 $\mathbf{x}^{n+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\},$ 根据非欧第二临近定理(第九章定理2), 令其中 $\psi(\mathbf{x})=\frac{m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})}{L_n},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{a}=\mathbf{x}^{n+1}$ , 就有 $\langle\nabla\omega(\mathbf{x}^n)-\nabla\omega(\mathbf{x}^{n+1}),\mathbf{x}-\mathbf{x}^{n+1}\rangle\le\frac{m(\mathbf{x},\mathbf{x}^n)-m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x})-g(\mathbf{x}^{n+1})}{L_n},$ 再由三点引理(第九章引理3), 令其中 $\mathbf{a}=\mathbf{x}^{n+1},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{c}=\mathbf{x}$ , 就得到 $B_{\omega}(\mathbf{x},\mathbf{x}^{n+1})+B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)-B_{\omega}(\mathbf{x},\mathbf{x}^n)\le\frac{m(\mathbf{x},\mathbf{x}^n)-m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x})-g(\mathbf{x}^{n+1})}{L_n}.$ 移项整理后可得 $\begin{aligned}F(\mathbf{x}^{n+1})\le m(\mathbf{x}^{n+1},\mathbf{x}^n)+g(\mathbf{x}^{n+1})+L_nB_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)\le& m(\mathbf{x},\mathbf{x}^n)+g(\mathbf{x})+L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)\\&-L_nB_{\omega}(\mathbf{x},\mathbf{x}^{n+1}).\end{aligned}$ 因为 $f$ 是凸函数, 所以 $m(\mathbf{x},\mathbf{x}^n)\le f(\mathbf{x})$ , 因此 $F(\mathbf{x}^{n+1})-F(\mathbf{x})\le L_nB_{\omega}(\mathbf{x},\mathbf{x}^n)-L_nB_{\omega}(\mathbf{x},\mathbf{x}^{n+1}).$ 代入 $\mathbf{x}=\mathbf{x}^*$ , 两边同除 $L_n$ 并利用 $L_n\le\alpha L_f$ , 即有 $\frac{F(\mathbf{x}^{n+1})-F(\mathbf{x}^n)}{\alpha L_f}\le\frac{F(\mathbf{x}^{n+1})-F(\mathbf{x}^n)}{L_n}\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1}),$ 从而推出 $F(\mathbf{x}^{n+1})-F_{\mathrm{opt}}\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1}).$ 对指标 $n=0,1,\ldots,k-1$ 求和上述不等式, 就有 $\sum_{n=0}^{k-1}(F(\mathbf{x}^{n+1})-F_{\mathrm{opt}})\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^k)\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0).$ 最后利用(i)中证得的函数值序列的单调性, 就有 $k(F(\mathbf{x}^k)-F_{\mathrm{opt}})\le\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)\Rightarrow F(\mathbf{x}^k)-F_{\mathrm{opt}}\le\frac{\alpha L_fB_{\omega}(\mathbf{x}^*,\mathbf{x}^0)}{k}.$

从FISTA的算法描述中, 我们可以看出FISTA每次迭代的计算量与PGM是差不多的. 但FISTA却有更好的收敛速度. ↩︎
关于这一点可以自行参看LASSO的相关内容. ↩︎
注意这里是指固定逼近函数时, 参数的紧致性(tightness). ↩︎
这是因为对 $\forall\mathbf{x}\in\mathbb{R}^n$ , $\Vert\mathbf{x}\Vert_1\le\sqrt{n}\Vert\mathbf{x}\Vert_2$ . ↩︎
(v)实际上是(i)-(iv)的推论. 可见闭函数的Weierstrass定理(第二章定理4). ↩︎
注意到定理20中选取的光滑参数并不依赖于 $\Gamma$ , 也即初始点; 而具体所需的迭代数确是依赖于 $\Gamma$ 的. 不过, $\mu$ 是依赖于求解精度 $\epsilon$ 的, 并且当 $\epsilon$ 越小, 也即要求的精度越高时, $\mu$ 越小, 从而 $\frac{1}{\mu}$ 越大, 得到的 $h_{\mu}$ 就越光滑(这里的“越光滑”值光滑参数更大). ↩︎
注意, 这里的“一一对应”关系的基础是Riesz表示定理. 与下面的“原始对等元”是不同的. ↩︎
当取常值步长准则 $L_k\equiv\bar L\equiv L_f$ 时, 定理22变成 $f(\mathbf{x}^k)-f_{\mathrm{opt}}\le\frac{2R_{\alpha}^2L_f}{k}.$ 这与PGM在凸情形下的收敛结论(定理5)具有相似的形式. ↩︎
注意此时 $R_{f(\mathbf{x}^0)}$ 也是依赖于所选取的范数的. ↩︎

Learner Hu

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
7
评论
First Order Methods in Optimization Ch10. The Proximal Gradient Method (Part II)

第十章: 临近梯度法 (第二部分)文章目录第十章: 临近梯度法 (第二部分)7. 快速临近梯度法——FISTA7.1 算法7.2 FISTA的收敛性质7.3 FISTA应用实例7.4 MFISTA7.5 加权FISTA7.6 强凸情形下的重启FISTA7.7 强凸情形下的V-FISTA8. 光滑化8.1 动机8.2 可光滑函数与光滑逼近7. 快速临近梯度法——FISTA7.1 算法先前我们...
复制链接

扫一扫