First Order Methods in Optimization Ch9. Mirror Descent

第九章: 镜像下降法


本章讨论 镜像下降法(mirror descent method, MDM)及其变体. 镜像下降实际上是 Proj-SGM在非欧情形下的推广. 因此本章的讨论不再限制在欧式空间中.

1. 从投影次梯度法到镜像下降法

考虑优化问题 ( P ) min ⁡ { f ( x ) : x ∈ C } . (\mathrm{P})\quad\min\{f(\mathbf{x}):\mathbf{x}\in C\}. (P)min{f(x):xC}.我们对其做如下假设:

假设条件1
(i) f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]是正常闭凸函数;
(ii) C ⊂ E C\subset\mathbb{E} CE是非空闭凸集;
(iii) C ⊂ i n t ( d o m ( f ) ) C\subset\mathrm{int}(\mathrm{dom}(f)) Cint(dom(f));
(iv) 问题 ( P ) (\mathrm{P}) (P)的最优解集非空, 记为 X ∗ X^* X. 最优值记为 f o p t f_{\mathrm{opt}} fopt.

求解问题 ( P ) (\mathrm{P}) (P)的Proj-SGM已在第八章讨论过. 而贯穿第八章始终的一个基本假设就是空间是欧式空间, 即 ∥ ⋅ ∥ = ⟨ ⋅ , ⋅ ⟩ \Vert\cdot\Vert=\sqrt{\langle\cdot,\cdot\rangle} =, . 那么欧式空间假设的作用在何处呢? 考虑Proj-SGM的一般迭代格式 x k + 1 = P C ( x k − t k f ′ ( x k ) ) , f ′ ( x k ) ∈ ∂ f ( x k ) , \mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)),\quad f'(\mathbf{x}^k)\in\partial f(\mathbf{x}^k), xk+1=PC(xktkf(xk)),f(xk)f(xk),其中 t k t_k tk为步长. 当空间非欧时, 使用上述迭代格式就存在一个逻辑上的问题: x k 在 E 中 , 而 f ′ ( x k ) 在 E ∗ 中 . \mathbf{x}^k在\mathbb{E}中, 而f'(\mathbf{x}^k)在\mathbb{E}^*中. xkE,f(xk)E. 当然, 元素上我们可以将 E , E ∗ \mathbb{E},\mathbb{E}^* E,E视作等同. 但当讨论涉及范数时, 就会陷入困境. 这便是将Proj-SGM推广到非欧空间的动机之一.

为更好地解释欧式范数在Proj-SGM中的作用, 我们将Proj-SGM迭代格式写成如下的等价形式: x k + 1 = arg ⁡ min ⁡ x ∈ C { f ( x k ) + ⟨ f ′ ( x k ) , x − x k ⟩ + 1 2 t k ∥ x − x k ∥ 2 } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\}, xk+1=argxCmin{f(xk)+f(xk),xxk+2tk1xxk2},等价是因为 f ( x k ) + ⟨ f ′ ( x k ) , x − x k ⟩ + 1 2 t k ∥ x − x k ∥ 2 = 1 2 t k ∥ x − [ x k − t k f ′ ( x k ) ] ∥ 2 + D , f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2=\frac{1}{2t_k}\Vert\mathbf{x}-[\mathbf{x}^k-t_kf'(\mathbf{x}^k)]\Vert^2+D, f(xk)+f(xk),xxk+2tk1xxk2=2tk1x[xktkf(xk)]2+D,其中 D D D是与 x \mathbf{x} x无关的常数. 由等价形式, 我们发现Proj-SGM每步实际上就是在极小化目标函数在当前迭代点 x k \mathbf{x}^k xk处的一个线性近似外加一个二次的临近项.

当内积与范数不相容时(也就是非欧空间), 上述等价性便不成立. 但这一等价形式提醒我们, 可以将欧式距离 1 2 ∥ x − y ∥ 2 \frac{1}{2}\Vert\mathbf{x-y}\Vert^2 21xy2换成一种与内积兼容, 同时又可度量距离的某个函数. 这里我们要使用的非欧“距离”是所谓的Bregman距离(Bregman distances).

定义1 (Bregman距离) 设 ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E(,]为一正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(ω)上可微. 与 ω \omega ω相关联的Bregman距离是二元函数 B ω : d o m ( ω ) × d o m ( ∂ ω ) → R B_{\omega}:\mathrm{dom}(\omega)\times\mathrm{dom}(\partial\omega)\to\mathbb{R} Bω:dom(ω)×dom(ω)R, 定义为 B ω ( x , y ) = ω ( x ) − ω ( y ) − ⟨ ∇ ω ( y ) , x − y ⟩ . B_{\omega}(\mathbf{x,y})=\omega(\mathbf{x})-\omega(\mathbf{y})-\langle\nabla\omega(\mathbf{y}),\mathbf{x-y}\rangle. Bω(x,y)=ω(x)ω(y)ω(y),xy.

对于给定的集合 C C C, 我们对 ω \omega ω做如下假设.

假设条件2 ( ω \omega ω的性质)
(i) ω \omega ω是正常闭凸函数;
(ii) ω \omega ω d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(ω)上可微;
(iii) C ⊂ d o m ( ω ) C\subset\mathrm{dom}(\omega) Cdom(ω);
(iv) ω + δ C \omega+\delta_C ω+δC σ \sigma σ-强凸函数( σ > 0 \sigma>0 σ>0).

需要指出的是, Bregman距离并不是一个距离. 它满足非负性, 且若它为 0 0 0, 它的两个参数就相同; 但除此之外, 它一般并不满足对称性和三角不等式. 我们将Bregman距离满足的性质汇总于引理1.

引理1 (Bregman距离的基本性质) 设 C ⊂ E C\subset\mathbb{E} CE为非空闭凸集, ω \omega ω满足假设条件2. 设 B ω B_{\omega} Bω为与 ω \omega ω相关联的Bregman距离. 则
(i) B ω ( x , y ) ≥ σ 2 ∥ x − y ∥ 2 ,   ∀ x ∈ C ,   y ∈ C ∩ d o m ( ∂ ω ) B_{\omega}(\mathbf{x,y})\ge\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega) Bω(x,y)2σxy2,xC,yCdom(ω);
(ii) 设 x ∈ C ,   y ∈ C ∩ d o m ( ∂ ω ) \mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega) xC,yCdom(ω). 则

  • B ω ( x , y ) ≥ 0 B_{\omega}(\mathbf{x,y})\ge0 Bω(x,y)0;
  • B ω ( x , y ) = 0 ⇔ x = y B_{\omega}(\mathbf{x,y})=0\Leftrightarrow\mathbf{x=y} Bω(x,y)=0x=y.

证明: (i)直接根据强凸函数的一阶刻画(第五章定理6(ii))可得. (ii)则是(i)的直接推论.

假设 x k ∈ C ∩ d o m ( ∂ ω ) \mathbf{x}^k\in C\cap\mathrm{dom}(\partial\omega) xkCdom(ω). 将Proj-SGM等价迭代格式中的 1 2 ∥ x − x k ∥ 2 \frac{1}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2 21xxk2替换成Bregman距离 B ω ( x , x k ) B_{\omega}(\mathbf{x},\mathbf{x}^k) Bω(x,xk)就有 x k + 1 = arg ⁡ min ⁡ x ∈ C { f ( x k ) + ⟨ f ′ ( x k ) , x − x k ⟩ + 1 t k B ω ( x , x k ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}. xk+1=argxCmin{f(xk)+f(xk),xxk+tk1Bω(x,xk)}.忽略常数项可得 x k + 1 = arg ⁡ min ⁡ x ∈ C { ⟨ f ′ ( x k ) , x ⟩ + 1 t k B ω ( x , x k ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}. xk+1=argxCmin{f(xk),x+tk1Bω(x,xk)}.进一步注意到 ⟨ f ′ ( x k ) , x ⟩ + 1 t k B ω ( x , x k ) = 1 t k [ ⟨ t k f ′ ( x k ) − ∇ ω ( x k ) , x ⟩ + ω ( x ) ] − 1 t k ω ( x k ) + 1 t k ⟨ ∇ ω ( x k ) , x k ⟩ ⏟ 常 数 . \begin{aligned}&\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\\&=\frac{1}{t_k}\left[\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\right]\underbrace{-\frac{1}{t_k}\omega(\mathbf{x}^k)+\frac{1}{t_k}\langle\nabla\omega(\mathbf{x}^k),\mathbf{x}^k\rangle}_{常数}.\end{aligned} f(xk),x+tk1Bω(x,xk)=tk1[tkf(xk)ω(xk),x+ω(x)] tk1ω(xk)+tk1ω(xk),xk.所以, 迭代格式1简化为 x k + 1 = arg ⁡ min ⁡ x ∈ C { ⟨ t k f ′ ( x k ) − ∇ ω ( x k ) , x ⟩ + ω ( x ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\{\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\}. xk+1=argxCmin{tkf(xk)ω(xk),x+ω(x)}.于是有MDM:

在这里插入图片描述
MDM的迭代格式需要对某个 a ∈ E ∗ \mathbf{a}\in\mathbb{E}^* aE, 求解如下形式的子问题 min ⁡ x ∈ C { ⟨ a , x ⟩ + ω ( x ) } . \min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\}. xCmin{a,x+ω(x)}.为说明MDM迭代是良定义的, 我们需要证明上面子问题的解唯一取在 C ∩ d o m ( ∂ ω ) C\cap\mathrm{dom}(\partial\omega) Cdom(ω)中. 为此, 我们给出一个更加一般的引理.

引理2 假设

  • ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E(,]为正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(ω)上可微;
  • ψ : E → ( − ∞ , ∞ ] \psi:\mathbb{E}\to(-\infty,\infty] ψ:E(,]为正常闭凸函数, 且 d o m ( ψ ) ⊂ d o m ( ω ) \mathrm{dom}(\psi)\subset\mathrm{dom}(\omega) dom(ψ)dom(ω);
  • ω + δ d o m ( ψ ) \omega+\delta_{\mathrm{dom}(\psi)} ω+δdom(ψ) σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0).

则问题 min ⁡ x ∈ E { ψ ( x ) + ω ( x ) } \min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})+\omega(\mathbf{x})\} xEmin{ψ(x)+ω(x)}的极小点唯一取在 d o m ( ψ ) ∩ d o m ( ∂ ω ) \mathrm{dom}(\psi)\cap\mathrm{dom}(\partial\omega) dom(ψ)dom(ω)中.

证明: 问题可写作 min ⁡ x ∈ E φ ( x ) , \min_{\mathbf{x}\in\mathbb{E}}\varphi(\mathbf{x}), xEminφ(x),其中 φ = ψ + ω \varphi=\psi+\omega φ=ψ+ω. 易知 φ \varphi φ是正常闭函数. 由于 ω + δ d o m ( ψ ) \omega+\delta_{\mathrm{dom}(\psi)} ω+δdom(ψ) σ \sigma σ-强凸函数, ψ \psi ψ是凸函数, 所以 ψ + ω + δ d o m ( ψ ) = ψ + ω = φ \psi+\omega+\delta_{\mathrm{dom}(\psi)}=\psi+\omega=\varphi ψ+ω+δdom(ψ)=ψ+ω=φ σ \sigma σ-强凸函数. 根据第五章定理7(i), 问题有唯一极小点 x ∗ ∈ d o m ( φ ) = d o m ( ψ ) \mathbf{x}^*\in\mathrm{dom}(\varphi)=\mathrm{dom}(\psi) xdom(φ)=dom(ψ). 为证明 x ∗ ∈ d o m ( ∂ ω ) \mathbf{x}^*\in\mathrm{dom}(\partial\omega) xdom(ω), 注意由Fermat最优性条件, 0 ∈ ∂ φ ( x ∗ ) ⇒ ∂ φ ( x ∗ ) ≠ ∅ \mathbf{0}\in\partial\varphi(\mathbf{x}^*)\Rightarrow\partial\varphi(\mathbf{x}^*)\ne\emptyset 0φ(x)φ(x)=. 而由次微分的加法法则(第三章定理15), ∂ φ ( x ∗ ) = ∂ ψ ( x ∗ ) + ∂ ω ( x ∗ ) \partial\varphi(\mathbf{x}^*)=\partial\psi(\mathbf{x}^*)+\partial\omega(\mathbf{x}^*) φ(x)=ψ(x)+ω(x). 所以必然有 ∂ ω ( x ∗ ) ≠ ∅ ⇒ x ∗ ∈ d o m ( ∂ ω ) \partial\omega(\mathbf{x}^*)\ne\emptyset\Rightarrow\mathbf{x}^*\in\mathrm{dom}(\partial\omega) ω(x)=xdom(ω).

定理1 (MDM的良定性) 假定假设条件1、2成立. 设 a ∈ E ∗ \mathbf{a}\in\mathbb{E}^* aE. 则问题 min ⁡ x ∈ C { ⟨ a , x ⟩ + ω ( x ) } \min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\} xCmin{a,x+ω(x)}的唯一极小点取在 C ∩ d o m ( ∂ ω ) C\cap\mathrm{dom}(\partial\omega) Cdom(ω).

证明: 直接利用引理2, 其中 ψ ( x ) ≡ = ⟨ a , x ⟩ + δ C ( x ) \psi(\mathbf{x})\equiv=\langle\mathbf{a,x}\rangle+\delta_C(\mathbf{x}) ψ(x)=a,x+δC(x).

我们列举两个比较常见的强凸函数的选取方式.

例1 (欧式范数平方) 假定假设条件1成立, E \mathbb{E} E是欧式空间. 定义 ω ( x ) = 1 2 ∥ x ∥ 2 . \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2. ω(x)=21x2. ω \omega ω显然满足假设条件2中的条件, 并且它是 1 1 1-强凸函数. 由于 ∇ ω ( x ) = x \nabla\omega(\mathbf{x})=\mathbf{x} ω(x)=x, 于是MDM迭代格式变成 x k + 1 = arg ⁡ min ⁡ x ∈ C { ⟨ t k f ′ ( x k ) − x k , x ⟩ + 1 2 ∥ x ∥ 2 } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle t_kf'(\mathbf{x}^k)-\mathbf{x}^k,\mathbf{x}\rangle+\frac{1}{2}\Vert\mathbf{x}\Vert^2\right\}. xk+1=argxCmin{tkf(xk)xk,x+21x2}.配方后易知, 这就是Proj-SGM迭代格式 x k + 1 = P C ( x k − t k f ′ ( x k ) ) \mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)) xk+1=PC(xktkf(xk)). 这再次说明了MDM是Proj-SGM的推广.

例2 (单位单纯形上的负熵函数) 假定假设条件1成立, E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 范数为 ℓ 1 \ell_1 1-范数, C = Δ n C=\Delta_n C=Δn. 我们取 ω \omega ω为非负象限上的负熵函数: ω ( x ) = { ∑ i = 1 n x i log ⁡ x i , x ∈ R + n , ∞ , 其 它 . \omega(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\mathbb{R}_+^n,\\\infty, & 其它.\end{array}\right. ω(x)={i=1nxilogxi,,xR+n,.根据第五章例10, ω + δ Δ n \omega+\delta_{\Delta_n} ω+δΔn ℓ 1 \ell_1 1-范数下的 1 1 1-强凸函数. 此时 d o m ( ∂ ω ) = R + + n \mathrm{dom}(\partial\omega)=\mathbb{R}_{++}^n dom(ω)=R++n, 并且事实上, ω \omega ω在其次可微点处就是可微的. 因此假设条件2成立. 对 ∀ x ∈ Δ n ,   y ∈ Δ n + ≡ { x ∈ R + + n : e T x = 1 } \forall\mathbf{x}\in\Delta_n,\,\mathbf{y}\in\Delta_n^+\equiv\{\mathbf{x}\in\mathbb{R}_{++}^n:\mathbf{e}^T\mathbf{x}=1\} xΔn,yΔn+{xR++n:eTx=1}, 与 ω \omega ω关联的Bregman距离为 B ω ( x , y ) = ∑ i = 1 n x i log ⁡ x i − ∑ i = 1 n y i log ⁡ y i − ∑ i = 1 n ( log ⁡ ( y i ) + 1 ) ( x i − y i ) = ∑ i = 1 n x i log ⁡ ( x i / y i ) + ∑ i = 1 n y i − ∑ i = 1 n x i = ∑ i = 1 n x i log ⁡ ( x i / y i ) , \begin{aligned}B_{\omega}(\mathbf{x,y})&=\sum_{i=1}^nx_i\log x_i-\sum_{i=1}^ny_i\log y_i-\sum_{i=1}^n(\log(y_i)+1)(x_i-y_i)\\&=\sum_{i=1}^nx_i\log(x_i/y_i)+\sum_{i=1}^ny_i-\sum_{i=1}^nx_i\\&=\sum_{i=1}^nx_i\log(x_i/y_i),\end{aligned} Bω(x,y)=i=1nxilogxii=1nyilogyii=1n(log(yi)+1)(xiyi)=i=1nxilog(xi/yi)+i=1nyii=1nxi=i=1nxilog(xi/yi),这就是所谓的Kullback-Leibler(KL)散度距离测度(Kullback-Leibler divergence distance measure). 如此, MDM的迭代格式变成 x k + 1 = arg ⁡ min ⁡ x ∈ Δ n { ∑ i = 1 n ( t k f i ′ ( x k ) − 1 − log ⁡ ( x i k ) ) x i + ∑ i = 1 n x i log ⁡ x i } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\Delta_n}\left\{\sum_{i=1}^n(t_kf_i'(\mathbf{x}^k)-1-\log(x_i^k))x_i+\sum_{i=1}^nx_i\log x_i\right\}, xk+1=argxΔnmin{i=1n(tkfi(xk)1log(xik))xi+i=1nxilogxi},其中 f i ′ ( x k ) f_i'(\mathbf{x}^k) fi(xk) f ′ ( x k ) f'(\mathbf{x}^k) f(xk)的第 i i i个分量. 根据第三章例26, 上述子问题的最优解为 x i k + 1 = e log ⁡ ( x i k ) + 1 − t k f i ′ ( x k ) ∑ j = 1 n e log ⁡ ( x j k ) + 1 − t k f j ′ ( x k ) , i = 1 , 2 , … , n , x_i^{k+1}=\frac{e^{\log(x_i^k)+1-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^ne^{\log(x_j^k)+1-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n, xik+1=j=1nelog(xjk)+1tkfj(xk)elog(xik)+1tkfi(xk),i=1,2,,n,进一步简化可得 x i k + 1 = x i k e − t k f i ′ ( x k ) ∑ j = 1 n x j k e − t k f j ′ ( x k ) , i = 1 , 2 , … , n . x_i^{k+1}=\frac{x_i^ke^{-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^nx_j^ke^{-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n. xik+1=j=1nxjketkfj(xk)xiketkfi(xk),i=1,2,,n.

现在的问题在于如何选取步长. 下一节的收敛性分析会给我们一些启示.

2. 收敛性分析

2.1 分析工具

引理3 (三点引理) 假设 ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E(,]为正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(ω)上可微. 设 a , b ∈ d o m ( ∂ ω ) ,   c ∈ d o m ( ω ) \mathbf{a,b}\in\mathrm{dom}(\partial\omega),\,\mathbf{c}\in\mathrm{dom}(\omega) a,bdom(ω),cdom(ω). 则有以下等式成立: ⟨ ∇ ω ( b ) − ∇ ω ( a ) , c − a ⟩ = B ω ( c , a ) + B ω ( a , b ) − B ω ( c , b ) . \langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle=B_{\omega}(\mathbf{c,a})+B_{\omega}(\mathbf{a,b})-B_{\omega}(\mathbf{c,b}). ω(b)ω(a),ca=Bω(c,a)+Bω(a,b)Bω(c,b).

证明: 由 B ω B_{\omega} Bω的定义, B ω ( c , a ) = ω ( c ) − ω ( a ) − ⟨ ∇ ω ( a ) , c − a ⟩ , B ω ( a , b ) = ω ( a ) − ω ( b ) − ⟨ ∇ ω ( b ) , a − b ⟩ , B ω ( c , b ) = ω ( c ) − ω ( b ) − ⟨ ∇ ω ( b ) , c − b ⟩ . \begin{aligned}B_{\omega}(\mathbf{c,a})&=\omega(\mathbf{c})-\omega(\mathbf{a})-\langle\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle,\\B_{\omega}(\mathbf{a,b})&=\omega(\mathbf{a})-\omega(\mathbf{b})-\langle\nabla\omega(\mathbf{b}),\mathbf{a-b}\rangle,\\B_{\omega}(\mathbf{c,b})&=\omega(\mathbf{c})-\omega(\mathbf{b})-\langle\nabla\omega(\mathbf{b}),\mathbf{c-b}\rangle.\end{aligned} Bω(c,a)Bω(a,b)Bω(c,b)=ω(c)ω(a)ω(a),ca,=ω(a)ω(b)ω(b),ab,=ω(c)ω(b)ω(b),cb.因此 B ω ( c , a ) + B ω ( a , b ) − B ω ( c , b ) = − ⟨ ∇ ω ( a ) , c − a ⟩ − ⟨ ∇ ω ( b ) , a − b ⟩ + ⟨ ∇ ω ( b ) , c − b ⟩ = ⟨ ∇ ω ( b ) − ∇ ω ( a ) , c − a ⟩ . \begin{aligned}B_{\omega}(\mathbf{c,a})+B_{\omega}(\mathbf{a,b})-B_{\omega}(\mathbf{c,b})&=-\langle\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle-\langle\nabla\omega(\mathbf{b}),\mathbf{a-b}\rangle+\langle\nabla\omega(\mathbf{b}),\mathbf{c-b}\rangle\\&=\langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle.\end{aligned} Bω(c,a)+Bω(a,b)Bω(c,b)=ω(a),caω(b),ab+ω(b),cb=ω(b)ω(a),ca.

下面的定理2是非欧情形下的第二临近定理.

定理2 (非欧第二临近定理) 设

  • ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E(,]为一正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(ω)上可微;
  • ψ : E → ( − ∞ , ∞ ] \psi:\mathbb{E}\to(-\infty,\infty] ψ:E(,]为一正常闭凸函数, 满足 d o m ( ψ ) ⊂ d o m ( ω ) \mathrm{dom}(\psi)\subset\mathrm{dom}(\omega) dom(ψ)dom(ω);
  • ω + δ d o m ( ψ ) \omega+\delta_{\mathrm{dom}(\psi)} ω+δdom(ψ) σ \sigma σ-强凸函数( σ > 0 \sigma>0 σ>0);

b ∈ d o m ( ∂ ω ) \mathbf{b}\in\mathrm{dom}(\partial\omega) bdom(ω), a \mathbf{a} a定义为 a = arg ⁡ min ⁡ x ∈ E { ψ ( x ) + B ω ( x , b ) } . \mathbf{a}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})+B_{\omega}(\mathbf{x,b})\}. a=argxEmin{ψ(x)+Bω(x,b)}. a ∈ d o m ( ∂ ω ) \mathbf{a}\in\mathrm{dom}(\partial\omega) adom(ω), 且对 ∀ u ∈ d o m ( ψ ) \forall\mathbf{u}\in\mathrm{dom}(\psi) udom(ψ), ⟨ ∇ ω ( b ) − ∇ ω ( a ) , u − a ⟩ ≤ ψ ( u ) − ψ ( a ) . \langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{u-a}\rangle\le\psi(\mathbf{u})-\psi(\mathbf{a}). ω(b)ω(a),uaψ(u)ψ(a).

证明: 由 B ω B_{\omega} Bω的定义, a \mathbf{a} a的定义可以写作2 a = arg ⁡ min ⁡ x ∈ E { ψ ( x ) − ⟨ ∇ ω ( b ) , x ⟩ + ω ( x ) } . \mathbf{a}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})-\langle\nabla\omega(\mathbf{b}),\mathbf{x}\rangle+\omega(\mathbf{x})\}. a=argxEmin{ψ(x)ω(b),x+ω(x)}.在引理2中将 ψ ( x ) \psi(\mathbf{x}) ψ(x)取成 ψ ( x ) − ⟨ ω ( b ) , x ⟩ \psi(\mathbf{x})-\langle\omega(\mathbf{b}),\mathbf{x}\rangle ψ(x)ω(b),x即可证明 a ∈ d o m ( ∂ ω ) \mathbf{a}\in\mathrm{dom}(\partial\omega) adom(ω). 再由Fermat最优性条件, 存在 ψ ′ ( a ) ∈ ∂ ψ ( a ) \psi'(\mathbf{a})\in\partial\psi(\mathbf{a}) ψ(a)ψ(a), 使得 ψ ′ ( a ) + ∇ ω ( a ) − ∇ ω ( b ) = 0. \psi'(\mathbf{a})+\nabla\omega(\mathbf{a})-\nabla\omega(\mathbf{b})=\mathbf{0}. ψ(a)+ω(a)ω(b)=0.于是由次梯度不等式, 对 ∀ u ∈ d o m ( ψ ) \forall\mathbf{u}\in\mathrm{dom}(\psi) udom(ψ), ⟨ ∇ ω ( b ) − ∇ ω ( a ) , u − a ⟩ = ⟨ ψ ′ ( a ) , u − a ⟩ ≤ ψ ( u ) − ψ ( a ) . \langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{u-a}\rangle=\langle\psi'(\mathbf{a}),\mathbf{u-a}\rangle\le\psi(\mathbf{u})-\psi(\mathbf{a}). ω(b)ω(a),ua=ψ(a),uaψ(u)ψ(a).

利用非欧第二临近定理与三点引理, 我们可以证明类似于第八章Proj-SGM基本不等式的结论.

引理4 (MDM基本不等式3) 假定假设条件1、2成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由带正步长 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k0的MDM生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ ,   k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 xX,k0, t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x k ) − B ω ( x ∗ , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 . t_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^k)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2. tk(f(xk)fopt)Bω(x,xk)Bω(x,xk+1)+2σtk2f(xk)2.

证明: 由MDM更新公式、非欧第二临近定理(令其中 b = x k ,   ψ ( x ) ≡ t k ( f ′ ( x k ) , x ⟩ + δ C ( x ) \mathbf{b}=\mathbf{x}^k,\,\psi(\mathbf{x})\equiv t_k(f'(\mathbf{x}^k),\mathbf{x}\rangle+\delta_C(\mathbf{x}) b=xk,ψ(x)tk(f(xk),x+δC(x), 从而 a = x k + 1 \mathbf{a}=\mathbf{x}^{k+1} a=xk+1), 就有对 ∀ u ∈ C \forall\mathbf{u}\in C uC, ⟨ ∇ ω ( x k ) − ∇ ω ( x k + 1 ) , u − x k + 1 ⟩ ≤ t k ⟨ f ′ ( x k ) , u − x k + 1 ⟩ . \langle\nabla\omega(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^{k+1}),\mathbf{u}-\mathbf{x}^{k+1}\rangle\le t_k\langle f'(\mathbf{x}^k),\mathbf{u}-\mathbf{x}^{k+1}\rangle. ω(xk)ω(xk+1),uxk+1tkf(xk),uxk+1.由三点引理(令其中 a = x k + 1 ,   b = x k ,   c = u \mathbf{a}=\mathbf{x}^{k+1},\,\mathbf{b}=\mathbf{x}^k,\,\mathbf{c=u} a=xk+1,b=xk,c=u), ⟨ ∇ ω ( x k ) − ∇ ω ( x k + 1 ) , u − x k + 1 ⟩ = B ω ( u , x k + 1 ) + B ω ( x k + 1 , x k ) − B ω ( u , x k ) , \langle\nabla\omega(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^{k+1}),\mathbf{u}-\mathbf{x}^{k+1}\rangle=B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})+B_{\omega}(\mathbf{x}^{k+1},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^k), ω(xk)ω(xk+1),uxk+1=Bω(u,xk+1)+Bω(xk+1,xk)Bω(u,xk),合起来就有 B ω ( u , x k + 1 ) + B ω ( x k + 1 , x k ) − B ω ( u , x k ) ≤ t k ⟨ f ′ ( x k ) , u − x k + 1 ⟩ . B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})+B_{\omega}(\mathbf{x}^{k+1},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^k)\le t_k\langle f'(\mathbf{x}^k),\mathbf{u}-\mathbf{x}^{k+1}\rangle. Bω(u,xk+1)+Bω(xk+1,xk)Bω(u,xk)tkf(xk),uxk+1.因此, t k ⟨ f ′ ( x k ) , x k − u ⟩ ≤ B ω ( u , x k ) − B ω ( u , x k + 1 ) − B ω ( x k + 1 , x k ) + t k ⟨ f ′ ( x k ) , x k − x k + 1 ⟩ ≤ B ω ( u , x k ) − B ω ( u , x k + 1 ) − σ 2 ∥ x k + 1 − x k ∥ 2   ( 引 理 1 (i) ) = B ω ( u , x k ) − B ω ( u , x k + 1 ) − σ 2 ∥ x k + 1 − x k ∥ 2 + ⟨ t k σ f ′ ( x k ) , σ ( x k − x k + 1 ) ⟩ ≤ ( ∗ ) B ω ( u , x k ) − B ω ( u , x k + 1 ) − σ 2 ∥ x k + 1 − x k ∥ 2 + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 + σ 2 ∥ x k + 1 − x k ∥ 2 = B ω ( u , x k ) − B ω ( u , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 , \begin{aligned}&t_k\langle f'(\mathbf{x}^k),\mathbf{x}^k-\mathbf{u}\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-B_{\omega}(\mathbf{x}^{k+1},\mathbf{x}^k)+t_k\langle f'(\mathbf{x}^k),\mathbf{x}^k-\mathbf{x}^{k+1}\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2\,(引理1\text{(i)})\\&=B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2+\left\langle\frac{t_k}{\sqrt{\sigma}}f'(\mathbf{x}^k),\sqrt{\sigma}(\mathbf{x}^k-\mathbf{x}^{k+1})\right\rangle\\&\overset{(*)}{\le} B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2+\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2\\&=B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert^2_*,\end{aligned} tkf(xk),xkuBω(u,xk)Bω(u,xk+1)Bω(xk+1,xk)+tkf(xk),xkxk+1Bω(u,xk)Bω(u,xk+1)2σxk+1xk2(1(i))=Bω(u,xk)Bω(u,xk+1)2σxk+1xk2+σ tkf(xk),σ (xkxk+1)()Bω(u,xk)Bω(u,xk+1)2σxk+1xk2+2σtk2f(xk)2+2σxk+1xk2=Bω(u,xk)Bω(u,xk+1)+2σtk2f(xk)2,其中 ( ∗ ) (*) ()式使用了Fenchel不等式(第四章定理3)在 1 2 ∥ x ∥ 2 \frac{1}{2}\Vert\mathbf{x}\Vert^2 21x2上的应用(第四章4.15节). 代入 u = x ∗ \mathbf{u}=\mathbf{x}^* u=x并利用次梯度不等式, 就得到 t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x k ) − B ω ( x ∗ , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 . t_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^k)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2. tk(f(xk)fopt)Bω(x,xk)Bω(x,xk+1)+2σtk2f(xk)2.

完全类似于第八章定理6的证明, 我们可以推出MDM最优函数值序列 { f b e s t k } k ≥ 0 \{f_{\mathrm{best}}^k\}_{k\ge0} {fbestk}k0 f o p t f_{\mathrm{opt}} fopt距离的上界, 进而启发我们对步长序列的选取.

引理5 假定假设条件1、2成立, 且存在 L f > 0 L_f>0 Lf>0, 使得 ∥ f ′ ( x ) ∥ ∗ ≤ L f ,   ∀ x ∈ C \Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in C f(x)Lf,xC. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由带正步长 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k0的MDM生成的迭代序列. 则对 ∀ N ≥ 0 \forall N\ge0 N0, f b e s t N − f o p t ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestNfoptk=0NtkBω(x,x0)+2σLf2k=0Ntk2.

证明: 取 x ∗ ∈ X ∗ \mathbf{x}^*\in X^* xX. 由MDM基本不等式, 对 ∀ k ≥ 0 \forall k\ge0 k0, t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x k ) − B ω ( x ∗ , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 . t_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^k)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2. tk(f(xk)fopt)Bω(x,xk)Bω(x,xk+1)+2σtk2f(xk)2.对指标 k = 0 , 1 , 2 … , N k=0,1,2\ldots, N k=0,1,2,N求和上述不等式可得 ∑ k = 0 N t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x 0 ) − B ω ( x ∗ , x k + 1 ) + ∑ k = 0 N t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2   ( 引 理 1 ( ii ) ) . \begin{aligned}\sum_{k=0}^Nt_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})&\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\sum_{k=0}^N\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2\\&\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2\,(引理1(\text{ii})).\end{aligned} k=0Ntk(f(xk)fopt)Bω(x,x0)Bω(x,xk+1)+k=0N2σtk2f(xk)2Bω(x,x0)+2σLf2k=0Ntk2(1(ii)).又因为 ( ∑ k = 0 N t k ) ( f b e s t N − f o p t ) ≤ ∑ k = 0 N t k ( f ( x k ) − f o p t ) , \left(\sum_{k=0}^Nt_k\right)(f_{\mathrm{best}}^N-f_{\mathrm{opt}})\le\sum_{k=0}^Nt_k(f(\mathbf{x}^k)-f_{\mathrm{opt}}), (k=0Ntk)(fbestNfopt)k=0Ntk(f(xk)fopt),所以 f b e s t N − f o p t ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestNfoptk=0NtkBω(x,x0)+2σLf2k=0Ntk2.

B ω ( x , x 0 ) B_{\omega}(\mathbf{x},\mathbf{x}^0) Bω(x,x0)还在 C C C上有界, 即存在 Θ ( x 0 ) \Theta(\mathbf{x}^0) Θ(x0)满足 Θ ( x 0 ) ≥ max ⁡ x ∈ C B ω ( x , x 0 ) . \Theta(\mathbf{x}^0)\ge\max_{\mathbf{x}\in C}B_{\omega}(\mathbf{x},\mathbf{x}^0). Θ(x0)xCmaxBω(x,x0).代入引理5即有 f b e s t N − f o p t ≤ Θ ( x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{\Theta(\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestNfoptk=0NtkΘ(x0)+2σLf2k=0Ntk2.总之, 我们再次发现了 ∑ k = 0 N t k 2 ∑ k = 0 N t k \frac{\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k} k=0Ntkk=0Ntk2. 这提示我们可以选取类似于第八章变步长Proj-SGM中讨论的步长准则. 但在此之前, 我们先讨论固定迭代数目的步长选取准则.

2.2 固定迭代数目的步长选取准则

我们现在固定迭代数为 N N N, 推导“最优”的步长选取准则. 这里的最优指的是能够极小化引理5的右端项. 为此, 我们先证明以下引理6和7.

引理6 A ∈ R m × n ,   b ∈ R m ,   c ∈ R n ,   d ∈ R \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\mathbf{c}\in\mathbb{R}^n,\,d\in\mathbb{R} ARm×n,bRm,cRn,dR, 其中 c ≠ 0 \mathbf{c\ne0} c=0. 则函数 g ( x ) = ∥ A x + b ∥ 2 c T x + d g(\mathbf{x})=\frac{\Vert\mathbf{Ax+b}\Vert^2}{\mathbf{c}^T\mathbf{x}+d} g(x)=cTx+dAx+b2 D = { x ∈ R n : c T x + d > 0 } D=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{c}^T\mathbf{x}+d>0\} D={xRn:cTx+d>0}上是凸函数.

证明: 由仿射变换的保凸性, 我们只需证明函数 h ( y , t ) = ∥ y ∥ 2 t h(\mathbf{y},t)=\frac{\Vert\mathbf{y}\Vert^2}{t} h(y,t)=ty2在凸集 C ≡ { ( y t ) ∈ R m + 1 : y ∈ R m ,   t > 0 } C\equiv\left\{\begin{pmatrix}\mathbf{y}\\t\end{pmatrix}\in\mathbb{R}^{m+1}:\mathbf{y}\in\mathbb{R}^m,\,t>0\right\} C{(yt)Rm+1:yRm,t>0}上是凸函数. 而 h h h可以进一步写成 h = ∑ i = 1 m h i h=\sum_{i=1}^mh_i h=i=1mhi, 其中 h i ( y , t ) = y i 2 t . h_i(\mathbf{y},t)=\frac{y_i^2}{t}. hi(y,t)=tyi2.直接计算可得 ∇ 2 h i ( y i , t ) = 2 ( 1 t − y i t 2 − y i t 2 y i 2 t 3 ) . \nabla^2h_i(y_i,t)=2\begin{pmatrix}\frac{1}{t} & -\frac{y_i}{t^2}\\-\frac{y_i}{t^2} & \frac{y_i^2}{t^3}\end{pmatrix}. 2hi(yi,t)=2(t1t2yit2yit3yi2).由于 T r [ ∇ 2 h i ( y i , t ) ] = 2 [ 1 t + y i 2 t 3 ] > 0 , det ⁡ [ ∇ 2 h i ( y i , t ) ] = 4 [ 1 t ⋅ y i 2 t 3 − ( y i t 2 ) 2 ] = 0 , \begin{aligned}\mathrm{Tr}[\nabla^2h_i(y_i,t)]&=2\left[\frac{1}{t}+\frac{y_i^2}{t^3}\right]>0,\\\det[\nabla^2h_i(y_i,t)]&=4\left[\frac{1}{t}\cdot\frac{y_i^2}{t^3}-\left(\frac{y_i}{t^2}\right)^2\right]=0,\end{aligned} Tr[2hi(yi,t)]det[2hi(yi,t)]=2[t1+t3yi2]>0,=4[t1t3yi2(t2yi)2]=0,所以 ∇ 2 h i \nabla^2h_i 2hi是半正定矩阵, h i h_i hi是凸函数, 从而 h h h是凸函数.

引理7 α , β > 0 \alpha,\beta>0 α,β>0, 问题 min ⁡ t 1 , … , t m > 0 α + β ∑ k = 1 m t k 2 ∑ k = 1 m t k \min_{t_1,\ldots,t_m>0}\frac{\alpha+\beta\sum_{k=1}^mt_k^2}{\sum_{k=1}^mt_k} t1,,tm>0mink=1mtkα+βk=1mtk2的一个最优解为 t k = α β m ,   k = 1 , 2 , … , m t_k=\sqrt{\frac{\alpha}{\beta m}},\,k=1,2,\ldots,m tk=βmα ,k=1,2,,m. 最优值为 2 α β m 2\sqrt{\frac{\alpha\beta}{m}} 2mαβ .

证明: 记目标函数为 ϕ ( t ) ≡ α + β ∑ k = 1 m t k 2 ∑ k = 1 m t k . \phi(\mathbf{t})\equiv\frac{\alpha+\beta\sum_{k=1}^mt_k^2}{\sum_{k=1}^mt_k}. ϕ(t)k=1mtkα+βk=1mtk2.注意到 ϕ \phi ϕ是个排列对称函数, 即 ϕ ( t ) = ϕ ( P t ) ,   ∀ P ∈ Λ m \phi(\mathbf{t})=\phi(\mathbf{Pt}),\,\forall\mathbf{P}\in\Lambda_m ϕ(t)=ϕ(Pt),PΛm. 由此我们断言, 若此问题有一最优解, 则它必有一分量全相同的最优解. 为此, 任取一最优解 t ∗ \mathbf{t}^* t以及排列矩阵 P ∈ Λ m \mathbf{P}\in\Lambda_m PΛm. 由于 ϕ ( P t ∗ ) = ϕ ( t ∗ ) \phi(\mathbf{Pt}^*)=\phi(\mathbf{t}^*) ϕ(Pt)=ϕ(t), 所以 P t ∗ \mathbf{Pt}^* Pt也是最优解. 由引理6, ϕ \phi ϕ是正象限上的凸函数, 所以 1 m ! ∑ P ∈ Λ m P t ∗ = 1 m ( e T t ⋮ e T t ) \frac{1}{m!}\sum_{\mathbf{P}\in\Lambda_m}\mathbf{Pt}^*=\frac{1}{m}\begin{pmatrix}\mathbf{e}^T\mathbf{t}\\\vdots\\\mathbf{e}^T\mathbf{t}\end{pmatrix} m!1PΛmPt=m1eTteTt也是最优解. 这就说明存在分量全相同的最优解. 因此令 t 1 = t 2 = ⋯ = t m = t t_1=t_2=\cdots=t_m=t t1=t2==tm=t即可得到简化的问题 min ⁡ t > 0 α + β m t 2 m t , \min_{t>0}\frac{\alpha+\beta mt^2}{mt}, t>0minmtα+βmt2,其最优解易知为 t = α β m t=\sqrt{\frac{\alpha}{\beta m}} t=βmα , 所以原问题的一个最优解为 t k = α β m ,   k = 1 , 2 , … , m t_k=\sqrt{\frac{\alpha}{\beta m}},\,k=1,2,\ldots,m tk=βmα ,k=1,2,,m. 将此代入 ϕ \phi ϕ中, 就有最优值 2 α β m 2\sqrt{\frac{\alpha\beta}{m}} 2mαβ .

在引理7中取 α = Θ ( x 0 ) ,   β = L f 2 2 σ ,   m = N + 1 \alpha=\Theta(\mathbf{x}^0),\,\beta=\frac{L_f^2}{2\sigma},\,m=N+1 α=Θ(x0),β=2σLf2,m=N+1, 于是引理5右端项的一个极小点为 t k = 2 Θ ( x 0 ) σ L f N + 1 t_k=\frac{\sqrt{2\Theta(\mathbf{x}^0)\sigma}}{L_f\sqrt{N+1}} tk=LfN+1 2Θ(x0)σ .

定理3 (固定迭代数MDM的 O ( 1 / N ) O(1/\sqrt{N}) O(1/N )收敛速度) 假定假设条件1、2成立, 且存在 L f > 0 L_f>0 Lf>0, 使得 ∥ f ′ ( x ) ∥ ∗ ≤ L f ,   ∀ x ∈ C \Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in C f(x)Lf,xC. 设 B ω ( x , x 0 ) B_{\omega}(\mathbf{x},\mathbf{x}^0) Bω(x,x0) C C C上有界: 存在 Θ ( x 0 ) \Theta(\mathbf{x}^0) Θ(x0)满足 Θ ( x 0 ) ≥ max ⁡ x ∈ C B ω ( x , x 0 ) . \Theta(\mathbf{x}^0)\ge\max_{\mathbf{x}\in C}B_{\omega}(\mathbf{x},\mathbf{x}^0). Θ(x0)xCmaxBω(x,x0). N N N为正整数, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由步长准则为 t k = 2 Θ ( x 0 ) σ L f N + 1 , k = 0 , 1 , … , N t_k=\frac{\sqrt{2\Theta(\mathbf{x}^0)\sigma}}{L_f\sqrt{N+1}},\quad k=0,1,\ldots,N tk=LfN+1 2Θ(x0)σ ,k=0,1,,N的MDM生成的迭代序列. 则 f b e s t N − f o p t ≤ 2 Θ ( x 0 ) L f σ N + 1 . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{\sqrt{2\Theta(\mathbf{x}^0)}L_f}{\sqrt{\sigma}\sqrt{N+1}}. fbestNfoptσ N+1 2Θ(x0) Lf.

证明: 由引理5, f b e s t N − f o p t ≤ Θ ( x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{\Theta(\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestNfoptk=0NtkΘ(x0)+2σLf2k=0Ntk2. t k t_k tk代入即得证.

例1 (单位单纯形上的优化问题) 考虑问题 min ⁡ { f ( x ) : x ∈ Δ n } , \min\{f(\mathbf{x}):\mathbf{x}\in\Delta_n\}, min{f(x):xΔn},其中 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]为正常闭凸函数, 且 Δ n ⊂ i n t ( d o m ( f ) ) \Delta_n\subset\mathrm{int}(\mathrm{dom}(f)) Δnint(dom(f)). 考虑以下两种算法:

  • 欧式空间情形: 我们假设 R n \mathbb{R}^n Rn上的范数为 ℓ 2 \ell_2 2-范数, ω ( x ) = 1 2 ∥ x ∥ 2 2 \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_2^2 ω(x)=21x22. 显然 ω \omega ω ℓ 2 \ell_2 2-范数下是 1 1 1-强凸的. 此时MDM就是Proj-SGM: x k + 1 = P Δ n ( x k − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=P_{\Delta_n}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)). xk+1=PΔn(xktkf(xk)).假设算法从 x 0 = 1 n e \mathbf{x}^0=\frac{1}{n}\mathbf{e} x0=n1e开始迭代. 此时 max ⁡ x ∈ Δ n B ω ( x , x 0 ) = max ⁡ x ∈ Δ n 1 2 ∥ x − 1 n e ∥ 2 2 = 1 2 ( 1 − 1 n ) , \max_{\mathbf{x}\in\Delta_n}B_{\omega}(\mathbf{x},\mathbf{x}^0)=\max_{\mathbf{x}\in\Delta_n}\frac{1}{2}\left\Vert\mathbf{x}-\frac{1}{n}\mathbf{e}\right\Vert^2_2=\frac{1}{2}\left(1-\frac{1}{n}\right), xΔnmaxBω(x,x0)=xΔnmax21xn1e22=21(1n1),所以我们可以取 Θ ( x 0 ) = 1 \Theta(\mathbf{x}^0)=1 Θ(x0)=1. 由定理3, 给定正整数 N N N, 恰当选取步长, 有 f b e s t N − f o p t ≤ 2 L f , 2 N + 1 ⏟ C e f , f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\underbrace{\frac{\sqrt{2}L_{f,2}}{\sqrt{N+1}}}_{C_{\text{e}}^f}, fbestNfoptCef N+1 2 Lf,2,其中 L f , 2 = max ⁡ x ∈ Δ n ∥ f ′ ( x ) ∥ 2 L_{f,2}=\max_{\mathbf{x}\in\Delta_n}\Vert f'(\mathbf{x})\Vert_2 Lf,2=maxxΔnf(x)2.
  • 非欧式空间情形: 假设 R n \mathbb{R}^n Rn上的范数是 ℓ 1 \ell_1 1-范数, ω \omega ω选取为负熵函数 ω ( x ) = { ∑ i = 1 n x i log ⁡ ( x i ) , x ∈ R + n , ∞ , 其 它 . \omega(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log(x_i), & \mathbf{x}\in\mathbb{R}_{+}^n,\\\infty, & 其它.\end{array}\right. ω(x)={i=1nxilog(xi),,xR+n,.由例2, ω + δ Δ n \omega+\delta_{\Delta_n} ω+δΔn ℓ 1 \ell_1 1-范数下是 1 1 1-强凸函数. 进而MDM更新格式为 x i k + 1 = x i k e − t k f i ′ ( x k ) ∑ j = 1 n x j k e − t k f j ′ ( x k ) , i = 1 , 2 , … , n . x_i^{k+1}=\frac{x_i^ke^{-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^nx_j^ke^{-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n. xik+1=j=1nxjketkfj(xk)xiketkfi(xk),i=1,2,,n.同样从 x 0 = 1 n e \mathbf{x}^0=\frac{1}{n}\mathbf{e} x0=n1e出发. 此时的Bregman距离恰好是KL散度, 于是 max ⁡ x ∈ Δ n B ω ( x , 1 n e ) = max ⁡ x ∈ Δ n ∑ i = 1 n x i log ⁡ ( n x i ) = log ⁡ ( n ) + max ⁡ x ∈ Δ n ∑ i = 1 n x i log ⁡ x i = log ⁡ ( n ) . \begin{aligned}\max_{\mathbf{x}\in\Delta_n}B_{\omega}\left(\mathbf{x},\frac{1}{n}\mathbf{e}\right)&=\max_{\mathbf{x}\in\Delta_n}\sum_{i=1}^nx_i\log(nx_i)=\log(n)+\max_{\mathbf{x}\in\Delta_n}\sum_{i=1}^nx_i\log x_i\\&=\log(n).\end{aligned} xΔnmaxBω(x,n1e)=xΔnmaxi=1nxilog(nxi)=log(n)+xΔnmaxi=1nxilogxi=log(n).于是可取 Θ ( x 0 ) = log ⁡ ( n ) \Theta(\mathbf{x}^0)=\log(n) Θ(x0)=log(n). 由定理3, 恰当选取步长, 有 f b e s t N − f o p t ≤ 2 log ⁡ ( n ) L f , ∞ N + 1 ⏟ C ne f , f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\underbrace{\frac{\sqrt{2\log(n)}L_{f,\infty}}{\sqrt{N+1}}}_{C_{\text{ne}}^f}, fbestNfoptCnef N+1 2log(n) Lf,,其中 L f , ∞ = max ⁡ x ∈ Δ n ∥ f ′ ( x ) ∥ ∞ L_{f,\infty}=\max_{\mathbf{x}\in\Delta_n}\Vert f'(\mathbf{x})\Vert_{\infty} Lf,=maxxΔnf(x).

上界 C e f , C ne f C_{\text{e}}^f,C_{\text{ne}}^f Cef,Cnef的比值记为 ρ f = C ne f C e f = log ⁡ ( n ) L f , ∞ L f , 2 . \rho^f=\frac{C_{\text{ne}}^f}{C_{\text{e}}^f}=\sqrt{\log(n)}\frac{L_{f,\infty}}{L_{f,2}}. ρf=CefCnef=log(n) Lf,2Lf,. ρ f \rho^f ρf是大于1(意味着欧式情形的算法更好)还是小于1(意味着非欧式情形的算法更好)取决于 f f f的性质. 事实上, 对 ∀ y ∈ R n \forall\mathbf{y}\in\mathbb{R}^n yRn, 恒有 ∥ y ∥ ∞ ≤ ∥ y ∥ 2 ≤ n ∥ y ∥ ∞ \Vert\mathbf{y}\Vert_{\infty}\le\Vert\mathbf{y}\Vert_2\le\sqrt{n}\Vert\mathbf{y}\Vert_{\infty} yy2n y. 因此 1 n ≤ L f , ∞ L f , 2 ≤ 1 , \frac{1}{\sqrt{n}}\le\frac{L_{f,\infty}}{L_{f,2}}\le1, n 1Lf,2Lf,1,从而 log ⁡ ( n ) n ≤ ρ f ≤ log ⁡ ( n ) . \frac{\sqrt{\log(n)}}{\sqrt{n}}\le\rho^f\le\sqrt{\log(n)}. n log(n) ρflog(n) .

2.3 变步长准则

2.2节讨论了固定迭代数时, 步长的一种“最优”选取方案. 其中使用步长也是固定的. 但在实际应用中, 我们往往不会去固定算法迭代的步数, 而是使用其它不同的停机准则. 这就是为什么变步长准则这么重要了. 类似于第八章中对Proj-SGM的论述, 我们也可以用MDM基本不等式建立变步长准则下MDM的收敛性质.

定理4 (变步长MDM的收敛性质) 假定假设条件1、2成立, 且存在 L f > 0 L_f>0 Lf>0, 使得 ∥ f ′ ( x ) ∥ ∗ ≤ L f ,   ∀ x ∈ C \Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in C f(x)Lf,xC. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由带正步长 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k0的MDM生成的迭代序列, { f b e s t k } k ≥ 0 \{f_{\mathrm{best}}^k\}_{k\ge0} {fbestk}k0为最优函数值序列.
(i) 若 ∑ n = 0 k t n 2 ∑ n = 0 k t n → 0 \frac{\sum_{n=0}^kt_n^2}{\sum_{n=0}^kt_n}\to0 n=0ktnn=0ktn20, 则 f b e s t k → f o p t f_{\mathrm{best}}^k\to f_{\mathrm{opt}} fbestkfopt;
(ii) 若 t k t_k tk选取为

  • 预设递减步长(predefined diminishing stepsize): t k = 2 σ L f k + 1 t_k=\frac{\sqrt{2\sigma}}{L_f\sqrt{k+1}} tk=Lfk+1 2σ ; 或
  • 自适应步长(adaptive stepsize): t k = { 2 σ ∥ f ′ ( x k ) ∥ ∗ k + 1 , f ′ ( x k ) ≠ 0 , 2 σ L f k + 1 , f ′ ( x k ) = 0 , t_k=\left\{\begin{array}{ll}\frac{\sqrt{2\sigma}}{\Vert f'(\mathbf{x}^k)\Vert_*\sqrt{k+1}}, & f'(\mathbf{x}^k)\ne\mathbf{0},\\\frac{\sqrt{2\sigma}}{L_f\sqrt{k+1}}, & f'(\mathbf{x}^k)=\mathbf{0},\end{array}\right. tk={f(xk)k+1 2σ ,Lfk+1 2σ ,f(xk)=0,f(xk)=0,

则对 ∀ k ≥ 1 \forall k\ge1 k1, f b e s t k − f o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + 1 + log ⁡ ( k + 1 ) k + 1 . f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+1+\log(k+1)}{\sqrt{k+1}}. fbestkfopt2σ Lfk+1 Bω(x,x0)+1+log(k+1).

证明: 由MDM基本不等式, 对 ∀ n ≥ 0 \forall n\ge0 n0, t n ( f ( x n ) − f o p t ) ≤ B ω ( x ∗ , x n ) − B ω ( x ∗ , x n + 1 ) + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 . t_n(f(\mathbf{x}^n)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1})+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2. tn(f(xn)fopt)Bω(x,xn)Bω(x,xn+1)+2σtn2f(xn)2.对指标 n = 0 , 1 , … , k n=0,1,\ldots,k n=0,1,,k求和以上不等式可得 ∑ n = 0 k t n ( f ( x n ) − f o p t ) ≤ B ω ( x ∗ , x 0 ) − B ω ( x ∗ , x k + 1 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \sum_{n=0}^kt_n(f(\mathbf{x}^n)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2. n=0ktn(f(xn)fopt)Bω(x,x0)Bω(x,xk+1)+2σ1n=0ktn2f(xn)2.由于 B ω ( x ∗ , x k + 1 ) ≥ 0 ,   f ( x n ) ≥ f b e s t k ( n ≤ k ) B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})\ge0,\,f(\mathbf{x}^n)\ge f_{\mathrm{best}}^k(n\le k) Bω(x,xk+1)0,f(xn)fbestk(nk), 我们有 f b e s t k − f o p t ≤ B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ∑ n = 0 k t n . f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2}{\sum_{n=0}^kt_n}. fbestkfoptn=0ktnBω(x,x0)+2σ1n=0ktn2f(xn)2.由于 ∥ f ′ ( x n ) ∥ ∗ ≤ L f \Vert f'(\mathbf{x}^n)\Vert_*\le L_f f(xn)Lf, 所以 f b e s t k − f o p t ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ n = 0 k t n 2 ∑ n = 0 k t n . f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{n=0}^kt_n^2}{\sum_{n=0}^kt_n}. fbestkfoptn=0ktnBω(x,x0)+2σLf2n=0ktn2.因此若 ∑ n = 0 k t n 2 ∑ n = 0 k t n → 0 \frac{\sum_{n=0}^kt_n^2}{\sum_{n=0}^kt_n}\to0 n=0ktnn=0ktn20, 则 f b e s t k → f o p t f_{\mathrm{best}}^k\to f_{\mathrm{opt}} fbestkfopt. 这就证明了(i).

下面证明(ii). 注意到两种步长准则都满足 t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ≤ 2 σ n + 1 ,   t n ≥ 2 σ L f n + 1 t_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2\le\frac{2\sigma}{n+1},\,t_n\ge\frac{\sqrt{2\sigma}}{L_f\sqrt{n+1}} tn2f(xn)2n+12σ,tnLfn+1 2σ . 所以 f b e s t k − f o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + ∑ n = 0 k 1 n + 1 ∑ n = 0 k 1 n + 1 , f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\sum_{n=0}^k\frac{1}{n+1}}{\sum_{n=0}^k\frac{1}{\sqrt{n+1}}}, fbestkfopt2σ Lfn=0kn+1 1Bω(x,x0)+n=0kn+11,再由第八章引理9(i)即得证.

例4 (MDM vs. Proj-SGM——数值例子) 考虑问题 min ⁡ { ∥ A x − b ∥ 1 : x ∈ Δ n } , \min\{\Vert\mathbf{Ax-b}\Vert_1:\mathbf{x}\in\Delta_n\}, min{Axb1:xΔn},其中 A ∈ R n × n ,   b ∈ R n \mathbf{A}\in\mathbb{R}^{n\times n},\,\mathbf{b}\in\mathbb{R}^n ARn×n,bRn. 由例1, 我们考虑两种算法.

  • Proj-SGM. 假设 R n \mathbb{R}^n Rn中的范数为 ℓ 2 \ell_2 2-范数. 则更新公式为 x k + 1 = P Δ n ( x k − t k f ′ ( x k ) ) , \mathbf{x}^{k+1}=P_{\Delta_n}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)), xk+1=PΔn(xktkf(xk)),其中我们取 f ′ ( x k ) = A T s g n ( A x k − b ) f'(\mathbf{x}^k)=\mathbf{A}^T\mathrm{sgn}(\mathbf{A}\mathbf{x}^k-\mathbf{b}) f(xk)=ATsgn(Axkb), 步长为自适应步长: t k = 2 ∥ f ′ ( x k ) ∥ 2 k + 1 . t_k=\frac{\sqrt{2}}{\Vert f'(\mathbf{x}^k)\Vert_2\sqrt{k+1}}. tk=f(xk)2k+1 2 .
  • MDM. 假设 R n \mathbb{R}^n Rn中的范数为 ℓ 1 \ell_1 1-范数, ω \omega ω为负熵函数. 此时, 更新公式为 x i k + 1 = x i k e − t k f i ′ ( x k ) ∑ j = 1 n x j k e − t k f j ′ ( x k ) , i = 1 , 2 , … , n , x_i^{k+1}=\frac{x_i^ke^{-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^nx_j^ke^{-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n, xik+1=j=1nxjketkfj(xk)xiketkfi(xk),i=1,2,,n,其中步长取为 t k = 2 ∥ f ′ ( x k ) ∥ ∞ k + 1 . t_k=\frac{\sqrt{2}}{\Vert f'(\mathbf{x}^k)\Vert_{\infty}\sqrt{k+1}}. tk=f(xk)k+1 2 .

我们取 n = 100 n=100 n=100, 按标准正太分布独立随机生成 A , b \mathbf{A,b} A,b的分量. 下图显示了两种方法 f ( x k ) − f o p t ,   f b e s t k − f o p t f(\mathbf{x}^k)-f_{\mathrm{opt}},\,f_{\mathrm{best}}^k-f_{\mathrm{opt}} f(xk)fopt,fbestkfopt的变化.

在这里插入图片描述
显然此例中, MD要优于Proj-SGM.

3. 求解组合模型的镜像下降法——镜像-C算法

本节我们讨论更加一般的模型: min ⁡ x ∈ E { F ( x ) ≡ f ( x ) + g ( x ) } . \min_{\mathbf{x}\in\mathbb{E}}\{F(\mathbf{x})\equiv f(\mathbf{x})+g(\mathbf{x})\}. xEmin{F(x)f(x)+g(x)}.我们对 f , g f,g f,g做如下假设:

假设条件3 ( f , g f,g f,g的性质)
(i) f , g : E → ( − ∞ , ∞ ] f,g:\mathbb{E}\to(-\infty,\infty] f,g:E(,]为正常闭凸函数;
(ii) d o m ( g ) ⊂ i n t ( d o m ( f ) ) \mathrm{dom}(g)\subset\mathrm{int}(\mathrm{dom}(f)) dom(g)int(dom(f));
(iii) ∃ L f > 0 : ∥ f ′ ( x ) ∥ ∗ ≤ L f ,   ∀ x ∈ d o m ( g ) \exists L_f>0: \Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in\mathrm{dom}(g) Lf>0:f(x)Lf,xdom(g);
(iv) 组合模型最优解集非空, 记为 X ∗ X^* X; 最优值记为 F o p t F_{\mathrm{opt}} Fopt.

我们同样引入函数 ω \omega ω, 并对其做出如下假设4:

假设条件4 ( ω \omega ω的性质)
(i) ω \omega ω是正常闭凸函数;
(ii) ω \omega ω d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(ω)上可微;
(iii) d o m ( g ) ⊂ d o m ( ω ) \mathrm{dom}(g)\subset\mathrm{dom}(\omega) dom(g)dom(ω);
(iv) ω + δ d o m ( g ) \omega+\delta_{\mathrm{dom}(g)} ω+δdom(g) σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0).

显然, 我们可以忽略模型的组合结构, 直接应用MDM于 F = f + g F=f+g F=f+g, 其中 C C C d o m ( g ) \mathrm{dom}(g) dom(g)代替: x k + 1 = arg ⁡ min ⁡ x ∈ C { ⟨ f ′ ( x k ) + g ′ ( x k ) , x ⟩ + 1 t k B ω ( x , x k ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle f'(\mathbf{x}^k)+g'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}. xk+1=argxCmin{f(xk)+g(xk),x+tk1Bω(x,xk)}.但这样的直接应用会带来一些问题:

  1. 我们并没有假设 C = d o m ( g ) C=\mathrm{dom}(g) C=dom(g)是闭集, 因此 x k + 1 \mathbf{x}^{k+1} xk+1可能未定义;
  2. 即使 x k + 1 \mathbf{x}^{k+1} xk+1可以定义, 但我们并没有假设 g g g C C C上是Lipschitz的. 但这在MDM收敛性分析中是至关重要的;
  3. 再即使 g g g C C C上是Lipschitz的, 和函数 F = f + g F=f+g F=f+g的Lipschitz常数可能也要比 f f f的Lipschitz常数大得多. 我们希望能够设计一种仅依赖于 f f f d o m ( g ) \mathrm{dom}(g) dom(g)上Lipschitz常数的算法.

我们不妨只线性化 f f f. 于是得到如下格式: x k + 1 = arg ⁡ min ⁡ x { ⟨ f ′ ( x k ) , x ⟩ + g ( x ) + 1 t k B ω ( x , x k ) } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\left\{\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+g(\mathbf{x})+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}, xk+1=argxmin{f(xk),x+g(x)+tk1Bω(x,xk)},代入 B ω B_{\omega} Bω的定义, 就有 x k + 1 = arg ⁡ min ⁡ x { ⟨ t k f ′ ( x k ) − ∇ ω ( x k ) , x ⟩ + t k g ( x ) + ω ( x ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\{\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+t_kg(\mathbf{x})+\omega(\mathbf{x})\}. xk+1=argxmin{tkf(xk)ω(xk),x+tkg(x)+ω(x)}.我们称基于此更新格式的算法为镜像-C算法(mirror-C method, MCM)5.

在这里插入图片描述
易知 g = δ C g=\delta_C g=δC时, MCM就回到了MDM. 为分析MCM, 我们先来说明它是良定义的, 即新的迭代点一定落在 d o m ( g ) ∩ d o m ( ∂ ω ) \mathrm{dom}(g)\cap\mathrm{dom}(\partial\omega) dom(g)dom(ω). 证明直接利用引理2.

定理5 (MCM的良定性) 假定假设条件3、4成立. 设 a ∈ E ∗ \mathbf{a}\in\mathbb{E}^* aE. 则问题 min ⁡ x ∈ E { ⟨ a , x ⟩ + g ( x ) + ω ( x ) } \min_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{a,x}\rangle+g(\mathbf{x})+\omega(\mathbf{x})\} xEmin{a,x+g(x)+ω(x)}的极小点唯一取在 d o m ( g ) ∩ d o m ( ∂ ω ) \mathrm{dom}(g)\cap\mathrm{dom}(\partial\omega) dom(g)dom(ω).

证明: 在引理2中令 ψ ( x ) ≡ ⟨ a , x ⟩ + g ( x ) \psi(\mathbf{x})\equiv\langle\mathbf{a,x}\rangle+g(\mathbf{x}) ψ(x)a,x+g(x)即得证.

MCM的分析方法类似于第2节中分析MDM的. 我们先证明MCM基本不等式. 注意, 我们在此还需额外假设 g g g是非负函数, 且步长序列是递减的.

引理8 (MCM基本不等式) 假定假设条件3、4成立, g g g是非负函数. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由带正递减步长 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k0的MCM生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ ,   k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 xX,k0, min ⁡ n = 0 , 1 , … , k F ( x n ) − F o p t ≤ t 0 g ( x 0 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ∑ n = 0 k t n . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{t_0g(\mathbf{x}^0)+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2}{\sum_{n=0}^kt_n}. n=0,1,,kminF(xn)Foptn=0ktnt0g(x0)+Bω(x,x0)+2σ1n=0ktn2f(xn)2.

证明: 由更新公式, 并在非欧第二临近定理中令 b = x n ,   a = x n + 1 ,   ψ ( x ) ≡ t n ⟨ f ′ ( x n ) , x ⟩ + t n g ( x ) \mathbf{b}=\mathbf{x}^n,\,\mathbf{a}=\mathbf{x}^{n+1},\,\psi(\mathbf{x})\equiv t_n\langle f'(\mathbf{x}^n),\mathbf{x}\rangle+t_ng(\mathbf{x}) b=xn,a=xn+1,ψ(x)tnf(xn),x+tng(x), 就有 ⟨ ∇ ω ( x n ) − ∇ ω ( x n + 1 ) , u − x n + 1 ⟩ ≤ t n ⟨ f ′ ( x n ) , u − x n + 1 ⟩ + t n g ( u ) − t n g ( x n + 1 ) . \langle\nabla\omega(\mathbf{x}^n)-\nabla\omega(\mathbf{x}^{n+1}),\mathbf{u}-\mathbf{x}^{n+1}\rangle\le t_n\langle f'(\mathbf{x}^n),\mathbf{u}-\mathbf{x}^{n+1}\rangle+t_ng(\mathbf{u})-t_ng(\mathbf{x}^{n+1}). ω(xn)ω(xn+1),uxn+1tnf(xn),uxn+1+tng(u)tng(xn+1).由三点引理, 令其中 a = x n + 1 ,   b = x n ,   c = u \mathbf{a}=\mathbf{x}^{n+1},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{c=u} a=xn+1,b=xn,c=u就有 ⟨ ∇ ω ( x n ) − ∇ ω ( x n + 1 ) , u − x n + 1 ⟩ = B ω ( u , x n + 1 ) + B ω ( x n + 1 , x n ) − B ω ( u , x n ) , \langle\nabla\omega(\mathbf{x}^n)-\nabla\omega(\mathbf{x}^{n+1}),\mathbf{u}-\mathbf{x}^{n+1}\rangle=B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})+B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^n), ω(xn)ω(xn+1),uxn+1=Bω(u,xn+1)+Bω(xn+1,xn)Bω(u,xn),合起来就有 B ω ( u , x n + 1 ) + B ω ( x n + 1 , x n ) − B ω ( u , x n ) ≤ t n ⟨ f ′ ( x n ) , u − x n + 1 ⟩ + t n g ( u ) − t n g ( x n + 1 ) . B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})+B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^n)\le t_n\langle f'(\mathbf{x}^n),\mathbf{u}-\mathbf{x}^{n+1}\rangle+t_ng(\mathbf{u})-t_ng(\mathbf{x}^{n+1}). Bω(u,xn+1)+Bω(xn+1,xn)Bω(u,xn)tnf(xn),uxn+1+tng(u)tng(xn+1).因此, t n ⟨ f ′ ( x n ) , x n − u ⟩ + t n g ( x n + 1 ) − t n g ( u ) ≤ B ω ( u , x n ) − B ω ( u , x n + 1 ) − B ω ( x n + 1 , x n ) + t n ⟨ f ′ ( x n ) , x n − x n + 1 ⟩ ≤ B ω ( u , x n ) − B ω ( u , x n + 1 ) − σ 2 ∥ x n + 1 − x n ∥ 2 + t n ⟨ f ′ ( x n ) , x n − x n + 1 ⟩ = B ω ( u , x n ) − B ω ( u , x n + 1 ) − σ 2 ∥ x n + 1 − x n ∥ 2 + ⟨ t n σ f ′ ( x n ) , σ ( x n − x n + 1 ) ⟩ ≤ B ω ( u , x n ) − B ω ( u , x n + 1 ) − σ 2 ∥ x n + 1 − x n ∥ 2 + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 + σ 2 ∥ x n + 1 − x n ∥ 2 = B ω ( u , x n ) − B ω ( u , x n + 1 ) + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 . \begin{aligned}&t_n\langle f'(\mathbf{x}^n),\mathbf{x}^n-\mathbf{u}\rangle+t_ng(\mathbf{x}^{n+1})-t_ng(\mathbf{u})\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)+t_n\langle f'(\mathbf{x}^n),\mathbf{x}^n-\mathbf{x}^{n+1}\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2+t_n\langle f'(\mathbf{x}^n),\mathbf{x}^n-\mathbf{x}^{n+1}\rangle\\&=B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2+\left\langle\frac{t_n}{\sqrt{\sigma}}f'(\mathbf{x}^n),\sqrt{\sigma}(\mathbf{x}^n-\mathbf{x}^{n+1})\right\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2+\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2\\&=B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2.\end{aligned} tnf(xn),xnu+tng(xn+1)tng(u)Bω(u,xn)Bω(u,xn+1)Bω(xn+1,xn)+tnf(xn),xnxn+1Bω(u,xn)Bω(u,xn+1)2σxn+1xn2+tnf(xn),xnxn+1=Bω(u,xn)Bω(u,xn+1)2σxn+1xn2+σ tnf(xn),σ (xnxn+1)Bω(u,xn)Bω(u,xn+1)2σxn+1xn2+2σtn2f(xn)2+2σxn+1xn2=Bω(u,xn)Bω(u,xn+1)+2σtn2f(xn)2. u = x ∗ \mathbf{u}=\mathbf{x}^* u=x并由次梯度不等式, 我们有 t n [ f ( x n ) + g ( x n + 1 ) − F o p t ] ≤ B ω ( x ∗ , x n ) − B ω ( x ∗ , x n + 1 ) + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 . t_n[f(\mathbf{x}^n)+g(\mathbf{x}^{n+1})-F_{\mathrm{opt}}]\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1})+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2. tn[f(xn)+g(xn+1)Fopt]Bω(x,xn)Bω(x,xn+1)+2σtn2f(xn)2.对指标 n = 0 , 1 , … , k n=0,1,\ldots,k n=0,1,,k求和以上不等式可得 ∑ n = 0 k t n [ f ( x n ) + g ( x n + 1 ) − F o p t ] ≤ B ω ( x ∗ , x 0 ) − B ω ( x ∗ , x k + 1 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \sum_{n=0}^kt_n[f(\mathbf{x}^n)+g(\mathbf{x}^{n+1})-F_{\mathrm{opt}}]\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2. n=0ktn[f(xn)+g(xn+1)Fopt]Bω(x,x0)Bω(x,xk+1)+2σ1n=0ktn2f(xn)2.在两边同时加上 t 0 g ( x 0 ) − t k g ( x k + 1 ) t_0g(\mathbf{x}^0)-t_kg(\mathbf{x}^{k+1}) t0g(x0)tkg(xk+1), 并利用Bregman距离的非负性可得 t 0 ( F ( x 0 ) − F o p t ) + ∑ n = 1 k [ t n f ( x n ) + t n − 1 g ( x n ) − t n F o p t ] ≤ t n g ( x 0 ) − t k g ( x k + 1 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \begin{aligned}&t_0(F(\mathbf{x}^0)-F_{\mathrm{opt}})+\sum_{n=1}^k[t_nf(\mathbf{x}^n)+t_{n-1}g(\mathbf{x}^n)-t_nF_{\mathrm{opt}}]\\&\le t_ng(\mathbf{x}^0)-t_kg(\mathbf{x}^{k+1})+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2.\end{aligned} t0(F(x0)Fopt)+n=1k[tnf(xn)+tn1g(xn)tnFopt]tng(x0)tkg(xk+1)+Bω(x,x0)+2σ1n=0ktn2f(xn)2.由于 t n ≤ t n − 1 ,   g ( x n ) ≥ 0 t_n\le t_{n-1},\,g(\mathbf{x}^n)\ge0 tntn1,g(xn)0, 因此 ( ∑ n = 0 k t n ) ( min ⁡ n = 0 , 1 , … , k F ( x n ) − F o p t ) ≤ ∑ n = 0 k t n [ F ( x n ) − F o p t ] ≤ t n g ( x 0 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \left(\sum_{n=0}^kt_n\right)\left(\min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\right)\le\sum_{n=0}^kt_n[F(\mathbf{x}^n)-F_{\mathrm{opt}}]\le t_ng(\mathbf{x}^0)+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2. (n=0ktn)(n=0,1,,kminF(xn)Fopt)n=0ktn[F(xn)Fopt]tng(x0)+Bω(x,x0)+2σ1n=0ktn2f(xn)2.移项即得证.

有了MCM基本不等式, 我们就可以分析MCM的收敛性质.

定理6 (固定迭代数MCM的 O ( 1 / N ) O(1/\sqrt{N}) O(1/N )收敛速度) 假定假设条件3、4成立, g g g非负. 设 B ω ( x , x 0 ) B_{\omega}(\mathbf{x},\mathbf{x}^0) Bω(x,x0) d o m ( g ) \mathrm{dom}(g) dom(g)上有界: 存在 Θ ( x 0 ) \Theta(\mathbf{x}^0) Θ(x0), 使得 Θ ( x 0 ) ≥ max ⁡ x ∈ d o m ( g ) B ω ( x , x 0 ) . \Theta(\mathbf{x}^0)\ge\max_{\mathbf{x}\in\mathrm{dom}(g)}B_{\omega}(\mathbf{x},\mathbf{x}^0). Θ(x0)xdom(g)maxBω(x,x0). g ( x 0 ) = 0 g(\mathbf{x}^0)=0 g(x0)=0. 令 N N N为一正整数. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由步长为 t k = 2 Θ ( x 0 ) σ L f N t_k=\frac{\sqrt{2\Theta(\mathbf{x}^0)\sigma}}{L_f\sqrt{N}} tk=LfN 2Θ(x0)σ 的MCM生成的迭代序列. 则 min ⁡ n = 0 , 1 , … , N − 1 F ( x n ) − F o p t ≤ 2 Θ ( x 0 ) L f σ N . \min_{n=0,1,\ldots,N-1}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{\sqrt{2\Theta(\mathbf{x}^0)}L_f}{\sqrt{\sigma}\sqrt{N}}. n=0,1,,N1minF(xn)Foptσ N 2Θ(x0) Lf.

证明: 由MCM基本不等式以及 g ( x 0 ) = 0 ,   ∥ f ′ ( x n ) ∥ ∗ ≤ L f ,   B ω ( x ∗ , x 0 ) ≤ Θ ( x 0 ) g(\mathbf{x}^0)=0,\,\Vert f'(\mathbf{x}^n)\Vert_*\le L_f,\,B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)\le\Theta(\mathbf{x}^0) g(x0)=0,f(xn)Lf,Bω(x,x0)Θ(x0), 就有 min ⁡ n = 0 , 1 , … , N − 1 F ( x n ) − F o p t ≤ Θ ( x 0 ) + L f 2 2 σ ∑ n = 0 N − 1 t n 2 ∑ n = 0 N − 1 t n . \min_{n=0,1,\ldots,N-1}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{\Theta(\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{n=0}^{N-1}t_n^2}{\sum_{n=0}^{N-1}t_n}. n=0,1,,N1minF(xn)Foptn=0N1tnΘ(x0)+2σLf2n=0N1tn2.再将 t n t_n tn的表达式代入即得证.

定理7 (变步长MCM的 O ( log ⁡ k / k ) O(\log k/\sqrt{k}) O(logk/k )收敛速度) 假定假设条件3、4成立, g g g非负. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k0为由步长准则为 t k = 2 σ L f k + 1 t_k=\frac{\sqrt{2\sigma}}{L_f\sqrt{k+1}} tk=Lfk+1 2σ 的MCM生成的迭代序列. 则对 ∀ k ≥ 1 \forall k\ge1 k1, min ⁡ n = 0 , 1 , … , k F ( x n ) − F o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + 2 σ L f g ( x 0 ) + 1 + log ⁡ ( k + 1 ) k + 1 . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{\sqrt{2\sigma}}{L_f}g(\mathbf{x}^0)+1+\log(k+1)}{\sqrt{k+1}}. n=0,1,,kminF(xn)Fopt2σ Lfk+1 Bω(x,x0)+Lf2σ g(x0)+1+log(k+1).

证明: 由MCM基本不等式以及 t 0 = 2 σ L f t_0=\frac{\sqrt{2\sigma}}{L_f} t0=Lf2σ , min ⁡ n = 0 , 1 , … , k F ( x n ) − F o p t ≤ 2 σ L f g ( x 0 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ∑ n = 0 k t n . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{\frac{\sqrt{2\sigma}}{L_f}g(\mathbf{x}^0)+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2}{\sum_{n=0}^kt_n}. n=0,1,,kminF(xn)Foptn=0ktnLf2σ g(x0)+Bω(x,x0)+2σ1n=0ktn2f(xn)2.结合 t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ≤ 2 σ n + 1 ,   t n = 2 σ L f n + 1 t_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2\le\frac{2\sigma}{n+1},\,t_n=\frac{\sqrt{2\sigma}}{L_f\sqrt{n+1}} tn2f(xn)2n+12σ,tn=Lfn+1 2σ , 就有 min ⁡ n = 0 , 1 , … , k F ( x n ) − F o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + 2 σ L f g ( x 0 ) + ∑ n = 0 k 1 n + 1 ∑ n = 0 k 1 n + 1 . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{\sqrt{2\sigma}}{L_f}g(\mathbf{x}^0)+\sum_{n=0}^k\frac{1}{n+1}}{\sum_{n=0}^k\frac{1}{\sqrt{n+1}}}. n=0,1,,kminF(xn)Fopt2σ Lfn=0kn+1 1Bω(x,x0)+Lf2σ g(x0)+n=0kn+11.再根据第八章引理9(i)即得证.

例5 假设 R n \mathbb{R}^n Rn中的范数为 ℓ 2 \ell_2 2-范数. 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR为凸函数, 且在 R n \mathbb{R}^n Rn L f L_f Lf-Lipschitz连续, 即 ∥ f ′ ( x ) ∥ 2 ≤ L f ,   ∀ x ∈ R n \Vert f'(\mathbf{x})\Vert_2\le L_f,\,\forall\mathbf{x}\in\mathbb{R}^n f(x)2Lf,xRn. 考虑问题 min ⁡ x ∈ R + + n { F ( x ) ≡ f ( x ) + ∑ i = 1 n 1 x i } , \min_{\mathbf{x}\in\mathbb{R}_{++}^n}\left\{F(\mathbf{x})\equiv f(\mathbf{x})+\sum_{i=1}^n\frac{1}{x_i}\right\}, xR++nmin{F(x)f(x)+i=1nxi1}, ω ( x ) = 1 2 ∥ x ∥ 2 \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 ω(x)=21x2. 现有两种选择:

  • Proj-SGM. 我们发现可行集 C C C是不明确的. 如若取 C = R + + n C=\mathbb{R}_{++}^n C=R++n, 则到 C C C上的投影并不存在唯一. 另外 F F F显然不是Lipschitz连续的. 从而无法保证收敛性.
  • PSGM. 可取 g ( x ) ≡ ∑ i = 1 n 1 x i + δ R + + n g(\mathbf{x})\equiv\sum_{i=1}^n\frac{1}{x_i}+\delta_{\mathbb{R}_{++}^n} g(x)i=1nxi1+δR++n. 这样假设条件3、4都满足, 且 g g g非负. 迭代格式为 x k + 1 = p r o x t k g ( x k − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=\mathrm{prox}_{t_kg}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)). xk+1=proxtkg(xktkf(xk)).可以验证, 在每步计算prox时需要求解 n n n个一元三次方程.

例6 (Proj-SGM vs. PSGM——数值例子) 假设 R n \mathbb{R}^n Rn的范数为 ℓ 2 \ell_2 2-范数. 考虑问题 min ⁡ x ∈ R n { F ( x ) ≡ ∥ A x − b ∥ 1 + λ ∥ x ∥ 1 } , \min_{\mathbf{x}\in\mathbb{R}^n}\{F(\mathbf{x})\equiv\Vert\mathbf{Ax-b}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\}, xRnmin{F(x)Axb1+λx1},其中 A ∈ R m × n ,   b ∈ R m ,   λ > 0 \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\lambda>0 ARm×n,bRm,λ>0. 我们讨论求解此问题的两种算法:

  • Proj-SGM. 取 C = R n ,   s g n ( y ) ∈ ∂ ( ∥ y ∥ 1 ) C=\mathbb{R}^n,\,\mathrm{sgn}(\mathbf{y})\in\partial (\Vert\mathbf{y}\Vert_1) C=Rn,sgn(y)(y1), 迭代格式为 x k + 1 = x k − t k ( A T s g n ( A x k − b ) + λ s g n ( x ) ) . \mathbf{x}^{k+1}=\mathbf{x}^k-t_k(\mathbf{A}^T\mathrm{sgn}(\mathbf{Ax}^k-\mathbf{b})+\lambda\mathrm{sgn}(\mathbf{x})). xk+1=xktk(ATsgn(Axkb)+λsgn(x)).其中步长取为 t k = 1 ∥ F ′ ( x k ) ∥ 2 k + 1 t_k=\frac{1}{\Vert F'(\mathbf{x}^k)\Vert_2\sqrt{k+1}} tk=F(xk)2k+1 1.
  • PSGM. 令 f ( x ) = ∥ A x − b ∥ 1 ,   g ( x ) = λ ∥ x ∥ 1 f(\mathbf{x})=\Vert\mathbf{Ax-b}\Vert_1,\,g(\mathbf{x})=\lambda\Vert\mathbf{x}\Vert_1 f(x)=Axb1,g(x)=λx1, 从而 F = f + g F=f+g F=f+g. 迭代格式为 x k + 1 = p r o x s k g ( x k − s k A T s g n ( A x k − b ) ) . \mathbf{x}^{k+1}=\mathrm{prox}_{s_kg}(\mathbf{x}^k-s_k\mathbf{A}^T\mathrm{sgn}(\mathbf{Ax}^k-\mathbf{b})). xk+1=proxskg(xkskATsgn(Axkb)).因为 g ( x ) = λ ∥ x ∥ 1 g(\mathbf{x})=\lambda\Vert\mathbf{x}\Vert_1 g(x)=λx1, 因此 p r o x s k g \mathrm{prox}_{s_kg} proxskg软阈值算子 T λ s k \mathcal{T}_{\lambda s_k} Tλsk(第六章例2). 所以 x k + 1 = T λ s k ( x k − s k A T s g n ( A x k − b ) ) . \mathbf{x}^{k+1}=\mathcal{T}_{\lambda s_k}(\mathbf{x}^k-s_k\mathbf{A}^T\mathrm{sgn}(\mathbf{Ax}^k-\mathbf{b})). xk+1=Tλsk(xkskATsgn(Axkb)).步长取为 s k = 1 ∥ f ′ ( x k ) ∥ 2 k + 1 s_k=\frac{1}{\Vert f'(\mathbf{x}^k)\Vert_2\sqrt{k+1}} sk=f(xk)2k+1 1.

显然, Proj-SGM依赖于 F F F的Lipschitz常数 L F L_F LF, 而PSGM仅依赖于 f f f的Lipschitz常数 L f L_f Lf. 理论上, PSGM应当比Proj-SGM表现要好. 我们按标准正态分布独立随机生成了 A , b \mathbf{A,b} A,b的分量. 两种算法下 F ( x k ) − F o p t F(\mathbf{x}^k)-F_{\mathrm{opt}} F(xk)Fopt的变化情况可见下图.

在这里插入图片描述
从图中可知, 在此例中PSGM要显著优于Proj-SGM.


  1. 若定义 ω ~ = ω + δ C \tilde\omega=\omega+\delta_C ω~=ω+δC, 注意到 ∇ ω ( x k ) ∈ ∂ ω ~ ( x k ) \nabla\omega(\mathbf{x}^k)\in\partial\tilde\omega(\mathbf{x}^k) ω(xk)ω~(xk), 从而可将 ∇ ω ( x k ) \nabla\omega(\mathbf{x}^k) ω(xk)写成 ω ~ ′ ( x k ) \tilde\omega'(\mathbf{x}^k) ω~(xk), 于是MDM的迭代格式就可写作 x k + 1 = arg ⁡ min ⁡ x ∈ E { ⟨ t k f ′ ( x k ) − ω ~ ′ ( x k ) , x ⟩ + ω ~ ( x ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{\langle t_kf'(\mathbf{x}^k)-\tilde\omega'(\mathbf{x}^k),\mathbf{x}\rangle+\tilde\omega(\mathbf{x})\}. xk+1=argxEmin{tkf(xk)ω~(xk),x+ω~(x)}.根据共轭关联定理(第五章定理8(ii)), 由于 ω ~ \tilde\omega ω~是正常闭强凸函数, 所以 ω ~ ∗ \tilde\omega^* ω~ E ∗ \mathbb{E}^* E上的可微函数. 再根据共轭次梯度定理第二形式(第四章推论2), 就可以得到以下MDM迭代格式: x k + 1 = ∇ ω ~ ∗ ( ω ~ ′ ( x k ) − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=\nabla\tilde\omega^*(\tilde\omega'(\mathbf{x}^k)-t_kf'(\mathbf{x}^k)). xk+1=ω~(ω~(xk)tkf(xk)). ↩︎

  2. 这里写成等号是因为 ω + δ d o m ( ψ ) + ψ = ω + ψ \omega+\delta_{\mathrm{dom}(\psi)}+\psi=\omega+\psi ω+δdom(ψ)+ψ=ω+ψ强凸, 所以 a \mathbf{a} a是唯一确定的. ↩︎

  3. 与Proj-SGM基本不等式相比, MDM基本不等式形式上完全一致, 只是将欧式距离度量换成了Bregman距离度量, 次梯度的范数换成了对偶函数. ↩︎

  4. 与先前的假设条件2有些许不同. ↩︎

  5. E \mathbb{E} E是欧式空间, 且 ω ( x ) = 1 2 ∥ x ∥ 2 \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 ω(x)=21x2, 则更新公式变成 x k + 1 = arg ⁡ min ⁡ x { ⟨ t k f ′ ( x k ) , x ⟩ + t k g ( x ) + 1 2 ∥ x − x k ∥ 2 } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\left\{\langle t_kf'(\mathbf{x}^k),\mathbf{x}\rangle+t_kg(\mathbf{x})+\frac{1}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\}, xk+1=argxmin{tkf(xk),x+tkg(x)+21xxk2},稍作整理后即得 x k + 1 = arg ⁡ min ⁡ x { t k g ( x ) + 1 2 ∥ x − [ x k − t k f ′ ( x k ) ∥ 2 } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\left\{t_kg(\mathbf{x})+\frac{1}{2}\Vert\mathbf{x}-[\mathbf{x}^k-t_kf'(\mathbf{x}^k)\Vert^2\right\}. xk+1=argxmin{tkg(x)+21x[xktkf(xk)2}.由临近算子的定义, 即得 x k + 1 = p r o x t k g ( x k − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=\mathrm{prox}_{t_kg}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)). xk+1=proxtkg(xktkf(xk)).这时得到的算法称作临近次梯度算法(proximal subgradient method, PSGM). 易知当 g = δ C g=\delta_C g=δC时, 就回到了第八章的Proj-SGM. 我们将在第十章对其进行详细讨论. 期间将对 f f f做额外的可微性假设, 从而会得到更好的收敛性质. ↩︎

  • 5
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值