第九章: 镜像下降法
本章讨论 镜像下降法(mirror descent method, MDM)及其变体. 镜像下降实际上是 Proj-SGM在非欧情形下的推广. 因此本章的讨论不再限制在欧式空间中.
1. 从投影次梯度法到镜像下降法
考虑优化问题 ( P ) min { f ( x ) : x ∈ C } . (\mathrm{P})\quad\min\{f(\mathbf{x}):\mathbf{x}\in C\}. (P)min{f(x):x∈C}.我们对其做如下假设:
假设条件1
(i)
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]是正常闭凸函数;
(ii)
C
⊂
E
C\subset\mathbb{E}
C⊂E是非空闭凸集;
(iii)
C
⊂
i
n
t
(
d
o
m
(
f
)
)
C\subset\mathrm{int}(\mathrm{dom}(f))
C⊂int(dom(f));
(iv) 问题
(
P
)
(\mathrm{P})
(P)的最优解集非空, 记为
X
∗
X^*
X∗. 最优值记为
f
o
p
t
f_{\mathrm{opt}}
fopt.
求解问题 ( P ) (\mathrm{P}) (P)的Proj-SGM已在第八章讨论过. 而贯穿第八章始终的一个基本假设就是空间是欧式空间, 即 ∥ ⋅ ∥ = ⟨ ⋅ , ⋅ ⟩ \Vert\cdot\Vert=\sqrt{\langle\cdot,\cdot\rangle} ∥⋅∥=⟨⋅,⋅⟩. 那么欧式空间假设的作用在何处呢? 考虑Proj-SGM的一般迭代格式 x k + 1 = P C ( x k − t k f ′ ( x k ) ) , f ′ ( x k ) ∈ ∂ f ( x k ) , \mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)),\quad f'(\mathbf{x}^k)\in\partial f(\mathbf{x}^k), xk+1=PC(xk−tkf′(xk)),f′(xk)∈∂f(xk),其中 t k t_k tk为步长. 当空间非欧时, 使用上述迭代格式就存在一个逻辑上的问题: x k 在 E 中 , 而 f ′ ( x k ) 在 E ∗ 中 . \mathbf{x}^k在\mathbb{E}中, 而f'(\mathbf{x}^k)在\mathbb{E}^*中. xk在E中,而f′(xk)在E∗中. 当然, 元素上我们可以将 E , E ∗ \mathbb{E},\mathbb{E}^* E,E∗视作等同. 但当讨论涉及范数时, 就会陷入困境. 这便是将Proj-SGM推广到非欧空间的动机之一.
为更好地解释欧式范数在Proj-SGM中的作用, 我们将Proj-SGM迭代格式写成如下的等价形式: x k + 1 = arg min x ∈ C { f ( x k ) + ⟨ f ′ ( x k ) , x − x k ⟩ + 1 2 t k ∥ x − x k ∥ 2 } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\}, xk+1=argx∈Cmin{f(xk)+⟨f′(xk),x−xk⟩+2tk1∥x−xk∥2},等价是因为 f ( x k ) + ⟨ f ′ ( x k ) , x − x k ⟩ + 1 2 t k ∥ x − x k ∥ 2 = 1 2 t k ∥ x − [ x k − t k f ′ ( x k ) ] ∥ 2 + D , f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{2t_k}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2=\frac{1}{2t_k}\Vert\mathbf{x}-[\mathbf{x}^k-t_kf'(\mathbf{x}^k)]\Vert^2+D, f(xk)+⟨f′(xk),x−xk⟩+2tk1∥x−xk∥2=2tk1∥x−[xk−tkf′(xk)]∥2+D,其中 D D D是与 x \mathbf{x} x无关的常数. 由等价形式, 我们发现Proj-SGM每步实际上就是在极小化目标函数在当前迭代点 x k \mathbf{x}^k xk处的一个线性近似外加一个二次的临近项.
当内积与范数不相容时(也就是非欧空间), 上述等价性便不成立. 但这一等价形式提醒我们, 可以将欧式距离 1 2 ∥ x − y ∥ 2 \frac{1}{2}\Vert\mathbf{x-y}\Vert^2 21∥x−y∥2换成一种与内积兼容, 同时又可度量距离的某个函数. 这里我们要使用的非欧“距离”是所谓的Bregman距离(Bregman distances).
定义1 (Bregman距离) 设 ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E→(−∞,∞]为一正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(∂ω)上可微. 与 ω \omega ω相关联的Bregman距离是二元函数 B ω : d o m ( ω ) × d o m ( ∂ ω ) → R B_{\omega}:\mathrm{dom}(\omega)\times\mathrm{dom}(\partial\omega)\to\mathbb{R} Bω:dom(ω)×dom(∂ω)→R, 定义为 B ω ( x , y ) = ω ( x ) − ω ( y ) − ⟨ ∇ ω ( y ) , x − y ⟩ . B_{\omega}(\mathbf{x,y})=\omega(\mathbf{x})-\omega(\mathbf{y})-\langle\nabla\omega(\mathbf{y}),\mathbf{x-y}\rangle. Bω(x,y)=ω(x)−ω(y)−⟨∇ω(y),x−y⟩.
对于给定的集合 C C C, 我们对 ω \omega ω做如下假设.
假设条件2 (
ω
\omega
ω的性质)
(i)
ω
\omega
ω是正常闭凸函数;
(ii)
ω
\omega
ω在
d
o
m
(
∂
ω
)
\mathrm{dom}(\partial\omega)
dom(∂ω)上可微;
(iii)
C
⊂
d
o
m
(
ω
)
C\subset\mathrm{dom}(\omega)
C⊂dom(ω);
(iv)
ω
+
δ
C
\omega+\delta_C
ω+δC是
σ
\sigma
σ-强凸函数(
σ
>
0
\sigma>0
σ>0).
需要指出的是, Bregman距离并不是一个距离. 它满足非负性, 且若它为 0 0 0, 它的两个参数就相同; 但除此之外, 它一般并不满足对称性和三角不等式. 我们将Bregman距离满足的性质汇总于引理1.
引理1 (Bregman距离的基本性质) 设
C
⊂
E
C\subset\mathbb{E}
C⊂E为非空闭凸集,
ω
\omega
ω满足假设条件2. 设
B
ω
B_{\omega}
Bω为与
ω
\omega
ω相关联的Bregman距离. 则
(i)
B
ω
(
x
,
y
)
≥
σ
2
∥
x
−
y
∥
2
,
∀
x
∈
C
,
y
∈
C
∩
d
o
m
(
∂
ω
)
B_{\omega}(\mathbf{x,y})\ge\frac{\sigma}{2}\Vert\mathbf{x-y}\Vert^2,\,\forall\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega)
Bω(x,y)≥2σ∥x−y∥2,∀x∈C,y∈C∩dom(∂ω);
(ii) 设
x
∈
C
,
y
∈
C
∩
d
o
m
(
∂
ω
)
\mathbf{x}\in C,\,\mathbf{y}\in C\cap\mathrm{dom}(\partial\omega)
x∈C,y∈C∩dom(∂ω). 则
- B ω ( x , y ) ≥ 0 B_{\omega}(\mathbf{x,y})\ge0 Bω(x,y)≥0;
- B ω ( x , y ) = 0 ⇔ x = y B_{\omega}(\mathbf{x,y})=0\Leftrightarrow\mathbf{x=y} Bω(x,y)=0⇔x=y.
证明: (i)直接根据强凸函数的一阶刻画(第五章定理6(ii))可得. (ii)则是(i)的直接推论.
假设 x k ∈ C ∩ d o m ( ∂ ω ) \mathbf{x}^k\in C\cap\mathrm{dom}(\partial\omega) xk∈C∩dom(∂ω). 将Proj-SGM等价迭代格式中的 1 2 ∥ x − x k ∥ 2 \frac{1}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2 21∥x−xk∥2替换成Bregman距离 B ω ( x , x k ) B_{\omega}(\mathbf{x},\mathbf{x}^k) Bω(x,xk)就有 x k + 1 = arg min x ∈ C { f ( x k ) + ⟨ f ′ ( x k ) , x − x k ⟩ + 1 t k B ω ( x , x k ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{f(\mathbf{x}^k)+\langle f'(\mathbf{x}^k),\mathbf{x}-\mathbf{x}^k\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}. xk+1=argx∈Cmin{f(xk)+⟨f′(xk),x−xk⟩+tk1Bω(x,xk)}.忽略常数项可得 x k + 1 = arg min x ∈ C { ⟨ f ′ ( x k ) , x ⟩ + 1 t k B ω ( x , x k ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}. xk+1=argx∈Cmin{⟨f′(xk),x⟩+tk1Bω(x,xk)}.进一步注意到 ⟨ f ′ ( x k ) , x ⟩ + 1 t k B ω ( x , x k ) = 1 t k [ ⟨ t k f ′ ( x k ) − ∇ ω ( x k ) , x ⟩ + ω ( x ) ] − 1 t k ω ( x k ) + 1 t k ⟨ ∇ ω ( x k ) , x k ⟩ ⏟ 常 数 . \begin{aligned}&\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\\&=\frac{1}{t_k}\left[\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\right]\underbrace{-\frac{1}{t_k}\omega(\mathbf{x}^k)+\frac{1}{t_k}\langle\nabla\omega(\mathbf{x}^k),\mathbf{x}^k\rangle}_{常数}.\end{aligned} ⟨f′(xk),x⟩+tk1Bω(x,xk)=tk1[⟨tkf′(xk)−∇ω(xk),x⟩+ω(x)]常数 −tk1ω(xk)+tk1⟨∇ω(xk),xk⟩.所以, 迭代格式1简化为 x k + 1 = arg min x ∈ C { ⟨ t k f ′ ( x k ) − ∇ ω ( x k ) , x ⟩ + ω ( x ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\{\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+\omega(\mathbf{x})\}. xk+1=argx∈Cmin{⟨tkf′(xk)−∇ω(xk),x⟩+ω(x)}.于是有MDM:
MDM的迭代格式需要对某个
a
∈
E
∗
\mathbf{a}\in\mathbb{E}^*
a∈E∗, 求解如下形式的子问题
min
x
∈
C
{
⟨
a
,
x
⟩
+
ω
(
x
)
}
.
\min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\}.
x∈Cmin{⟨a,x⟩+ω(x)}.为说明MDM迭代是良定义的, 我们需要证明上面子问题的解唯一取在
C
∩
d
o
m
(
∂
ω
)
C\cap\mathrm{dom}(\partial\omega)
C∩dom(∂ω)中. 为此, 我们给出一个更加一般的引理.
引理2 假设
- ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E→(−∞,∞]为正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(∂ω)上可微;
- ψ : E → ( − ∞ , ∞ ] \psi:\mathbb{E}\to(-\infty,\infty] ψ:E→(−∞,∞]为正常闭凸函数, 且 d o m ( ψ ) ⊂ d o m ( ω ) \mathrm{dom}(\psi)\subset\mathrm{dom}(\omega) dom(ψ)⊂dom(ω);
- ω + δ d o m ( ψ ) \omega+\delta_{\mathrm{dom}(\psi)} ω+δdom(ψ)是 σ \sigma σ-强凸函数 ( σ > 0 ) (\sigma>0) (σ>0).
则问题 min x ∈ E { ψ ( x ) + ω ( x ) } \min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})+\omega(\mathbf{x})\} x∈Emin{ψ(x)+ω(x)}的极小点唯一取在 d o m ( ψ ) ∩ d o m ( ∂ ω ) \mathrm{dom}(\psi)\cap\mathrm{dom}(\partial\omega) dom(ψ)∩dom(∂ω)中.
证明: 问题可写作 min x ∈ E φ ( x ) , \min_{\mathbf{x}\in\mathbb{E}}\varphi(\mathbf{x}), x∈Eminφ(x),其中 φ = ψ + ω \varphi=\psi+\omega φ=ψ+ω. 易知 φ \varphi φ是正常闭函数. 由于 ω + δ d o m ( ψ ) \omega+\delta_{\mathrm{dom}(\psi)} ω+δdom(ψ)是 σ \sigma σ-强凸函数, ψ \psi ψ是凸函数, 所以 ψ + ω + δ d o m ( ψ ) = ψ + ω = φ \psi+\omega+\delta_{\mathrm{dom}(\psi)}=\psi+\omega=\varphi ψ+ω+δdom(ψ)=ψ+ω=φ是 σ \sigma σ-强凸函数. 根据第五章定理7(i), 问题有唯一极小点 x ∗ ∈ d o m ( φ ) = d o m ( ψ ) \mathbf{x}^*\in\mathrm{dom}(\varphi)=\mathrm{dom}(\psi) x∗∈dom(φ)=dom(ψ). 为证明 x ∗ ∈ d o m ( ∂ ω ) \mathbf{x}^*\in\mathrm{dom}(\partial\omega) x∗∈dom(∂ω), 注意由Fermat最优性条件, 0 ∈ ∂ φ ( x ∗ ) ⇒ ∂ φ ( x ∗ ) ≠ ∅ \mathbf{0}\in\partial\varphi(\mathbf{x}^*)\Rightarrow\partial\varphi(\mathbf{x}^*)\ne\emptyset 0∈∂φ(x∗)⇒∂φ(x∗)=∅. 而由次微分的加法法则(第三章定理15), ∂ φ ( x ∗ ) = ∂ ψ ( x ∗ ) + ∂ ω ( x ∗ ) \partial\varphi(\mathbf{x}^*)=\partial\psi(\mathbf{x}^*)+\partial\omega(\mathbf{x}^*) ∂φ(x∗)=∂ψ(x∗)+∂ω(x∗). 所以必然有 ∂ ω ( x ∗ ) ≠ ∅ ⇒ x ∗ ∈ d o m ( ∂ ω ) \partial\omega(\mathbf{x}^*)\ne\emptyset\Rightarrow\mathbf{x}^*\in\mathrm{dom}(\partial\omega) ∂ω(x∗)=∅⇒x∗∈dom(∂ω).
定理1 (MDM的良定性) 假定假设条件1、2成立. 设 a ∈ E ∗ \mathbf{a}\in\mathbb{E}^* a∈E∗. 则问题 min x ∈ C { ⟨ a , x ⟩ + ω ( x ) } \min_{\mathbf{x}\in C}\{\langle\mathbf{a,x}\rangle+\omega(\mathbf{x})\} x∈Cmin{⟨a,x⟩+ω(x)}的唯一极小点取在 C ∩ d o m ( ∂ ω ) C\cap\mathrm{dom}(\partial\omega) C∩dom(∂ω).
证明: 直接利用引理2, 其中 ψ ( x ) ≡ = ⟨ a , x ⟩ + δ C ( x ) \psi(\mathbf{x})\equiv=\langle\mathbf{a,x}\rangle+\delta_C(\mathbf{x}) ψ(x)≡=⟨a,x⟩+δC(x).
我们列举两个比较常见的强凸函数的选取方式.
例1 (欧式范数平方) 假定假设条件1成立, E \mathbb{E} E是欧式空间. 定义 ω ( x ) = 1 2 ∥ x ∥ 2 . \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2. ω(x)=21∥x∥2.则 ω \omega ω显然满足假设条件2中的条件, 并且它是 1 1 1-强凸函数. 由于 ∇ ω ( x ) = x \nabla\omega(\mathbf{x})=\mathbf{x} ∇ω(x)=x, 于是MDM迭代格式变成 x k + 1 = arg min x ∈ C { ⟨ t k f ′ ( x k ) − x k , x ⟩ + 1 2 ∥ x ∥ 2 } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle t_kf'(\mathbf{x}^k)-\mathbf{x}^k,\mathbf{x}\rangle+\frac{1}{2}\Vert\mathbf{x}\Vert^2\right\}. xk+1=argx∈Cmin{⟨tkf′(xk)−xk,x⟩+21∥x∥2}.配方后易知, 这就是Proj-SGM迭代格式 x k + 1 = P C ( x k − t k f ′ ( x k ) ) \mathbf{x}^{k+1}=P_C(\mathbf{x}^k-t_kf'(\mathbf{x}^k)) xk+1=PC(xk−tkf′(xk)). 这再次说明了MDM是Proj-SGM的推广.
例2 (单位单纯形上的负熵函数) 假定假设条件1成立, E = R n \mathbb{E}=\mathbb{R}^n E=Rn, 范数为 ℓ 1 \ell_1 ℓ1-范数, C = Δ n C=\Delta_n C=Δn. 我们取 ω \omega ω为非负象限上的负熵函数: ω ( x ) = { ∑ i = 1 n x i log x i , x ∈ R + n , ∞ , 其 它 . \omega(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\mathbb{R}_+^n,\\\infty, & 其它.\end{array}\right. ω(x)={∑i=1nxilogxi,∞,x∈R+n,其它.根据第五章例10, ω + δ Δ n \omega+\delta_{\Delta_n} ω+δΔn是 ℓ 1 \ell_1 ℓ1-范数下的 1 1 1-强凸函数. 此时 d o m ( ∂ ω ) = R + + n \mathrm{dom}(\partial\omega)=\mathbb{R}_{++}^n dom(∂ω)=R++n, 并且事实上, ω \omega ω在其次可微点处就是可微的. 因此假设条件2成立. 对 ∀ x ∈ Δ n , y ∈ Δ n + ≡ { x ∈ R + + n : e T x = 1 } \forall\mathbf{x}\in\Delta_n,\,\mathbf{y}\in\Delta_n^+\equiv\{\mathbf{x}\in\mathbb{R}_{++}^n:\mathbf{e}^T\mathbf{x}=1\} ∀x∈Δn,y∈Δn+≡{x∈R++n:eTx=1}, 与 ω \omega ω关联的Bregman距离为 B ω ( x , y ) = ∑ i = 1 n x i log x i − ∑ i = 1 n y i log y i − ∑ i = 1 n ( log ( y i ) + 1 ) ( x i − y i ) = ∑ i = 1 n x i log ( x i / y i ) + ∑ i = 1 n y i − ∑ i = 1 n x i = ∑ i = 1 n x i log ( x i / y i ) , \begin{aligned}B_{\omega}(\mathbf{x,y})&=\sum_{i=1}^nx_i\log x_i-\sum_{i=1}^ny_i\log y_i-\sum_{i=1}^n(\log(y_i)+1)(x_i-y_i)\\&=\sum_{i=1}^nx_i\log(x_i/y_i)+\sum_{i=1}^ny_i-\sum_{i=1}^nx_i\\&=\sum_{i=1}^nx_i\log(x_i/y_i),\end{aligned} Bω(x,y)=i=1∑nxilogxi−i=1∑nyilogyi−i=1∑n(log(yi)+1)(xi−yi)=i=1∑nxilog(xi/yi)+i=1∑nyi−i=1∑nxi=i=1∑nxilog(xi/yi),这就是所谓的Kullback-Leibler(KL)散度距离测度(Kullback-Leibler divergence distance measure). 如此, MDM的迭代格式变成 x k + 1 = arg min x ∈ Δ n { ∑ i = 1 n ( t k f i ′ ( x k ) − 1 − log ( x i k ) ) x i + ∑ i = 1 n x i log x i } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\Delta_n}\left\{\sum_{i=1}^n(t_kf_i'(\mathbf{x}^k)-1-\log(x_i^k))x_i+\sum_{i=1}^nx_i\log x_i\right\}, xk+1=argx∈Δnmin{i=1∑n(tkfi′(xk)−1−log(xik))xi+i=1∑nxilogxi},其中 f i ′ ( x k ) f_i'(\mathbf{x}^k) fi′(xk)是 f ′ ( x k ) f'(\mathbf{x}^k) f′(xk)的第 i i i个分量. 根据第三章例26, 上述子问题的最优解为 x i k + 1 = e log ( x i k ) + 1 − t k f i ′ ( x k ) ∑ j = 1 n e log ( x j k ) + 1 − t k f j ′ ( x k ) , i = 1 , 2 , … , n , x_i^{k+1}=\frac{e^{\log(x_i^k)+1-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^ne^{\log(x_j^k)+1-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n, xik+1=∑j=1nelog(xjk)+1−tkfj′(xk)elog(xik)+1−tkfi′(xk),i=1,2,…,n,进一步简化可得 x i k + 1 = x i k e − t k f i ′ ( x k ) ∑ j = 1 n x j k e − t k f j ′ ( x k ) , i = 1 , 2 , … , n . x_i^{k+1}=\frac{x_i^ke^{-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^nx_j^ke^{-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n. xik+1=∑j=1nxjke−tkfj′(xk)xike−tkfi′(xk),i=1,2,…,n.
现在的问题在于如何选取步长. 下一节的收敛性分析会给我们一些启示.
2. 收敛性分析
2.1 分析工具
引理3 (三点引理) 假设 ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E→(−∞,∞]为正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(∂ω)上可微. 设 a , b ∈ d o m ( ∂ ω ) , c ∈ d o m ( ω ) \mathbf{a,b}\in\mathrm{dom}(\partial\omega),\,\mathbf{c}\in\mathrm{dom}(\omega) a,b∈dom(∂ω),c∈dom(ω). 则有以下等式成立: ⟨ ∇ ω ( b ) − ∇ ω ( a ) , c − a ⟩ = B ω ( c , a ) + B ω ( a , b ) − B ω ( c , b ) . \langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle=B_{\omega}(\mathbf{c,a})+B_{\omega}(\mathbf{a,b})-B_{\omega}(\mathbf{c,b}). ⟨∇ω(b)−∇ω(a),c−a⟩=Bω(c,a)+Bω(a,b)−Bω(c,b).
证明: 由 B ω B_{\omega} Bω的定义, B ω ( c , a ) = ω ( c ) − ω ( a ) − ⟨ ∇ ω ( a ) , c − a ⟩ , B ω ( a , b ) = ω ( a ) − ω ( b ) − ⟨ ∇ ω ( b ) , a − b ⟩ , B ω ( c , b ) = ω ( c ) − ω ( b ) − ⟨ ∇ ω ( b ) , c − b ⟩ . \begin{aligned}B_{\omega}(\mathbf{c,a})&=\omega(\mathbf{c})-\omega(\mathbf{a})-\langle\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle,\\B_{\omega}(\mathbf{a,b})&=\omega(\mathbf{a})-\omega(\mathbf{b})-\langle\nabla\omega(\mathbf{b}),\mathbf{a-b}\rangle,\\B_{\omega}(\mathbf{c,b})&=\omega(\mathbf{c})-\omega(\mathbf{b})-\langle\nabla\omega(\mathbf{b}),\mathbf{c-b}\rangle.\end{aligned} Bω(c,a)Bω(a,b)Bω(c,b)=ω(c)−ω(a)−⟨∇ω(a),c−a⟩,=ω(a)−ω(b)−⟨∇ω(b),a−b⟩,=ω(c)−ω(b)−⟨∇ω(b),c−b⟩.因此 B ω ( c , a ) + B ω ( a , b ) − B ω ( c , b ) = − ⟨ ∇ ω ( a ) , c − a ⟩ − ⟨ ∇ ω ( b ) , a − b ⟩ + ⟨ ∇ ω ( b ) , c − b ⟩ = ⟨ ∇ ω ( b ) − ∇ ω ( a ) , c − a ⟩ . \begin{aligned}B_{\omega}(\mathbf{c,a})+B_{\omega}(\mathbf{a,b})-B_{\omega}(\mathbf{c,b})&=-\langle\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle-\langle\nabla\omega(\mathbf{b}),\mathbf{a-b}\rangle+\langle\nabla\omega(\mathbf{b}),\mathbf{c-b}\rangle\\&=\langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{c-a}\rangle.\end{aligned} Bω(c,a)+Bω(a,b)−Bω(c,b)=−⟨∇ω(a),c−a⟩−⟨∇ω(b),a−b⟩+⟨∇ω(b),c−b⟩=⟨∇ω(b)−∇ω(a),c−a⟩.
下面的定理2是非欧情形下的第二临近定理.
定理2 (非欧第二临近定理) 设
- ω : E → ( − ∞ , ∞ ] \omega:\mathbb{E}\to(-\infty,\infty] ω:E→(−∞,∞]为一正常闭凸函数, 且在 d o m ( ∂ ω ) \mathrm{dom}(\partial\omega) dom(∂ω)上可微;
- ψ : E → ( − ∞ , ∞ ] \psi:\mathbb{E}\to(-\infty,\infty] ψ:E→(−∞,∞]为一正常闭凸函数, 满足 d o m ( ψ ) ⊂ d o m ( ω ) \mathrm{dom}(\psi)\subset\mathrm{dom}(\omega) dom(ψ)⊂dom(ω);
- ω + δ d o m ( ψ ) \omega+\delta_{\mathrm{dom}(\psi)} ω+δdom(ψ)为 σ \sigma σ-强凸函数( σ > 0 \sigma>0 σ>0);
设 b ∈ d o m ( ∂ ω ) \mathbf{b}\in\mathrm{dom}(\partial\omega) b∈dom(∂ω), a \mathbf{a} a定义为 a = arg min x ∈ E { ψ ( x ) + B ω ( x , b ) } . \mathbf{a}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})+B_{\omega}(\mathbf{x,b})\}. a=argx∈Emin{ψ(x)+Bω(x,b)}.则 a ∈ d o m ( ∂ ω ) \mathbf{a}\in\mathrm{dom}(\partial\omega) a∈dom(∂ω), 且对 ∀ u ∈ d o m ( ψ ) \forall\mathbf{u}\in\mathrm{dom}(\psi) ∀u∈dom(ψ), ⟨ ∇ ω ( b ) − ∇ ω ( a ) , u − a ⟩ ≤ ψ ( u ) − ψ ( a ) . \langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{u-a}\rangle\le\psi(\mathbf{u})-\psi(\mathbf{a}). ⟨∇ω(b)−∇ω(a),u−a⟩≤ψ(u)−ψ(a).
证明: 由 B ω B_{\omega} Bω的定义, a \mathbf{a} a的定义可以写作2 a = arg min x ∈ E { ψ ( x ) − ⟨ ∇ ω ( b ) , x ⟩ + ω ( x ) } . \mathbf{a}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{\psi(\mathbf{x})-\langle\nabla\omega(\mathbf{b}),\mathbf{x}\rangle+\omega(\mathbf{x})\}. a=argx∈Emin{ψ(x)−⟨∇ω(b),x⟩+ω(x)}.在引理2中将 ψ ( x ) \psi(\mathbf{x}) ψ(x)取成 ψ ( x ) − ⟨ ω ( b ) , x ⟩ \psi(\mathbf{x})-\langle\omega(\mathbf{b}),\mathbf{x}\rangle ψ(x)−⟨ω(b),x⟩即可证明 a ∈ d o m ( ∂ ω ) \mathbf{a}\in\mathrm{dom}(\partial\omega) a∈dom(∂ω). 再由Fermat最优性条件, 存在 ψ ′ ( a ) ∈ ∂ ψ ( a ) \psi'(\mathbf{a})\in\partial\psi(\mathbf{a}) ψ′(a)∈∂ψ(a), 使得 ψ ′ ( a ) + ∇ ω ( a ) − ∇ ω ( b ) = 0. \psi'(\mathbf{a})+\nabla\omega(\mathbf{a})-\nabla\omega(\mathbf{b})=\mathbf{0}. ψ′(a)+∇ω(a)−∇ω(b)=0.于是由次梯度不等式, 对 ∀ u ∈ d o m ( ψ ) \forall\mathbf{u}\in\mathrm{dom}(\psi) ∀u∈dom(ψ), ⟨ ∇ ω ( b ) − ∇ ω ( a ) , u − a ⟩ = ⟨ ψ ′ ( a ) , u − a ⟩ ≤ ψ ( u ) − ψ ( a ) . \langle\nabla\omega(\mathbf{b})-\nabla\omega(\mathbf{a}),\mathbf{u-a}\rangle=\langle\psi'(\mathbf{a}),\mathbf{u-a}\rangle\le\psi(\mathbf{u})-\psi(\mathbf{a}). ⟨∇ω(b)−∇ω(a),u−a⟩=⟨ψ′(a),u−a⟩≤ψ(u)−ψ(a).
利用非欧第二临近定理与三点引理, 我们可以证明类似于第八章Proj-SGM基本不等式的结论.
引理4 (MDM基本不等式3) 假定假设条件1、2成立. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由带正步长 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k≥0的MDM生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ , k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 ∀x∗∈X∗,k≥0, t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x k ) − B ω ( x ∗ , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 . t_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^k)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2. tk(f(xk)−fopt)≤Bω(x∗,xk)−Bω(x∗,xk+1)+2σtk2∥f′(xk)∥∗2.
证明: 由MDM更新公式、非欧第二临近定理(令其中 b = x k , ψ ( x ) ≡ t k ( f ′ ( x k ) , x ⟩ + δ C ( x ) \mathbf{b}=\mathbf{x}^k,\,\psi(\mathbf{x})\equiv t_k(f'(\mathbf{x}^k),\mathbf{x}\rangle+\delta_C(\mathbf{x}) b=xk,ψ(x)≡tk(f′(xk),x⟩+δC(x), 从而 a = x k + 1 \mathbf{a}=\mathbf{x}^{k+1} a=xk+1), 就有对 ∀ u ∈ C \forall\mathbf{u}\in C ∀u∈C, ⟨ ∇ ω ( x k ) − ∇ ω ( x k + 1 ) , u − x k + 1 ⟩ ≤ t k ⟨ f ′ ( x k ) , u − x k + 1 ⟩ . \langle\nabla\omega(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^{k+1}),\mathbf{u}-\mathbf{x}^{k+1}\rangle\le t_k\langle f'(\mathbf{x}^k),\mathbf{u}-\mathbf{x}^{k+1}\rangle. ⟨∇ω(xk)−∇ω(xk+1),u−xk+1⟩≤tk⟨f′(xk),u−xk+1⟩.由三点引理(令其中 a = x k + 1 , b = x k , c = u \mathbf{a}=\mathbf{x}^{k+1},\,\mathbf{b}=\mathbf{x}^k,\,\mathbf{c=u} a=xk+1,b=xk,c=u), ⟨ ∇ ω ( x k ) − ∇ ω ( x k + 1 ) , u − x k + 1 ⟩ = B ω ( u , x k + 1 ) + B ω ( x k + 1 , x k ) − B ω ( u , x k ) , \langle\nabla\omega(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^{k+1}),\mathbf{u}-\mathbf{x}^{k+1}\rangle=B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})+B_{\omega}(\mathbf{x}^{k+1},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^k), ⟨∇ω(xk)−∇ω(xk+1),u−xk+1⟩=Bω(u,xk+1)+Bω(xk+1,xk)−Bω(u,xk),合起来就有 B ω ( u , x k + 1 ) + B ω ( x k + 1 , x k ) − B ω ( u , x k ) ≤ t k ⟨ f ′ ( x k ) , u − x k + 1 ⟩ . B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})+B_{\omega}(\mathbf{x}^{k+1},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^k)\le t_k\langle f'(\mathbf{x}^k),\mathbf{u}-\mathbf{x}^{k+1}\rangle. Bω(u,xk+1)+Bω(xk+1,xk)−Bω(u,xk)≤tk⟨f′(xk),u−xk+1⟩.因此, t k ⟨ f ′ ( x k ) , x k − u ⟩ ≤ B ω ( u , x k ) − B ω ( u , x k + 1 ) − B ω ( x k + 1 , x k ) + t k ⟨ f ′ ( x k ) , x k − x k + 1 ⟩ ≤ B ω ( u , x k ) − B ω ( u , x k + 1 ) − σ 2 ∥ x k + 1 − x k ∥ 2 ( 引 理 1 (i) ) = B ω ( u , x k ) − B ω ( u , x k + 1 ) − σ 2 ∥ x k + 1 − x k ∥ 2 + ⟨ t k σ f ′ ( x k ) , σ ( x k − x k + 1 ) ⟩ ≤ ( ∗ ) B ω ( u , x k ) − B ω ( u , x k + 1 ) − σ 2 ∥ x k + 1 − x k ∥ 2 + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 + σ 2 ∥ x k + 1 − x k ∥ 2 = B ω ( u , x k ) − B ω ( u , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 , \begin{aligned}&t_k\langle f'(\mathbf{x}^k),\mathbf{x}^k-\mathbf{u}\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-B_{\omega}(\mathbf{x}^{k+1},\mathbf{x}^k)+t_k\langle f'(\mathbf{x}^k),\mathbf{x}^k-\mathbf{x}^{k+1}\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2\,(引理1\text{(i)})\\&=B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2+\left\langle\frac{t_k}{\sqrt{\sigma}}f'(\mathbf{x}^k),\sqrt{\sigma}(\mathbf{x}^k-\mathbf{x}^{k+1})\right\rangle\\&\overset{(*)}{\le} B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2+\frac{\sigma}{2}\Vert\mathbf{x}^{k+1}-\mathbf{x}^k\Vert^2\\&=B_{\omega}(\mathbf{u},\mathbf{x}^k)-B_{\omega}(\mathbf{u},\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert^2_*,\end{aligned} tk⟨f′(xk),xk−u⟩≤Bω(u,xk)−Bω(u,xk+1)−Bω(xk+1,xk)+tk⟨f′(xk),xk−xk+1⟩≤Bω(u,xk)−Bω(u,xk+1)−2σ∥xk+1−xk∥2(引理1(i))=Bω(u,xk)−Bω(u,xk+1)−2σ∥xk+1−xk∥2+⟨σtkf′(xk),σ(xk−xk+1)⟩≤(∗)Bω(u,xk)−Bω(u,xk+1)−2σ∥xk+1−xk∥2+2σtk2∥f′(xk)∥∗2+2σ∥xk+1−xk∥2=Bω(u,xk)−Bω(u,xk+1)+2σtk2∥f′(xk)∥∗2,其中 ( ∗ ) (*) (∗)式使用了Fenchel不等式(第四章定理3)在 1 2 ∥ x ∥ 2 \frac{1}{2}\Vert\mathbf{x}\Vert^2 21∥x∥2上的应用(第四章4.15节). 代入 u = x ∗ \mathbf{u}=\mathbf{x}^* u=x∗并利用次梯度不等式, 就得到 t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x k ) − B ω ( x ∗ , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 . t_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^k)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2. tk(f(xk)−fopt)≤Bω(x∗,xk)−Bω(x∗,xk+1)+2σtk2∥f′(xk)∥∗2.
完全类似于第八章定理6的证明, 我们可以推出MDM最优函数值序列 { f b e s t k } k ≥ 0 \{f_{\mathrm{best}}^k\}_{k\ge0} {fbestk}k≥0与 f o p t f_{\mathrm{opt}} fopt距离的上界, 进而启发我们对步长序列的选取.
引理5 假定假设条件1、2成立, 且存在 L f > 0 L_f>0 Lf>0, 使得 ∥ f ′ ( x ) ∥ ∗ ≤ L f , ∀ x ∈ C \Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in C ∥f′(x)∥∗≤Lf,∀x∈C. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由带正步长 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k≥0的MDM生成的迭代序列. 则对 ∀ N ≥ 0 \forall N\ge0 ∀N≥0, f b e s t N − f o p t ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestN−fopt≤∑k=0NtkBω(x∗,x0)+2σLf2∑k=0Ntk2.
证明: 取 x ∗ ∈ X ∗ \mathbf{x}^*\in X^* x∗∈X∗. 由MDM基本不等式, 对 ∀ k ≥ 0 \forall k\ge0 ∀k≥0, t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x k ) − B ω ( x ∗ , x k + 1 ) + t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 . t_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^k)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2. tk(f(xk)−fopt)≤Bω(x∗,xk)−Bω(x∗,xk+1)+2σtk2∥f′(xk)∥∗2.对指标 k = 0 , 1 , 2 … , N k=0,1,2\ldots, N k=0,1,2…,N求和上述不等式可得 ∑ k = 0 N t k ( f ( x k ) − f o p t ) ≤ B ω ( x ∗ , x 0 ) − B ω ( x ∗ , x k + 1 ) + ∑ k = 0 N t k 2 2 σ ∥ f ′ ( x k ) ∥ ∗ 2 ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ( 引 理 1 ( ii ) ) . \begin{aligned}\sum_{k=0}^Nt_k(f(\mathbf{x}^k)-f_{\mathrm{opt}})&\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\sum_{k=0}^N\frac{t_k^2}{2\sigma}\Vert f'(\mathbf{x}^k)\Vert_*^2\\&\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2\,(引理1(\text{ii})).\end{aligned} k=0∑Ntk(f(xk)−fopt)≤Bω(x∗,x0)−Bω(x∗,xk+1)+k=0∑N2σtk2∥f′(xk)∥∗2≤Bω(x∗,x0)+2σLf2k=0∑Ntk2(引理1(ii)).又因为 ( ∑ k = 0 N t k ) ( f b e s t N − f o p t ) ≤ ∑ k = 0 N t k ( f ( x k ) − f o p t ) , \left(\sum_{k=0}^Nt_k\right)(f_{\mathrm{best}}^N-f_{\mathrm{opt}})\le\sum_{k=0}^Nt_k(f(\mathbf{x}^k)-f_{\mathrm{opt}}), (k=0∑Ntk)(fbestN−fopt)≤k=0∑Ntk(f(xk)−fopt),所以 f b e s t N − f o p t ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestN−fopt≤∑k=0NtkBω(x∗,x0)+2σLf2∑k=0Ntk2.
若 B ω ( x , x 0 ) B_{\omega}(\mathbf{x},\mathbf{x}^0) Bω(x,x0)还在 C C C上有界, 即存在 Θ ( x 0 ) \Theta(\mathbf{x}^0) Θ(x0)满足 Θ ( x 0 ) ≥ max x ∈ C B ω ( x , x 0 ) . \Theta(\mathbf{x}^0)\ge\max_{\mathbf{x}\in C}B_{\omega}(\mathbf{x},\mathbf{x}^0). Θ(x0)≥x∈CmaxBω(x,x0).代入引理5即有 f b e s t N − f o p t ≤ Θ ( x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{\Theta(\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestN−fopt≤∑k=0NtkΘ(x0)+2σLf2∑k=0Ntk2.总之, 我们再次发现了 ∑ k = 0 N t k 2 ∑ k = 0 N t k \frac{\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k} ∑k=0Ntk∑k=0Ntk2. 这提示我们可以选取类似于第八章变步长Proj-SGM中讨论的步长准则. 但在此之前, 我们先讨论固定迭代数目的步长选取准则.
2.2 固定迭代数目的步长选取准则
我们现在固定迭代数为 N N N, 推导“最优”的步长选取准则. 这里的最优指的是能够极小化引理5的右端项. 为此, 我们先证明以下引理6和7.
引理6 设 A ∈ R m × n , b ∈ R m , c ∈ R n , d ∈ R \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\mathbf{c}\in\mathbb{R}^n,\,d\in\mathbb{R} A∈Rm×n,b∈Rm,c∈Rn,d∈R, 其中 c ≠ 0 \mathbf{c\ne0} c=0. 则函数 g ( x ) = ∥ A x + b ∥ 2 c T x + d g(\mathbf{x})=\frac{\Vert\mathbf{Ax+b}\Vert^2}{\mathbf{c}^T\mathbf{x}+d} g(x)=cTx+d∥Ax+b∥2在 D = { x ∈ R n : c T x + d > 0 } D=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{c}^T\mathbf{x}+d>0\} D={x∈Rn:cTx+d>0}上是凸函数.
证明: 由仿射变换的保凸性, 我们只需证明函数 h ( y , t ) = ∥ y ∥ 2 t h(\mathbf{y},t)=\frac{\Vert\mathbf{y}\Vert^2}{t} h(y,t)=t∥y∥2在凸集 C ≡ { ( y t ) ∈ R m + 1 : y ∈ R m , t > 0 } C\equiv\left\{\begin{pmatrix}\mathbf{y}\\t\end{pmatrix}\in\mathbb{R}^{m+1}:\mathbf{y}\in\mathbb{R}^m,\,t>0\right\} C≡{(yt)∈Rm+1:y∈Rm,t>0}上是凸函数. 而 h h h可以进一步写成 h = ∑ i = 1 m h i h=\sum_{i=1}^mh_i h=∑i=1mhi, 其中 h i ( y , t ) = y i 2 t . h_i(\mathbf{y},t)=\frac{y_i^2}{t}. hi(y,t)=tyi2.直接计算可得 ∇ 2 h i ( y i , t ) = 2 ( 1 t − y i t 2 − y i t 2 y i 2 t 3 ) . \nabla^2h_i(y_i,t)=2\begin{pmatrix}\frac{1}{t} & -\frac{y_i}{t^2}\\-\frac{y_i}{t^2} & \frac{y_i^2}{t^3}\end{pmatrix}. ∇2hi(yi,t)=2(t1−t2yi−t2yit3yi2).由于 T r [ ∇ 2 h i ( y i , t ) ] = 2 [ 1 t + y i 2 t 3 ] > 0 , det [ ∇ 2 h i ( y i , t ) ] = 4 [ 1 t ⋅ y i 2 t 3 − ( y i t 2 ) 2 ] = 0 , \begin{aligned}\mathrm{Tr}[\nabla^2h_i(y_i,t)]&=2\left[\frac{1}{t}+\frac{y_i^2}{t^3}\right]>0,\\\det[\nabla^2h_i(y_i,t)]&=4\left[\frac{1}{t}\cdot\frac{y_i^2}{t^3}-\left(\frac{y_i}{t^2}\right)^2\right]=0,\end{aligned} Tr[∇2hi(yi,t)]det[∇2hi(yi,t)]=2[t1+t3yi2]>0,=4[t1⋅t3yi2−(t2yi)2]=0,所以 ∇ 2 h i \nabla^2h_i ∇2hi是半正定矩阵, h i h_i hi是凸函数, 从而 h h h是凸函数.
引理7 设 α , β > 0 \alpha,\beta>0 α,β>0, 问题 min t 1 , … , t m > 0 α + β ∑ k = 1 m t k 2 ∑ k = 1 m t k \min_{t_1,\ldots,t_m>0}\frac{\alpha+\beta\sum_{k=1}^mt_k^2}{\sum_{k=1}^mt_k} t1,…,tm>0min∑k=1mtkα+β∑k=1mtk2的一个最优解为 t k = α β m , k = 1 , 2 , … , m t_k=\sqrt{\frac{\alpha}{\beta m}},\,k=1,2,\ldots,m tk=βmα,k=1,2,…,m. 最优值为 2 α β m 2\sqrt{\frac{\alpha\beta}{m}} 2mαβ.
证明: 记目标函数为 ϕ ( t ) ≡ α + β ∑ k = 1 m t k 2 ∑ k = 1 m t k . \phi(\mathbf{t})\equiv\frac{\alpha+\beta\sum_{k=1}^mt_k^2}{\sum_{k=1}^mt_k}. ϕ(t)≡∑k=1mtkα+β∑k=1mtk2.注意到 ϕ \phi ϕ是个排列对称函数, 即 ϕ ( t ) = ϕ ( P t ) , ∀ P ∈ Λ m \phi(\mathbf{t})=\phi(\mathbf{Pt}),\,\forall\mathbf{P}\in\Lambda_m ϕ(t)=ϕ(Pt),∀P∈Λm. 由此我们断言, 若此问题有一最优解, 则它必有一分量全相同的最优解. 为此, 任取一最优解 t ∗ \mathbf{t}^* t∗以及排列矩阵 P ∈ Λ m \mathbf{P}\in\Lambda_m P∈Λm. 由于 ϕ ( P t ∗ ) = ϕ ( t ∗ ) \phi(\mathbf{Pt}^*)=\phi(\mathbf{t}^*) ϕ(Pt∗)=ϕ(t∗), 所以 P t ∗ \mathbf{Pt}^* Pt∗也是最优解. 由引理6, ϕ \phi ϕ是正象限上的凸函数, 所以 1 m ! ∑ P ∈ Λ m P t ∗ = 1 m ( e T t ⋮ e T t ) \frac{1}{m!}\sum_{\mathbf{P}\in\Lambda_m}\mathbf{Pt}^*=\frac{1}{m}\begin{pmatrix}\mathbf{e}^T\mathbf{t}\\\vdots\\\mathbf{e}^T\mathbf{t}\end{pmatrix} m!1P∈Λm∑Pt∗=m1⎝⎜⎛eTt⋮eTt⎠⎟⎞也是最优解. 这就说明存在分量全相同的最优解. 因此令 t 1 = t 2 = ⋯ = t m = t t_1=t_2=\cdots=t_m=t t1=t2=⋯=tm=t即可得到简化的问题 min t > 0 α + β m t 2 m t , \min_{t>0}\frac{\alpha+\beta mt^2}{mt}, t>0minmtα+βmt2,其最优解易知为 t = α β m t=\sqrt{\frac{\alpha}{\beta m}} t=βmα, 所以原问题的一个最优解为 t k = α β m , k = 1 , 2 , … , m t_k=\sqrt{\frac{\alpha}{\beta m}},\,k=1,2,\ldots,m tk=βmα,k=1,2,…,m. 将此代入 ϕ \phi ϕ中, 就有最优值 2 α β m 2\sqrt{\frac{\alpha\beta}{m}} 2mαβ.
在引理7中取 α = Θ ( x 0 ) , β = L f 2 2 σ , m = N + 1 \alpha=\Theta(\mathbf{x}^0),\,\beta=\frac{L_f^2}{2\sigma},\,m=N+1 α=Θ(x0),β=2σLf2,m=N+1, 于是引理5右端项的一个极小点为 t k = 2 Θ ( x 0 ) σ L f N + 1 t_k=\frac{\sqrt{2\Theta(\mathbf{x}^0)\sigma}}{L_f\sqrt{N+1}} tk=LfN+12Θ(x0)σ.
定理3 (固定迭代数MDM的 O ( 1 / N ) O(1/\sqrt{N}) O(1/N)收敛速度) 假定假设条件1、2成立, 且存在 L f > 0 L_f>0 Lf>0, 使得 ∥ f ′ ( x ) ∥ ∗ ≤ L f , ∀ x ∈ C \Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in C ∥f′(x)∥∗≤Lf,∀x∈C. 设 B ω ( x , x 0 ) B_{\omega}(\mathbf{x},\mathbf{x}^0) Bω(x,x0)在 C C C上有界: 存在 Θ ( x 0 ) \Theta(\mathbf{x}^0) Θ(x0)满足 Θ ( x 0 ) ≥ max x ∈ C B ω ( x , x 0 ) . \Theta(\mathbf{x}^0)\ge\max_{\mathbf{x}\in C}B_{\omega}(\mathbf{x},\mathbf{x}^0). Θ(x0)≥x∈CmaxBω(x,x0).设 N N N为正整数, { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由步长准则为 t k = 2 Θ ( x 0 ) σ L f N + 1 , k = 0 , 1 , … , N t_k=\frac{\sqrt{2\Theta(\mathbf{x}^0)\sigma}}{L_f\sqrt{N+1}},\quad k=0,1,\ldots,N tk=LfN+12Θ(x0)σ,k=0,1,…,N的MDM生成的迭代序列. 则 f b e s t N − f o p t ≤ 2 Θ ( x 0 ) L f σ N + 1 . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{\sqrt{2\Theta(\mathbf{x}^0)}L_f}{\sqrt{\sigma}\sqrt{N+1}}. fbestN−fopt≤σN+12Θ(x0)Lf.
证明: 由引理5, f b e s t N − f o p t ≤ Θ ( x 0 ) + L f 2 2 σ ∑ k = 0 N t k 2 ∑ k = 0 N t k . f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\frac{\Theta(\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{k=0}^Nt_k^2}{\sum_{k=0}^Nt_k}. fbestN−fopt≤∑k=0NtkΘ(x0)+2σLf2∑k=0Ntk2.将 t k t_k tk代入即得证.
例1 (单位单纯形上的优化问题) 考虑问题 min { f ( x ) : x ∈ Δ n } , \min\{f(\mathbf{x}):\mathbf{x}\in\Delta_n\}, min{f(x):x∈Δn},其中 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn→(−∞,∞]为正常闭凸函数, 且 Δ n ⊂ i n t ( d o m ( f ) ) \Delta_n\subset\mathrm{int}(\mathrm{dom}(f)) Δn⊂int(dom(f)). 考虑以下两种算法:
- 欧式空间情形: 我们假设 R n \mathbb{R}^n Rn上的范数为 ℓ 2 \ell_2 ℓ2-范数, ω ( x ) = 1 2 ∥ x ∥ 2 2 \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert_2^2 ω(x)=21∥x∥22. 显然 ω \omega ω在 ℓ 2 \ell_2 ℓ2-范数下是 1 1 1-强凸的. 此时MDM就是Proj-SGM: x k + 1 = P Δ n ( x k − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=P_{\Delta_n}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)). xk+1=PΔn(xk−tkf′(xk)).假设算法从 x 0 = 1 n e \mathbf{x}^0=\frac{1}{n}\mathbf{e} x0=n1e开始迭代. 此时 max x ∈ Δ n B ω ( x , x 0 ) = max x ∈ Δ n 1 2 ∥ x − 1 n e ∥ 2 2 = 1 2 ( 1 − 1 n ) , \max_{\mathbf{x}\in\Delta_n}B_{\omega}(\mathbf{x},\mathbf{x}^0)=\max_{\mathbf{x}\in\Delta_n}\frac{1}{2}\left\Vert\mathbf{x}-\frac{1}{n}\mathbf{e}\right\Vert^2_2=\frac{1}{2}\left(1-\frac{1}{n}\right), x∈ΔnmaxBω(x,x0)=x∈Δnmax21∥∥∥∥x−n1e∥∥∥∥22=21(1−n1),所以我们可以取 Θ ( x 0 ) = 1 \Theta(\mathbf{x}^0)=1 Θ(x0)=1. 由定理3, 给定正整数 N N N, 恰当选取步长, 有 f b e s t N − f o p t ≤ 2 L f , 2 N + 1 ⏟ C e f , f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\underbrace{\frac{\sqrt{2}L_{f,2}}{\sqrt{N+1}}}_{C_{\text{e}}^f}, fbestN−fopt≤Cef N+12Lf,2,其中 L f , 2 = max x ∈ Δ n ∥ f ′ ( x ) ∥ 2 L_{f,2}=\max_{\mathbf{x}\in\Delta_n}\Vert f'(\mathbf{x})\Vert_2 Lf,2=maxx∈Δn∥f′(x)∥2.
- 非欧式空间情形: 假设 R n \mathbb{R}^n Rn上的范数是 ℓ 1 \ell_1 ℓ1-范数, ω \omega ω选取为负熵函数 ω ( x ) = { ∑ i = 1 n x i log ( x i ) , x ∈ R + n , ∞ , 其 它 . \omega(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log(x_i), & \mathbf{x}\in\mathbb{R}_{+}^n,\\\infty, & 其它.\end{array}\right. ω(x)={∑i=1nxilog(xi),∞,x∈R+n,其它.由例2, ω + δ Δ n \omega+\delta_{\Delta_n} ω+δΔn在 ℓ 1 \ell_1 ℓ1-范数下是 1 1 1-强凸函数. 进而MDM更新格式为 x i k + 1 = x i k e − t k f i ′ ( x k ) ∑ j = 1 n x j k e − t k f j ′ ( x k ) , i = 1 , 2 , … , n . x_i^{k+1}=\frac{x_i^ke^{-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^nx_j^ke^{-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n. xik+1=∑j=1nxjke−tkfj′(xk)xike−tkfi′(xk),i=1,2,…,n.同样从 x 0 = 1 n e \mathbf{x}^0=\frac{1}{n}\mathbf{e} x0=n1e出发. 此时的Bregman距离恰好是KL散度, 于是 max x ∈ Δ n B ω ( x , 1 n e ) = max x ∈ Δ n ∑ i = 1 n x i log ( n x i ) = log ( n ) + max x ∈ Δ n ∑ i = 1 n x i log x i = log ( n ) . \begin{aligned}\max_{\mathbf{x}\in\Delta_n}B_{\omega}\left(\mathbf{x},\frac{1}{n}\mathbf{e}\right)&=\max_{\mathbf{x}\in\Delta_n}\sum_{i=1}^nx_i\log(nx_i)=\log(n)+\max_{\mathbf{x}\in\Delta_n}\sum_{i=1}^nx_i\log x_i\\&=\log(n).\end{aligned} x∈ΔnmaxBω(x,n1e)=x∈Δnmaxi=1∑nxilog(nxi)=log(n)+x∈Δnmaxi=1∑nxilogxi=log(n).于是可取 Θ ( x 0 ) = log ( n ) \Theta(\mathbf{x}^0)=\log(n) Θ(x0)=log(n). 由定理3, 恰当选取步长, 有 f b e s t N − f o p t ≤ 2 log ( n ) L f , ∞ N + 1 ⏟ C ne f , f_{\mathrm{best}}^N-f_{\mathrm{opt}}\le\underbrace{\frac{\sqrt{2\log(n)}L_{f,\infty}}{\sqrt{N+1}}}_{C_{\text{ne}}^f}, fbestN−fopt≤Cnef N+12log(n)Lf,∞,其中 L f , ∞ = max x ∈ Δ n ∥ f ′ ( x ) ∥ ∞ L_{f,\infty}=\max_{\mathbf{x}\in\Delta_n}\Vert f'(\mathbf{x})\Vert_{\infty} Lf,∞=maxx∈Δn∥f′(x)∥∞.
上界 C e f , C ne f C_{\text{e}}^f,C_{\text{ne}}^f Cef,Cnef的比值记为 ρ f = C ne f C e f = log ( n ) L f , ∞ L f , 2 . \rho^f=\frac{C_{\text{ne}}^f}{C_{\text{e}}^f}=\sqrt{\log(n)}\frac{L_{f,\infty}}{L_{f,2}}. ρf=CefCnef=log(n)Lf,2Lf,∞. ρ f \rho^f ρf是大于1(意味着欧式情形的算法更好)还是小于1(意味着非欧式情形的算法更好)取决于 f f f的性质. 事实上, 对 ∀ y ∈ R n \forall\mathbf{y}\in\mathbb{R}^n ∀y∈Rn, 恒有 ∥ y ∥ ∞ ≤ ∥ y ∥ 2 ≤ n ∥ y ∥ ∞ \Vert\mathbf{y}\Vert_{\infty}\le\Vert\mathbf{y}\Vert_2\le\sqrt{n}\Vert\mathbf{y}\Vert_{\infty} ∥y∥∞≤∥y∥2≤n∥y∥∞. 因此 1 n ≤ L f , ∞ L f , 2 ≤ 1 , \frac{1}{\sqrt{n}}\le\frac{L_{f,\infty}}{L_{f,2}}\le1, n1≤Lf,2Lf,∞≤1,从而 log ( n ) n ≤ ρ f ≤ log ( n ) . \frac{\sqrt{\log(n)}}{\sqrt{n}}\le\rho^f\le\sqrt{\log(n)}. nlog(n)≤ρf≤log(n).
2.3 变步长准则
2.2节讨论了固定迭代数时, 步长的一种“最优”选取方案. 其中使用步长也是固定的. 但在实际应用中, 我们往往不会去固定算法迭代的步数, 而是使用其它不同的停机准则. 这就是为什么变步长准则这么重要了. 类似于第八章中对Proj-SGM的论述, 我们也可以用MDM基本不等式建立变步长准则下MDM的收敛性质.
定理4 (变步长MDM的收敛性质) 假定假设条件1、2成立, 且存在
L
f
>
0
L_f>0
Lf>0, 使得
∥
f
′
(
x
)
∥
∗
≤
L
f
,
∀
x
∈
C
\Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in C
∥f′(x)∥∗≤Lf,∀x∈C. 设
{
x
k
}
k
≥
0
\{\mathbf{x}^k\}_{k\ge0}
{xk}k≥0为由带正步长
{
t
k
}
k
≥
0
\{t_k\}_{k\ge0}
{tk}k≥0的MDM生成的迭代序列,
{
f
b
e
s
t
k
}
k
≥
0
\{f_{\mathrm{best}}^k\}_{k\ge0}
{fbestk}k≥0为最优函数值序列.
(i) 若
∑
n
=
0
k
t
n
2
∑
n
=
0
k
t
n
→
0
\frac{\sum_{n=0}^kt_n^2}{\sum_{n=0}^kt_n}\to0
∑n=0ktn∑n=0ktn2→0, 则
f
b
e
s
t
k
→
f
o
p
t
f_{\mathrm{best}}^k\to f_{\mathrm{opt}}
fbestk→fopt;
(ii) 若
t
k
t_k
tk选取为
- 预设递减步长(predefined diminishing stepsize): t k = 2 σ L f k + 1 t_k=\frac{\sqrt{2\sigma}}{L_f\sqrt{k+1}} tk=Lfk+12σ; 或
- 自适应步长(adaptive stepsize): t k = { 2 σ ∥ f ′ ( x k ) ∥ ∗ k + 1 , f ′ ( x k ) ≠ 0 , 2 σ L f k + 1 , f ′ ( x k ) = 0 , t_k=\left\{\begin{array}{ll}\frac{\sqrt{2\sigma}}{\Vert f'(\mathbf{x}^k)\Vert_*\sqrt{k+1}}, & f'(\mathbf{x}^k)\ne\mathbf{0},\\\frac{\sqrt{2\sigma}}{L_f\sqrt{k+1}}, & f'(\mathbf{x}^k)=\mathbf{0},\end{array}\right. tk={∥f′(xk)∥∗k+12σ,Lfk+12σ,f′(xk)=0,f′(xk)=0,
则对 ∀ k ≥ 1 \forall k\ge1 ∀k≥1, f b e s t k − f o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + 1 + log ( k + 1 ) k + 1 . f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+1+\log(k+1)}{\sqrt{k+1}}. fbestk−fopt≤2σLfk+1Bω(x∗,x0)+1+log(k+1).
证明: 由MDM基本不等式, 对 ∀ n ≥ 0 \forall n\ge0 ∀n≥0, t n ( f ( x n ) − f o p t ) ≤ B ω ( x ∗ , x n ) − B ω ( x ∗ , x n + 1 ) + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 . t_n(f(\mathbf{x}^n)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1})+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2. tn(f(xn)−fopt)≤Bω(x∗,xn)−Bω(x∗,xn+1)+2σtn2∥f′(xn)∥∗2.对指标 n = 0 , 1 , … , k n=0,1,\ldots,k n=0,1,…,k求和以上不等式可得 ∑ n = 0 k t n ( f ( x n ) − f o p t ) ≤ B ω ( x ∗ , x 0 ) − B ω ( x ∗ , x k + 1 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \sum_{n=0}^kt_n(f(\mathbf{x}^n)-f_{\mathrm{opt}})\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2. n=0∑ktn(f(xn)−fopt)≤Bω(x∗,x0)−Bω(x∗,xk+1)+2σ1n=0∑ktn2∥f′(xn)∥∗2.由于 B ω ( x ∗ , x k + 1 ) ≥ 0 , f ( x n ) ≥ f b e s t k ( n ≤ k ) B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})\ge0,\,f(\mathbf{x}^n)\ge f_{\mathrm{best}}^k(n\le k) Bω(x∗,xk+1)≥0,f(xn)≥fbestk(n≤k), 我们有 f b e s t k − f o p t ≤ B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ∑ n = 0 k t n . f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2}{\sum_{n=0}^kt_n}. fbestk−fopt≤∑n=0ktnBω(x∗,x0)+2σ1∑n=0ktn2∥f′(xn)∥∗2.由于 ∥ f ′ ( x n ) ∥ ∗ ≤ L f \Vert f'(\mathbf{x}^n)\Vert_*\le L_f ∥f′(xn)∥∗≤Lf, 所以 f b e s t k − f o p t ≤ B ω ( x ∗ , x 0 ) + L f 2 2 σ ∑ n = 0 k t n 2 ∑ n = 0 k t n . f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{n=0}^kt_n^2}{\sum_{n=0}^kt_n}. fbestk−fopt≤∑n=0ktnBω(x∗,x0)+2σLf2∑n=0ktn2.因此若 ∑ n = 0 k t n 2 ∑ n = 0 k t n → 0 \frac{\sum_{n=0}^kt_n^2}{\sum_{n=0}^kt_n}\to0 ∑n=0ktn∑n=0ktn2→0, 则 f b e s t k → f o p t f_{\mathrm{best}}^k\to f_{\mathrm{opt}} fbestk→fopt. 这就证明了(i).
下面证明(ii). 注意到两种步长准则都满足 t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ≤ 2 σ n + 1 , t n ≥ 2 σ L f n + 1 t_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2\le\frac{2\sigma}{n+1},\,t_n\ge\frac{\sqrt{2\sigma}}{L_f\sqrt{n+1}} tn2∥f′(xn)∥∗2≤n+12σ,tn≥Lfn+12σ. 所以 f b e s t k − f o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + ∑ n = 0 k 1 n + 1 ∑ n = 0 k 1 n + 1 , f_{\mathrm{best}}^k-f_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\sum_{n=0}^k\frac{1}{n+1}}{\sum_{n=0}^k\frac{1}{\sqrt{n+1}}}, fbestk−fopt≤2σLf∑n=0kn+11Bω(x∗,x0)+∑n=0kn+11,再由第八章引理9(i)即得证.
例4 (MDM vs. Proj-SGM——数值例子) 考虑问题 min { ∥ A x − b ∥ 1 : x ∈ Δ n } , \min\{\Vert\mathbf{Ax-b}\Vert_1:\mathbf{x}\in\Delta_n\}, min{∥Ax−b∥1:x∈Δn},其中 A ∈ R n × n , b ∈ R n \mathbf{A}\in\mathbb{R}^{n\times n},\,\mathbf{b}\in\mathbb{R}^n A∈Rn×n,b∈Rn. 由例1, 我们考虑两种算法.
- Proj-SGM. 假设 R n \mathbb{R}^n Rn中的范数为 ℓ 2 \ell_2 ℓ2-范数. 则更新公式为 x k + 1 = P Δ n ( x k − t k f ′ ( x k ) ) , \mathbf{x}^{k+1}=P_{\Delta_n}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)), xk+1=PΔn(xk−tkf′(xk)),其中我们取 f ′ ( x k ) = A T s g n ( A x k − b ) f'(\mathbf{x}^k)=\mathbf{A}^T\mathrm{sgn}(\mathbf{A}\mathbf{x}^k-\mathbf{b}) f′(xk)=ATsgn(Axk−b), 步长为自适应步长: t k = 2 ∥ f ′ ( x k ) ∥ 2 k + 1 . t_k=\frac{\sqrt{2}}{\Vert f'(\mathbf{x}^k)\Vert_2\sqrt{k+1}}. tk=∥f′(xk)∥2k+12.
- MDM. 假设 R n \mathbb{R}^n Rn中的范数为 ℓ 1 \ell_1 ℓ1-范数, ω \omega ω为负熵函数. 此时, 更新公式为 x i k + 1 = x i k e − t k f i ′ ( x k ) ∑ j = 1 n x j k e − t k f j ′ ( x k ) , i = 1 , 2 , … , n , x_i^{k+1}=\frac{x_i^ke^{-t_kf_i'(\mathbf{x}^k)}}{\sum_{j=1}^nx_j^ke^{-t_kf_j'(\mathbf{x}^k)}},\quad i=1,2,\ldots,n, xik+1=∑j=1nxjke−tkfj′(xk)xike−tkfi′(xk),i=1,2,…,n,其中步长取为 t k = 2 ∥ f ′ ( x k ) ∥ ∞ k + 1 . t_k=\frac{\sqrt{2}}{\Vert f'(\mathbf{x}^k)\Vert_{\infty}\sqrt{k+1}}. tk=∥f′(xk)∥∞k+12.
我们取 n = 100 n=100 n=100, 按标准正太分布独立随机生成 A , b \mathbf{A,b} A,b的分量. 下图显示了两种方法 f ( x k ) − f o p t , f b e s t k − f o p t f(\mathbf{x}^k)-f_{\mathrm{opt}},\,f_{\mathrm{best}}^k-f_{\mathrm{opt}} f(xk)−fopt,fbestk−fopt的变化.
显然此例中, MD要优于Proj-SGM.
3. 求解组合模型的镜像下降法——镜像-C算法
本节我们讨论更加一般的模型: min x ∈ E { F ( x ) ≡ f ( x ) + g ( x ) } . \min_{\mathbf{x}\in\mathbb{E}}\{F(\mathbf{x})\equiv f(\mathbf{x})+g(\mathbf{x})\}. x∈Emin{F(x)≡f(x)+g(x)}.我们对 f , g f,g f,g做如下假设:
假设条件3 (
f
,
g
f,g
f,g的性质)
(i)
f
,
g
:
E
→
(
−
∞
,
∞
]
f,g:\mathbb{E}\to(-\infty,\infty]
f,g:E→(−∞,∞]为正常闭凸函数;
(ii)
d
o
m
(
g
)
⊂
i
n
t
(
d
o
m
(
f
)
)
\mathrm{dom}(g)\subset\mathrm{int}(\mathrm{dom}(f))
dom(g)⊂int(dom(f));
(iii)
∃
L
f
>
0
:
∥
f
′
(
x
)
∥
∗
≤
L
f
,
∀
x
∈
d
o
m
(
g
)
\exists L_f>0: \Vert f'(\mathbf{x})\Vert_*\le L_f,\,\forall\mathbf{x}\in\mathrm{dom}(g)
∃Lf>0:∥f′(x)∥∗≤Lf,∀x∈dom(g);
(iv) 组合模型最优解集非空, 记为
X
∗
X^*
X∗; 最优值记为
F
o
p
t
F_{\mathrm{opt}}
Fopt.
我们同样引入函数 ω \omega ω, 并对其做出如下假设4:
假设条件4 (
ω
\omega
ω的性质)
(i)
ω
\omega
ω是正常闭凸函数;
(ii)
ω
\omega
ω在
d
o
m
(
∂
ω
)
\mathrm{dom}(\partial\omega)
dom(∂ω)上可微;
(iii)
d
o
m
(
g
)
⊂
d
o
m
(
ω
)
\mathrm{dom}(g)\subset\mathrm{dom}(\omega)
dom(g)⊂dom(ω);
(iv)
ω
+
δ
d
o
m
(
g
)
\omega+\delta_{\mathrm{dom}(g)}
ω+δdom(g)是
σ
\sigma
σ-强凸函数
(
σ
>
0
)
(\sigma>0)
(σ>0).
显然, 我们可以忽略模型的组合结构, 直接应用MDM于 F = f + g F=f+g F=f+g, 其中 C C C由 d o m ( g ) \mathrm{dom}(g) dom(g)代替: x k + 1 = arg min x ∈ C { ⟨ f ′ ( x k ) + g ′ ( x k ) , x ⟩ + 1 t k B ω ( x , x k ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in C}\left\{\langle f'(\mathbf{x}^k)+g'(\mathbf{x}^k),\mathbf{x}\rangle+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}. xk+1=argx∈Cmin{⟨f′(xk)+g′(xk),x⟩+tk1Bω(x,xk)}.但这样的直接应用会带来一些问题:
- 我们并没有假设 C = d o m ( g ) C=\mathrm{dom}(g) C=dom(g)是闭集, 因此 x k + 1 \mathbf{x}^{k+1} xk+1可能未定义;
- 即使 x k + 1 \mathbf{x}^{k+1} xk+1可以定义, 但我们并没有假设 g g g在 C C C上是Lipschitz的. 但这在MDM收敛性分析中是至关重要的;
- 再即使 g g g在 C C C上是Lipschitz的, 和函数 F = f + g F=f+g F=f+g的Lipschitz常数可能也要比 f f f的Lipschitz常数大得多. 我们希望能够设计一种仅依赖于 f f f在 d o m ( g ) \mathrm{dom}(g) dom(g)上Lipschitz常数的算法.
我们不妨只线性化 f f f. 于是得到如下格式: x k + 1 = arg min x { ⟨ f ′ ( x k ) , x ⟩ + g ( x ) + 1 t k B ω ( x , x k ) } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\left\{\langle f'(\mathbf{x}^k),\mathbf{x}\rangle+g(\mathbf{x})+\frac{1}{t_k}B_{\omega}(\mathbf{x},\mathbf{x}^k)\right\}, xk+1=argxmin{⟨f′(xk),x⟩+g(x)+tk1Bω(x,xk)},代入 B ω B_{\omega} Bω的定义, 就有 x k + 1 = arg min x { ⟨ t k f ′ ( x k ) − ∇ ω ( x k ) , x ⟩ + t k g ( x ) + ω ( x ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\{\langle t_kf'(\mathbf{x}^k)-\nabla\omega(\mathbf{x}^k),\mathbf{x}\rangle+t_kg(\mathbf{x})+\omega(\mathbf{x})\}. xk+1=argxmin{⟨tkf′(xk)−∇ω(xk),x⟩+tkg(x)+ω(x)}.我们称基于此更新格式的算法为镜像-C算法(mirror-C method, MCM)5.
易知当
g
=
δ
C
g=\delta_C
g=δC时, MCM就回到了MDM. 为分析MCM, 我们先来说明它是良定义的, 即新的迭代点一定落在
d
o
m
(
g
)
∩
d
o
m
(
∂
ω
)
\mathrm{dom}(g)\cap\mathrm{dom}(\partial\omega)
dom(g)∩dom(∂ω). 证明直接利用引理2.
定理5 (MCM的良定性) 假定假设条件3、4成立. 设 a ∈ E ∗ \mathbf{a}\in\mathbb{E}^* a∈E∗. 则问题 min x ∈ E { ⟨ a , x ⟩ + g ( x ) + ω ( x ) } \min_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{a,x}\rangle+g(\mathbf{x})+\omega(\mathbf{x})\} x∈Emin{⟨a,x⟩+g(x)+ω(x)}的极小点唯一取在 d o m ( g ) ∩ d o m ( ∂ ω ) \mathrm{dom}(g)\cap\mathrm{dom}(\partial\omega) dom(g)∩dom(∂ω).
证明: 在引理2中令 ψ ( x ) ≡ ⟨ a , x ⟩ + g ( x ) \psi(\mathbf{x})\equiv\langle\mathbf{a,x}\rangle+g(\mathbf{x}) ψ(x)≡⟨a,x⟩+g(x)即得证.
MCM的分析方法类似于第2节中分析MDM的. 我们先证明MCM基本不等式. 注意, 我们在此还需额外假设 g g g是非负函数, 且步长序列是递减的.
引理8 (MCM基本不等式) 假定假设条件3、4成立, g g g是非负函数. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由带正递减步长 { t k } k ≥ 0 \{t_k\}_{k\ge0} {tk}k≥0的MCM生成的迭代序列. 则对 ∀ x ∗ ∈ X ∗ , k ≥ 0 \forall\mathbf{x}^*\in X^*,\,k\ge0 ∀x∗∈X∗,k≥0, min n = 0 , 1 , … , k F ( x n ) − F o p t ≤ t 0 g ( x 0 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ∑ n = 0 k t n . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{t_0g(\mathbf{x}^0)+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2}{\sum_{n=0}^kt_n}. n=0,1,…,kminF(xn)−Fopt≤∑n=0ktnt0g(x0)+Bω(x∗,x0)+2σ1∑n=0ktn2∥f′(xn)∥∗2.
证明: 由更新公式, 并在非欧第二临近定理中令 b = x n , a = x n + 1 , ψ ( x ) ≡ t n ⟨ f ′ ( x n ) , x ⟩ + t n g ( x ) \mathbf{b}=\mathbf{x}^n,\,\mathbf{a}=\mathbf{x}^{n+1},\,\psi(\mathbf{x})\equiv t_n\langle f'(\mathbf{x}^n),\mathbf{x}\rangle+t_ng(\mathbf{x}) b=xn,a=xn+1,ψ(x)≡tn⟨f′(xn),x⟩+tng(x), 就有 ⟨ ∇ ω ( x n ) − ∇ ω ( x n + 1 ) , u − x n + 1 ⟩ ≤ t n ⟨ f ′ ( x n ) , u − x n + 1 ⟩ + t n g ( u ) − t n g ( x n + 1 ) . \langle\nabla\omega(\mathbf{x}^n)-\nabla\omega(\mathbf{x}^{n+1}),\mathbf{u}-\mathbf{x}^{n+1}\rangle\le t_n\langle f'(\mathbf{x}^n),\mathbf{u}-\mathbf{x}^{n+1}\rangle+t_ng(\mathbf{u})-t_ng(\mathbf{x}^{n+1}). ⟨∇ω(xn)−∇ω(xn+1),u−xn+1⟩≤tn⟨f′(xn),u−xn+1⟩+tng(u)−tng(xn+1).由三点引理, 令其中 a = x n + 1 , b = x n , c = u \mathbf{a}=\mathbf{x}^{n+1},\,\mathbf{b}=\mathbf{x}^n,\,\mathbf{c=u} a=xn+1,b=xn,c=u就有 ⟨ ∇ ω ( x n ) − ∇ ω ( x n + 1 ) , u − x n + 1 ⟩ = B ω ( u , x n + 1 ) + B ω ( x n + 1 , x n ) − B ω ( u , x n ) , \langle\nabla\omega(\mathbf{x}^n)-\nabla\omega(\mathbf{x}^{n+1}),\mathbf{u}-\mathbf{x}^{n+1}\rangle=B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})+B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^n), ⟨∇ω(xn)−∇ω(xn+1),u−xn+1⟩=Bω(u,xn+1)+Bω(xn+1,xn)−Bω(u,xn),合起来就有 B ω ( u , x n + 1 ) + B ω ( x n + 1 , x n ) − B ω ( u , x n ) ≤ t n ⟨ f ′ ( x n ) , u − x n + 1 ⟩ + t n g ( u ) − t n g ( x n + 1 ) . B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})+B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^n)\le t_n\langle f'(\mathbf{x}^n),\mathbf{u}-\mathbf{x}^{n+1}\rangle+t_ng(\mathbf{u})-t_ng(\mathbf{x}^{n+1}). Bω(u,xn+1)+Bω(xn+1,xn)−Bω(u,xn)≤tn⟨f′(xn),u−xn+1⟩+tng(u)−tng(xn+1).因此, t n ⟨ f ′ ( x n ) , x n − u ⟩ + t n g ( x n + 1 ) − t n g ( u ) ≤ B ω ( u , x n ) − B ω ( u , x n + 1 ) − B ω ( x n + 1 , x n ) + t n ⟨ f ′ ( x n ) , x n − x n + 1 ⟩ ≤ B ω ( u , x n ) − B ω ( u , x n + 1 ) − σ 2 ∥ x n + 1 − x n ∥ 2 + t n ⟨ f ′ ( x n ) , x n − x n + 1 ⟩ = B ω ( u , x n ) − B ω ( u , x n + 1 ) − σ 2 ∥ x n + 1 − x n ∥ 2 + ⟨ t n σ f ′ ( x n ) , σ ( x n − x n + 1 ) ⟩ ≤ B ω ( u , x n ) − B ω ( u , x n + 1 ) − σ 2 ∥ x n + 1 − x n ∥ 2 + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 + σ 2 ∥ x n + 1 − x n ∥ 2 = B ω ( u , x n ) − B ω ( u , x n + 1 ) + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 . \begin{aligned}&t_n\langle f'(\mathbf{x}^n),\mathbf{x}^n-\mathbf{u}\rangle+t_ng(\mathbf{x}^{n+1})-t_ng(\mathbf{u})\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-B_{\omega}(\mathbf{x}^{n+1},\mathbf{x}^n)+t_n\langle f'(\mathbf{x}^n),\mathbf{x}^n-\mathbf{x}^{n+1}\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2+t_n\langle f'(\mathbf{x}^n),\mathbf{x}^n-\mathbf{x}^{n+1}\rangle\\&=B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2+\left\langle\frac{t_n}{\sqrt{\sigma}}f'(\mathbf{x}^n),\sqrt{\sigma}(\mathbf{x}^n-\mathbf{x}^{n+1})\right\rangle\\&\le B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})-\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2+\frac{\sigma}{2}\Vert\mathbf{x}^{n+1}-\mathbf{x}^n\Vert^2\\&=B_{\omega}(\mathbf{u},\mathbf{x}^n)-B_{\omega}(\mathbf{u},\mathbf{x}^{n+1})+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2.\end{aligned} tn⟨f′(xn),xn−u⟩+tng(xn+1)−tng(u)≤Bω(u,xn)−Bω(u,xn+1)−Bω(xn+1,xn)+tn⟨f′(xn),xn−xn+1⟩≤Bω(u,xn)−Bω(u,xn+1)−2σ∥xn+1−xn∥2+tn⟨f′(xn),xn−xn+1⟩=Bω(u,xn)−Bω(u,xn+1)−2σ∥xn+1−xn∥2+⟨σtnf′(xn),σ(xn−xn+1)⟩≤Bω(u,xn)−Bω(u,xn+1)−2σ∥xn+1−xn∥2+2σtn2∥f′(xn)∥∗2+2σ∥xn+1−xn∥2=Bω(u,xn)−Bω(u,xn+1)+2σtn2∥f′(xn)∥∗2.令 u = x ∗ \mathbf{u}=\mathbf{x}^* u=x∗并由次梯度不等式, 我们有 t n [ f ( x n ) + g ( x n + 1 ) − F o p t ] ≤ B ω ( x ∗ , x n ) − B ω ( x ∗ , x n + 1 ) + t n 2 2 σ ∥ f ′ ( x n ) ∥ ∗ 2 . t_n[f(\mathbf{x}^n)+g(\mathbf{x}^{n+1})-F_{\mathrm{opt}}]\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^n)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{n+1})+\frac{t_n^2}{2\sigma}\Vert f'(\mathbf{x}^n)\Vert_*^2. tn[f(xn)+g(xn+1)−Fopt]≤Bω(x∗,xn)−Bω(x∗,xn+1)+2σtn2∥f′(xn)∥∗2.对指标 n = 0 , 1 , … , k n=0,1,\ldots,k n=0,1,…,k求和以上不等式可得 ∑ n = 0 k t n [ f ( x n ) + g ( x n + 1 ) − F o p t ] ≤ B ω ( x ∗ , x 0 ) − B ω ( x ∗ , x k + 1 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \sum_{n=0}^kt_n[f(\mathbf{x}^n)+g(\mathbf{x}^{n+1})-F_{\mathrm{opt}}]\le B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)-B_{\omega}(\mathbf{x}^*,\mathbf{x}^{k+1})+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2. n=0∑ktn[f(xn)+g(xn+1)−Fopt]≤Bω(x∗,x0)−Bω(x∗,xk+1)+2σ1n=0∑ktn2∥f′(xn)∥∗2.在两边同时加上 t 0 g ( x 0 ) − t k g ( x k + 1 ) t_0g(\mathbf{x}^0)-t_kg(\mathbf{x}^{k+1}) t0g(x0)−tkg(xk+1), 并利用Bregman距离的非负性可得 t 0 ( F ( x 0 ) − F o p t ) + ∑ n = 1 k [ t n f ( x n ) + t n − 1 g ( x n ) − t n F o p t ] ≤ t n g ( x 0 ) − t k g ( x k + 1 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \begin{aligned}&t_0(F(\mathbf{x}^0)-F_{\mathrm{opt}})+\sum_{n=1}^k[t_nf(\mathbf{x}^n)+t_{n-1}g(\mathbf{x}^n)-t_nF_{\mathrm{opt}}]\\&\le t_ng(\mathbf{x}^0)-t_kg(\mathbf{x}^{k+1})+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2.\end{aligned} t0(F(x0)−Fopt)+n=1∑k[tnf(xn)+tn−1g(xn)−tnFopt]≤tng(x0)−tkg(xk+1)+Bω(x∗,x0)+2σ1n=0∑ktn2∥f′(xn)∥∗2.由于 t n ≤ t n − 1 , g ( x n ) ≥ 0 t_n\le t_{n-1},\,g(\mathbf{x}^n)\ge0 tn≤tn−1,g(xn)≥0, 因此 ( ∑ n = 0 k t n ) ( min n = 0 , 1 , … , k F ( x n ) − F o p t ) ≤ ∑ n = 0 k t n [ F ( x n ) − F o p t ] ≤ t n g ( x 0 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 . \left(\sum_{n=0}^kt_n\right)\left(\min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\right)\le\sum_{n=0}^kt_n[F(\mathbf{x}^n)-F_{\mathrm{opt}}]\le t_ng(\mathbf{x}^0)+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2. (n=0∑ktn)(n=0,1,…,kminF(xn)−Fopt)≤n=0∑ktn[F(xn)−Fopt]≤tng(x0)+Bω(x∗,x0)+2σ1n=0∑ktn2∥f′(xn)∥∗2.移项即得证.
有了MCM基本不等式, 我们就可以分析MCM的收敛性质.
定理6 (固定迭代数MCM的 O ( 1 / N ) O(1/\sqrt{N}) O(1/N)收敛速度) 假定假设条件3、4成立, g g g非负. 设 B ω ( x , x 0 ) B_{\omega}(\mathbf{x},\mathbf{x}^0) Bω(x,x0)在 d o m ( g ) \mathrm{dom}(g) dom(g)上有界: 存在 Θ ( x 0 ) \Theta(\mathbf{x}^0) Θ(x0), 使得 Θ ( x 0 ) ≥ max x ∈ d o m ( g ) B ω ( x , x 0 ) . \Theta(\mathbf{x}^0)\ge\max_{\mathbf{x}\in\mathrm{dom}(g)}B_{\omega}(\mathbf{x},\mathbf{x}^0). Θ(x0)≥x∈dom(g)maxBω(x,x0).设 g ( x 0 ) = 0 g(\mathbf{x}^0)=0 g(x0)=0. 令 N N N为一正整数. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由步长为 t k = 2 Θ ( x 0 ) σ L f N t_k=\frac{\sqrt{2\Theta(\mathbf{x}^0)\sigma}}{L_f\sqrt{N}} tk=LfN2Θ(x0)σ的MCM生成的迭代序列. 则 min n = 0 , 1 , … , N − 1 F ( x n ) − F o p t ≤ 2 Θ ( x 0 ) L f σ N . \min_{n=0,1,\ldots,N-1}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{\sqrt{2\Theta(\mathbf{x}^0)}L_f}{\sqrt{\sigma}\sqrt{N}}. n=0,1,…,N−1minF(xn)−Fopt≤σN2Θ(x0)Lf.
证明: 由MCM基本不等式以及 g ( x 0 ) = 0 , ∥ f ′ ( x n ) ∥ ∗ ≤ L f , B ω ( x ∗ , x 0 ) ≤ Θ ( x 0 ) g(\mathbf{x}^0)=0,\,\Vert f'(\mathbf{x}^n)\Vert_*\le L_f,\,B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)\le\Theta(\mathbf{x}^0) g(x0)=0,∥f′(xn)∥∗≤Lf,Bω(x∗,x0)≤Θ(x0), 就有 min n = 0 , 1 , … , N − 1 F ( x n ) − F o p t ≤ Θ ( x 0 ) + L f 2 2 σ ∑ n = 0 N − 1 t n 2 ∑ n = 0 N − 1 t n . \min_{n=0,1,\ldots,N-1}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{\Theta(\mathbf{x}^0)+\frac{L_f^2}{2\sigma}\sum_{n=0}^{N-1}t_n^2}{\sum_{n=0}^{N-1}t_n}. n=0,1,…,N−1minF(xn)−Fopt≤∑n=0N−1tnΘ(x0)+2σLf2∑n=0N−1tn2.再将 t n t_n tn的表达式代入即得证.
定理7 (变步长MCM的 O ( log k / k ) O(\log k/\sqrt{k}) O(logk/k)收敛速度) 假定假设条件3、4成立, g g g非负. 设 { x k } k ≥ 0 \{\mathbf{x}^k\}_{k\ge0} {xk}k≥0为由步长准则为 t k = 2 σ L f k + 1 t_k=\frac{\sqrt{2\sigma}}{L_f\sqrt{k+1}} tk=Lfk+12σ的MCM生成的迭代序列. 则对 ∀ k ≥ 1 \forall k\ge1 ∀k≥1, min n = 0 , 1 , … , k F ( x n ) − F o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + 2 σ L f g ( x 0 ) + 1 + log ( k + 1 ) k + 1 . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{\sqrt{2\sigma}}{L_f}g(\mathbf{x}^0)+1+\log(k+1)}{\sqrt{k+1}}. n=0,1,…,kminF(xn)−Fopt≤2σLfk+1Bω(x∗,x0)+Lf2σg(x0)+1+log(k+1).
证明: 由MCM基本不等式以及 t 0 = 2 σ L f t_0=\frac{\sqrt{2\sigma}}{L_f} t0=Lf2σ, min n = 0 , 1 , … , k F ( x n ) − F o p t ≤ 2 σ L f g ( x 0 ) + B ω ( x ∗ , x 0 ) + 1 2 σ ∑ n = 0 k t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ∑ n = 0 k t n . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{\frac{\sqrt{2\sigma}}{L_f}g(\mathbf{x}^0)+B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{1}{2\sigma}\sum_{n=0}^kt_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2}{\sum_{n=0}^kt_n}. n=0,1,…,kminF(xn)−Fopt≤∑n=0ktnLf2σg(x0)+Bω(x∗,x0)+2σ1∑n=0ktn2∥f′(xn)∥∗2.结合 t n 2 ∥ f ′ ( x n ) ∥ ∗ 2 ≤ 2 σ n + 1 , t n = 2 σ L f n + 1 t_n^2\Vert f'(\mathbf{x}^n)\Vert_*^2\le\frac{2\sigma}{n+1},\,t_n=\frac{\sqrt{2\sigma}}{L_f\sqrt{n+1}} tn2∥f′(xn)∥∗2≤n+12σ,tn=Lfn+12σ, 就有 min n = 0 , 1 , … , k F ( x n ) − F o p t ≤ L f 2 σ B ω ( x ∗ , x 0 ) + 2 σ L f g ( x 0 ) + ∑ n = 0 k 1 n + 1 ∑ n = 0 k 1 n + 1 . \min_{n=0,1,\ldots,k}F(\mathbf{x}^n)-F_{\mathrm{opt}}\le\frac{L_f}{\sqrt{2\sigma}}\frac{B_{\omega}(\mathbf{x}^*,\mathbf{x}^0)+\frac{\sqrt{2\sigma}}{L_f}g(\mathbf{x}^0)+\sum_{n=0}^k\frac{1}{n+1}}{\sum_{n=0}^k\frac{1}{\sqrt{n+1}}}. n=0,1,…,kminF(xn)−Fopt≤2σLf∑n=0kn+11Bω(x∗,x0)+Lf2σg(x0)+∑n=0kn+11.再根据第八章引理9(i)即得证.
例5 假设 R n \mathbb{R}^n Rn中的范数为 ℓ 2 \ell_2 ℓ2-范数. 设 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R为凸函数, 且在 R n \mathbb{R}^n Rn上 L f L_f Lf-Lipschitz连续, 即 ∥ f ′ ( x ) ∥ 2 ≤ L f , ∀ x ∈ R n \Vert f'(\mathbf{x})\Vert_2\le L_f,\,\forall\mathbf{x}\in\mathbb{R}^n ∥f′(x)∥2≤Lf,∀x∈Rn. 考虑问题 min x ∈ R + + n { F ( x ) ≡ f ( x ) + ∑ i = 1 n 1 x i } , \min_{\mathbf{x}\in\mathbb{R}_{++}^n}\left\{F(\mathbf{x})\equiv f(\mathbf{x})+\sum_{i=1}^n\frac{1}{x_i}\right\}, x∈R++nmin{F(x)≡f(x)+i=1∑nxi1}, ω ( x ) = 1 2 ∥ x ∥ 2 \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 ω(x)=21∥x∥2. 现有两种选择:
- Proj-SGM. 我们发现可行集 C C C是不明确的. 如若取 C = R + + n C=\mathbb{R}_{++}^n C=R++n, 则到 C C C上的投影并不存在唯一. 另外 F F F显然不是Lipschitz连续的. 从而无法保证收敛性.
- PSGM. 可取 g ( x ) ≡ ∑ i = 1 n 1 x i + δ R + + n g(\mathbf{x})\equiv\sum_{i=1}^n\frac{1}{x_i}+\delta_{\mathbb{R}_{++}^n} g(x)≡∑i=1nxi1+δR++n. 这样假设条件3、4都满足, 且 g g g非负. 迭代格式为 x k + 1 = p r o x t k g ( x k − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=\mathrm{prox}_{t_kg}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)). xk+1=proxtkg(xk−tkf′(xk)).可以验证, 在每步计算prox时需要求解 n n n个一元三次方程.
例6 (Proj-SGM vs. PSGM——数值例子) 假设 R n \mathbb{R}^n Rn的范数为 ℓ 2 \ell_2 ℓ2-范数. 考虑问题 min x ∈ R n { F ( x ) ≡ ∥ A x − b ∥ 1 + λ ∥ x ∥ 1 } , \min_{\mathbf{x}\in\mathbb{R}^n}\{F(\mathbf{x})\equiv\Vert\mathbf{Ax-b}\Vert_1+\lambda\Vert\mathbf{x}\Vert_1\}, x∈Rnmin{F(x)≡∥Ax−b∥1+λ∥x∥1},其中 A ∈ R m × n , b ∈ R m , λ > 0 \mathbf{A}\in\mathbb{R}^{m\times n},\,\mathbf{b}\in\mathbb{R}^m,\,\lambda>0 A∈Rm×n,b∈Rm,λ>0. 我们讨论求解此问题的两种算法:
- Proj-SGM. 取 C = R n , s g n ( y ) ∈ ∂ ( ∥ y ∥ 1 ) C=\mathbb{R}^n,\,\mathrm{sgn}(\mathbf{y})\in\partial (\Vert\mathbf{y}\Vert_1) C=Rn,sgn(y)∈∂(∥y∥1), 迭代格式为 x k + 1 = x k − t k ( A T s g n ( A x k − b ) + λ s g n ( x ) ) . \mathbf{x}^{k+1}=\mathbf{x}^k-t_k(\mathbf{A}^T\mathrm{sgn}(\mathbf{Ax}^k-\mathbf{b})+\lambda\mathrm{sgn}(\mathbf{x})). xk+1=xk−tk(ATsgn(Axk−b)+λsgn(x)).其中步长取为 t k = 1 ∥ F ′ ( x k ) ∥ 2 k + 1 t_k=\frac{1}{\Vert F'(\mathbf{x}^k)\Vert_2\sqrt{k+1}} tk=∥F′(xk)∥2k+11.
- PSGM. 令 f ( x ) = ∥ A x − b ∥ 1 , g ( x ) = λ ∥ x ∥ 1 f(\mathbf{x})=\Vert\mathbf{Ax-b}\Vert_1,\,g(\mathbf{x})=\lambda\Vert\mathbf{x}\Vert_1 f(x)=∥Ax−b∥1,g(x)=λ∥x∥1, 从而 F = f + g F=f+g F=f+g. 迭代格式为 x k + 1 = p r o x s k g ( x k − s k A T s g n ( A x k − b ) ) . \mathbf{x}^{k+1}=\mathrm{prox}_{s_kg}(\mathbf{x}^k-s_k\mathbf{A}^T\mathrm{sgn}(\mathbf{Ax}^k-\mathbf{b})). xk+1=proxskg(xk−skATsgn(Axk−b)).因为 g ( x ) = λ ∥ x ∥ 1 g(\mathbf{x})=\lambda\Vert\mathbf{x}\Vert_1 g(x)=λ∥x∥1, 因此 p r o x s k g \mathrm{prox}_{s_kg} proxskg是软阈值算子 T λ s k \mathcal{T}_{\lambda s_k} Tλsk(第六章例2). 所以 x k + 1 = T λ s k ( x k − s k A T s g n ( A x k − b ) ) . \mathbf{x}^{k+1}=\mathcal{T}_{\lambda s_k}(\mathbf{x}^k-s_k\mathbf{A}^T\mathrm{sgn}(\mathbf{Ax}^k-\mathbf{b})). xk+1=Tλsk(xk−skATsgn(Axk−b)).步长取为 s k = 1 ∥ f ′ ( x k ) ∥ 2 k + 1 s_k=\frac{1}{\Vert f'(\mathbf{x}^k)\Vert_2\sqrt{k+1}} sk=∥f′(xk)∥2k+11.
显然, Proj-SGM依赖于 F F F的Lipschitz常数 L F L_F LF, 而PSGM仅依赖于 f f f的Lipschitz常数 L f L_f Lf. 理论上, PSGM应当比Proj-SGM表现要好. 我们按标准正态分布独立随机生成了 A , b \mathbf{A,b} A,b的分量. 两种算法下 F ( x k ) − F o p t F(\mathbf{x}^k)-F_{\mathrm{opt}} F(xk)−Fopt的变化情况可见下图.
从图中可知, 在此例中PSGM要显著优于Proj-SGM.
若定义 ω ~ = ω + δ C \tilde\omega=\omega+\delta_C ω~=ω+δC, 注意到 ∇ ω ( x k ) ∈ ∂ ω ~ ( x k ) \nabla\omega(\mathbf{x}^k)\in\partial\tilde\omega(\mathbf{x}^k) ∇ω(xk)∈∂ω~(xk), 从而可将 ∇ ω ( x k ) \nabla\omega(\mathbf{x}^k) ∇ω(xk)写成 ω ~ ′ ( x k ) \tilde\omega'(\mathbf{x}^k) ω~′(xk), 于是MDM的迭代格式就可写作 x k + 1 = arg min x ∈ E { ⟨ t k f ′ ( x k ) − ω ~ ′ ( x k ) , x ⟩ + ω ~ ( x ) } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}\in\mathbb{E}}\{\langle t_kf'(\mathbf{x}^k)-\tilde\omega'(\mathbf{x}^k),\mathbf{x}\rangle+\tilde\omega(\mathbf{x})\}. xk+1=argx∈Emin{⟨tkf′(xk)−ω~′(xk),x⟩+ω~(x)}.根据共轭关联定理(第五章定理8(ii)), 由于 ω ~ \tilde\omega ω~是正常闭强凸函数, 所以 ω ~ ∗ \tilde\omega^* ω~∗是 E ∗ \mathbb{E}^* E∗上的可微函数. 再根据共轭次梯度定理第二形式(第四章推论2), 就可以得到以下MDM迭代格式: x k + 1 = ∇ ω ~ ∗ ( ω ~ ′ ( x k ) − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=\nabla\tilde\omega^*(\tilde\omega'(\mathbf{x}^k)-t_kf'(\mathbf{x}^k)). xk+1=∇ω~∗(ω~′(xk)−tkf′(xk)). ↩︎
这里写成等号是因为 ω + δ d o m ( ψ ) + ψ = ω + ψ \omega+\delta_{\mathrm{dom}(\psi)}+\psi=\omega+\psi ω+δdom(ψ)+ψ=ω+ψ强凸, 所以 a \mathbf{a} a是唯一确定的. ↩︎
与Proj-SGM基本不等式相比, MDM基本不等式形式上完全一致, 只是将欧式距离度量换成了Bregman距离度量, 次梯度的范数换成了对偶函数. ↩︎
与先前的假设条件2有些许不同. ↩︎
若 E \mathbb{E} E是欧式空间, 且 ω ( x ) = 1 2 ∥ x ∥ 2 \omega(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 ω(x)=21∥x∥2, 则更新公式变成 x k + 1 = arg min x { ⟨ t k f ′ ( x k ) , x ⟩ + t k g ( x ) + 1 2 ∥ x − x k ∥ 2 } , \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\left\{\langle t_kf'(\mathbf{x}^k),\mathbf{x}\rangle+t_kg(\mathbf{x})+\frac{1}{2}\Vert\mathbf{x}-\mathbf{x}^k\Vert^2\right\}, xk+1=argxmin{⟨tkf′(xk),x⟩+tkg(x)+21∥x−xk∥2},稍作整理后即得 x k + 1 = arg min x { t k g ( x ) + 1 2 ∥ x − [ x k − t k f ′ ( x k ) ∥ 2 } . \mathbf{x}^{k+1}=\arg\min_{\mathbf{x}}\left\{t_kg(\mathbf{x})+\frac{1}{2}\Vert\mathbf{x}-[\mathbf{x}^k-t_kf'(\mathbf{x}^k)\Vert^2\right\}. xk+1=argxmin{tkg(x)+21∥x−[xk−tkf′(xk)∥2}.由临近算子的定义, 即得 x k + 1 = p r o x t k g ( x k − t k f ′ ( x k ) ) . \mathbf{x}^{k+1}=\mathrm{prox}_{t_kg}(\mathbf{x}^k-t_kf'(\mathbf{x}^k)). xk+1=proxtkg(xk−tkf′(xk)).这时得到的算法称作临近次梯度算法(proximal subgradient method, PSGM). 易知当 g = δ C g=\delta_C g=δC时, 就回到了第八章的Proj-SGM. 我们将在第十章对其进行详细讨论. 期间将对 f f f做额外的可微性假设, 从而会得到更好的收敛性质. ↩︎