凸优化简介5

梯度方法

1. 梯度下降法的基本形式

基本的梯度下降法可以描述为:
首 先 选 择 一 个 x 0 ∈ R n 之 后 迭 代 x k + 1 = x k − h k ∇ f ( x k ) , k = 0 , 1 , … 首先选择一个 x_0 \in \mathbb{R}^n\\ 之后迭代 x_{k+1}=x_k-h_k\nabla f(x_k), k=0,1,\dots x0Rnxk+1=xkhkf(xk),k=0,1,
其中,正标量 h k h_k hk称为步长。当然,步长可以固定为一个常量,也可以是一个变化的量,比如 h k = h k + 1 h_k=\frac{h}{\sqrt{k+1}} hk=k+1 h,即步长随着迭代次数的增加而不断的减小。

在理想的状态下,在每一步的迭代选择最佳的步长,称为完全松弛 h k = arg min ⁡ h ≥ 0 f ( x k − h ∇ f ( x k ) ) h_k=\argmin \limits_{h\geq 0} f(x_k-h\nabla f(x_k)) hk=h0argminf(xkhf(xk))。但是这种理想的状态很难达到,因此 Goldstein-Armijo规则是不这么理想的状态,该规则找到 x k + 1 = x k − h ∇ f ( x k ) x_{k+1}=x_{k}-h\nabla f(x_k) xk+1=xkhf(xk),并且满足如下两个条件:
α ⟨ ∇ f ( x k ) , x k − x k + 1 ⟩ ≤ f ( x k ) − f ( x k + 1 ) β ⟨ ∇ f ( x k ) , x k − x k + 1 ⟩ ≥ f ( x k ) − f ( x k + 1 ) \alpha \langle \nabla f(x_k), x_k-x_{k+1}\rangle \leq f(x_k)-f(x_{k+1})\\ \beta \langle \nabla f(x_k),x_k-x_{k+1} \rangle \geq f(x_k)-f(x_{k+1}) αf(xk),xkxk+1f(xk)f(xk+1)βf(xk),xkxk+1f(xk)f(xk+1)
其中, 0 < α < β < 1 0 \lt \alpha \lt \beta \lt 1 0<α<β<1是某个固定的参数。
下面是从几何角度解释 Goldstein-Armijo规则。首先对于一个 x ∈ R n x\in \mathbb{R}^n xRn,考虑一个函数 ϕ ( h ) = f ( x − h ∇ f ( x ) ) , h ≥ 0 \phi(h)=f(x-h\nabla f(x)), h \geq 0 ϕ(h)=f(xhf(x)),h0. 那么符合这个策略的步长属于 ϕ \phi ϕ的图的一部分,即在两个线性函数之间:
ϕ 1 ( h ) = f ( x ) − α h ∥ ∇ f ( x ) ∥ 2 , ϕ 2 ( h ) = f ( x ) − β h ∥ ∇ f ( x ) ∥ 2 \phi_1(h)=f(x)-\alpha h \|\nabla f(x)\|^2,\\ \phi_2(h)=f(x)-\beta h \|\nabla f(x)\|^2 ϕ1(h)=f(x)αhf(x)2,ϕ2(h)=f(x)βhf(x)2
下面是一个例子,函数 f ( x ) = 1 4 x 2 f(x)=\frac{1}{4}x^2 f(x)=41x2,设 x k = − 2 x_k=-2 xk=2,则函数 ϕ ( h ) = f ( − 2 − h ∇ f ( − 2 ) ) = 1 4 ( h − 2 ) 2 , ϕ 1 ( h ) = f ( − 2 − α h ∥ ∇ f ( − 2 ) ) ∥ 2 = 1 − α h , ϕ 2 ( h ) = f ( − 2 ) − β h ∥ ∇ f ( − 2 ) ∥ 2 = 1 − β h . \phi(h)=f(-2-h \nabla f(-2))=\frac{1}{4}(h-2)^2, \phi_1(h)=f(-2-\alpha h \|\nabla f(-2))\|^2=1-\alpha h, \phi_2(h)=f(-2)-\beta h \|\nabla f(-2)\|^2=1-\beta h. ϕ(h)=f(2hf(2))=41(h2)2,ϕ1(h)=f(2αhf(2))2=1αh,ϕ2(h)=f(2)βhf(2)2=1βh.
在这里插入图片描述
如上图所示,两条绿色的直线分别是斜率为 − 1 -1 1 0 0 0的,线性函数 ϕ 1 \phi_1 ϕ1 ϕ 2 \phi_2 ϕ2确定了步长所在的范围,即橙色的区域。

2. 梯度方法的性能


对于某个函数 min ⁡ x ∈ R n f ( x ) \min \limits_{x\in \mathbb{R}^n} f(x) xRnminf(x),该函数属于 C L 1 , 1 ( R n ) C_{L}^{1,1}(\mathbb{R}^n) CL1,1(Rn)类。假设该函数在 R n \mathbb{R}^n Rn上有下界。对于梯度下降步骤, y = x − h ∇ f ( x ) y=x-h\nabla f(x) y=xhf(x),使用凸优化简介4第2部分最后的不等式 ∣ f ( y ) − f ( x ) − ⟨ ∇ f ( x ) , y − x ∣ ≤ L 2 ∥ y − x ∥ 2 |f(y)-f(x)-\langle \nabla f(x),y-x|\leq \frac{L}{2}\|y-x\|^2 f(y)f(x)f(x),yx2Lyx2 可以得到一个上界:
f ( y ) ≤ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + L 2 ∥ y − x ∥ 2 = f ( x ) − h ∥ ∇ f ( x ) ∥ 2 + h 2 2 L ∥ ∇ f ( x ) ∥ 2 = f ( x ) − h ( 1 − h 2 L ) ∥ ∇ f ( x ) ∥ 2 \begin{aligned} & f(y)\leq f(x)+\langle \nabla f(x),y-x\rangle+\frac{L}{2}\|y-x\|^2\\ & = f(x)-h\|\nabla f(x)\|^2+\frac{h^2}{2}L\|\nabla f(x)\|^2\\ &= f(x)-h(1-\frac{h}{2}L)\|\nabla f(x)\|^2 \end{aligned} f(y)f(x)+f(x),yx+2Lyx2=f(x)hf(x)2+2h2Lf(x)2=f(x)h(12hL)f(x)2
其中第一步到第二部的推导使用到 y = x − h ∇ f ( x ) y=x-h\nabla f(x) y=xhf(x)这个等式,且 1 − h 2 L > 0 1-\frac{h}{2}L \gt 0 12hL>0(注:因为上面推导的第一个不等式是成立的,因此推导到最后要保证不等式成立,则 h ∈ ( 0 , 2 L ) h \in (0,\frac{2}{L}) h(0,L2)).
为了得到最佳的步长估计,需要求解以下问题 Δ ( h ) = − h ( 1 − h 2 L ) \Delta (h)=-h(1-\frac{h}{2}L) Δ(h)=h(12hL),因此最优的步长应该满足 Δ ′ ( h ) = h L − 1 = 0 \Delta' (h)=hL-1=0 Δ(h)=hL1=0,并且此时 Δ ′ ′ ( h ) = L > 0 \Delta'' (h)=L >0 Δ(h)=L>0.
将最优步长 h ∗ h^* h带入上式得到 :
f ( x − h ∗ ∇ f ( x ) ) ≤ f ( x ) − 1 2 L ∥ ∇ f ( x ) ∥ 2 f(x-h^*\nabla f(x))\leq f(x)-\frac{1}{2L}\|\nabla f(x)\|^2 f(xhf(x))f(x)2L1f(x)2.

3. 不同步长策略的对比

3.1 固定步长策略


x k + 1 = x k − h k ∇ f ( x k ) x_{k+1}=x_k-h_k\nabla f(x_k) xk+1=xkhkf(xk),那么固定步长 h k = h h_k=h hk=h,使用上面的不等式得到
f ( x k ) − f ( x k + 1 ) ≥ h ( 1 − L 2 h ) ) ∥ ∇ f ( x k ) ∥ 2 f(x_k)-f(x_{k+1})\geq h(1-\frac{L}{2}h))\|\nabla f(x_k)\|^2 f(xk)f(xk+1)h(12Lh))f(xk)2.
设选择 h k = 2 α L h_k=\frac{2\alpha}{L} hk=L2α,其中 α ∈ ( 0 , 1 ) \alpha \in (0,1) α(0,1),则上面的式子转换为 :
f ( x k ) − f ( x k + 1 ) ≥ 2 L α ( 1 − α ) ∥ ∇ f ( x k ) ∥ 2 f(x_k)-f(x_{k+1})\geq \frac{2}{L}\alpha(1-\alpha)\|\nabla f(x_k)\|^2 f(xk)f(xk+1)L2α(1α)f(xk)2,因此为了实现下降的最快,则最佳的步长是选择 α = 1 2 , 即 h k = 1 L \alpha=\frac{1}{2},即 h_k=\frac{1}{L} α=21hk=L1.

3.2 完全松弛策略

1.中介绍的完全松弛策略就是在每一步都选择最佳步长的理想状态,因此会比固定步长策略更好。

3.3 Goldstein-Armijo策略

根据 1.中的Goldstein-armijo的规则,得到 f ( x k ) − f ( x k + 1 ) ≤ β ⟨ ∇ f ( x k ) , x k − x k + 1 ⟩ = β h k ∥ ∇ f ( x k ) ∥ 2 f(x_k)-f(x_{k+1})\leq \beta \langle \nabla f(x_k),x_k-x_{k+1}\rangle=\beta h_k \|\nabla f(x_k)\|^2 f(xk)f(xk+1)βf(xk),xkxk+1=βhkf(xk)2.
根据 2.中的不等式,得到:
f ( x k ) − f ( x k + 1 ) ≥ h k ( 1 − h k 2 L ) ∥ ∇ f ( x k ) ∥ 2 f(x_k)-f(x_{k+1})\geq h_k(1-\frac{h_k}{2}L)\|\nabla f(x_k)\|^2 f(xk)f(xk+1)hk(12hkL)f(xk)2.
结合上面的两个式子,得到 h k ≥ 2 L ( 1 − β ) h_k\geq \frac{2}{L}(1-\beta) hkL2(1β)
同理,根据 Goldstein-armijo中的另一个不等式得到:
f ( x k ) − f ( x k + 1 ) ≥ α ⟨ ∇ f ( x k ) , x k − x k + 1 ) = α h k ∥ ∇ f ( x k ) ∥ 2 f(x_k)-f(x_{k+1})\geq \alpha \langle \nabla f(x_k), x_k-x_{k+1})=\alpha h_k \|\nabla f(x_k)\|^2 f(xk)f(xk+1)αf(xk),xkxk+1)=αhkf(xk)2
将不等式中的 h k h_k hk替换为 2 L ( 1 − β ) \frac{2}{L}(1-\beta) L2(1β)得到不等式:
f ( x k ) − f ( x k + 1 ) ≥ 2 L α ( 1 − β ) ∥ ∇ f ( x k ) ∥ 2 f(x_k)-f(x_{k+1})\geq \frac{2}{L}\alpha (1-\beta)\|\nabla f(x_k)\|^2 f(xk)f(xk+1)L2α(1β)f(xk)2.
因此,可以得到,对于所有的 x k x_k xk f ( x k − f ( x k + 1 ) ) ≥ ω L ∥ ∇ f ( x k ) ∥ 2 f(x_k-f(x_{k+1}))\geq \frac{\omega}{L}\|\nabla f(x_k)\|^2 f(xkf(xk+1))Lωf(xk)2,其中 ω \omega ω是正的常量。
将上面的不等式中,从 k = 0 k=0 k=0累加到 k = N k=N k=N,得到:
ω L ∑ k = 0 N ∥ ∇ f ( x k ) ∥ 2 ≤ f ( x 0 ) − f ( x N + 1 ) ≤ f ( x 0 ) − f ∗ \frac{\omega}{L}\sum \limits_{k=0}^{N}\|\nabla f(x_k)\|^2 \leq f(x_0)-f(x_{N+1}) \leq f(x_0)-f^* Lωk=0Nf(xk)2f(x0)f(xN+1)f(x0)f。式子中的 f ∗ f^* f是最优值。
因为有这个上界在,并且上面的式子中最左边累加一阶梯度平方的那一项不会超过这个上界,因此可以得到随着 k k k趋于 ∞ \infty ∥ ∇ f ( x k ) ∥ → 0 \|\nabla f(x_k)\| \rightarrow 0 f(xk)0.
从收敛率方面来分析,设 g N ∗ = min ⁡ 0 ≤ k ≤ N g k g^*_{N}=\min \limits_{0\leq k \leq N}g_k gN=0kNmingk,其中 g k = ∥ ∇ f ( x k ) ∥ g_k=\|\nabla f(x_k)\| gk=f(xk),根据上面的式子可以得到:
g N ∗ ≤ L ω ( f ( x k ) − f ( x k + 1 ) ) ≤ 1 N + 1 ⋅ L ω ( f ( x 0 ) − f ∗ ) ) \begin{aligned} & g^*_{N}\\ & \leq \sqrt{\frac{L}{\omega}(f(x_k)-f(x_{k+1}))}\\ &\leq \sqrt{\frac{1}{N+1} \cdot\frac{L}{\omega} (f(x_0)-f^*))} \end{aligned} gNωL(f(xk)f(xk+1)) N+11ωL(f(x0)f))
从上面的式子可以看出随着 g N ∗ g_{N}^* gN是不断趋于0的。
有上面的这些式子还可以进一步推导得到关于迭代步数的一个下界。
首先假设 f ( x ~ ) ≤ f ( x 0 ) f(\widetilde{x})\leq f(x_0) f(x )f(x0),且 ∥ ∇ f ( x ~ ) ∥ ≤ ϵ \|\nabla f(\widetilde{x})\| \leq \epsilon f(x )ϵ
则上面的式子
g N ∗ ≤ 1 N + 1 ⋅ L ω ( f ( x 0 ) − f ∗ ) ) ≤ ϵ g_N^* \leq \sqrt{\frac{1}{N+1} \cdot\frac{L}{\omega} (f(x_0)-f^*))} \leq \epsilon gNN+11ωL(f(x0)f)) ϵ,如果 N + 1 ≥ 1 ω ϵ 2 ( f ( x 0 ) − f ∗ ) N+1 \geq \frac{1}{\omega \epsilon^2}(f(x_0)-f^*) N+1ωϵ21(f(x0)f),则必然有 g N ∗ ≤ ϵ g_N^* \leq \epsilon gNϵ


针对梯度下降的局部收敛,假设 1. f ∈ C M 2 , 2 ( R ) n ; 1. f\in C_{M}^{2,2}(\mathbb{R})^n; 1.fCM2,2(R)n; 2. 存在函数 f的局部最小化,在这一点上 Hessian矩阵是正定的;3. 已知 x ∗ x^* x关于 Hessian的界, 0 < l < L < ∞ 0\lt l \lt L \lt \infty 0<l<L<,使得 l I n ⪯ ∇ 2 f ( x ∗ ) ⪯ L I n lI_n \preceq \nabla^2 f(x^*) \preceq LI_n lIn2f(x)LIn; 4. 初始点 x 0 x_0 x0 x ∗ x^* x足够近。
因为 ∇ f ( x ∗ ) = 0 \nabla f(x^*)=0 f(x)=0,因此 ∇ f ( x k ) = ∇ f ( x k ) − ∇ f ( x ∗ ) = ∫ 0 1 ∇ 2 f ( x ∗ + τ ( x k − x ∗ ) ) ( x k − x ∗ ) d τ \nabla f(x_k)=\nabla f(x_k)-\nabla f(x^*)=\int_0^1 \nabla^2 f(x^*+\tau (x_k-x^*))(x_k-x^*)d\tau f(xk)=f(xk)f(x)=012f(x+τ(xkx))(xkx)dτ。设 G k = ∫ 0 1 ∇ 2 f ( x ∗ + τ ( x k − x ∗ ) ) d τ G_k=\int_0^1 \nabla^2 f(x^*+\tau (x_k-x^*))d\tau Gk=012f(x+τ(xkx))dτ,因此,上式转化为 ∇ f ( x k ) = G k ⋅ ( x K − x ∗ ) \nabla f(x_k)=G_k\cdot (x_K-x^*) f(xk)=Gk(xKx)

考虑 3.1 中的等式 x k + 1 = x k − h k ∇ f ( x k ) x_{k+1}=x_{k}-h_k \nabla f(x_k) xk+1=xkhkf(xk),那么 x k + 1 − x ∗ = x k − x ∗ − h k G k ( x k − x ∗ ) = ( I − h k G k ) ⋅ ( x k − x ∗ ) x_{k+1}-x^*=x_k-x^*-h_kG_k(x_k-x^*)=(I-h_kG_k)\cdot (x_k-x^*) xk+1x=xkxhkGk(xkx)=(IhkGk)(xkx)
分析上面这个式子的收敛性,使用 收缩映射证明。
令数列 { a k } \{a_k\} {ak}的定义为 a 0 ∈ R n , a k + 1 = A k a k a_0\in \mathbb{R}^n,a_{k+1}=A_ka_k a0Rnak+1=Akak,等式中 A k A_k Ak是一个矩阵, 满足 ∥ A k ∥ ≤ 1 − q \|A_k\|\leq 1-q Ak1q,其中 q ∈ ( 0 , 1 ) q\in (0,1) q(0,1)。那么通过定义中的等式, ∥ a k + 1 ∥ ≤ ( 1 − q ) ∥ a k ∥ ≤ ⋯ ≤ ( 1 − q ) k + 1 ∥ a 0 ∥ \|a_{k+1}\|\leq (1-q)\|a_k\|\leq \dots \leq (1-q)^{k+1}\|a_0\| ak+1(1q)ak(1q)k+1a0,最终,这个不等式趋向于0.
因此,使用这种方法,对上面的的 x k + 1 − x ∗ = ( I − h k G k ) ⋅ ( x k − x ∗ ) x_{k+1}-x^*=(I-h_kG_k)\cdot (x_k-x^*) xk+1x=(IhkGk)(xkx),估计 ∥ I n − h k G k ∥ \|I_n-h_kG_k\| InhkGk
根据凸优化简介4中 3. 部分的不等式,在这边设 r k = ∥ x k − x ∗ ∥ r_k=\|x_k-x^*\| rk=xkx得到:
∇ 2 f ( x ∗ ) − τ M r k I n ⪯ ∇ 2 f ( x ∗ + τ ( x k − x ∗ ) ) ⪯ ∇ 2 f ( x ∗ ) + τ M r k I n \nabla^2 f(x^*)-\tau Mr_kI_n \preceq \nabla^2 f(x^*+\tau (x_k-x^*))\preceq \nabla^2 f(x^*)+\tau Mr_kI_n 2f(x)τMrkIn2f(x+τ(xkx))2f(x)+τMrkIn
然后对上面的式子对 τ \tau τ 0 0 0 1 1 1进行积分,得到:
( l − r k 2 M ) I n ⪯ G k ⪯ ( L + r k 2 M ) I n (l-\frac{r_k}{2}M)I_n \preceq G_k \preceq (L+\frac{r_k}{2}M)I_n (l2rkM)InGk(L+2rkM)In. 在这一步转换中,使用到了已知条件中的第3个条件。
之后,式子可以进一步转换为 ( 1 − h k ( L + r k 2 M ) ) I n ⪯ I n − h k G k ⪯ ( 1 − h k ( l − r k 2 M ) ) I n (1-h_k(L+\frac{r_k}{2}M))I_n \preceq I_n-h_kG_k\preceq (1-h_k(l-\frac{r_k}{2}M))I_n (1hk(L+2rkM))InInhkGk(1hk(l2rkM))In,因此:
∥ I n − h k G k ∥ ≤ m a x { ∣ a k ( h k ) ∣ , ∣ b k ( h k ) ∣ } \|I_n-h_kG_k\|\leq max \{|a_k(h_k)|, |b_k(h_k)|\} InhkGkmax{ak(hk),bk(hk)},其中 a k ( h ) = 1 − h ( l − r k 2 M ) a_k(h)=1-h(l-\frac{r_k}{2}M) ak(h)=1h(l2rkM),并且 b k ( h ) = h ( L + r k 2 M ) − 1 b_k(h)=h(L+\frac{r_k}{2}M)-1 bk(h)=h(L+2rkM)1

如果 r k < r ~ ≡ 2 l M r_k \lt \widetilde{r}\equiv \frac{2l}{M} rk<r M2l,那么 a k ( h ) a_k(h) ak(h) h h h的一个严格下降的函数,并且,对于足够小的 h k h_k hk有: ∥ I n − h k G k ∥ < 1 \|I_n-h_kG_k\|\lt 1 InhkGk<1.
因为上面的等式 x k + 1 − x ∗ = ( I − h k G k ) ⋅ ( x k − x ∗ ) x_{k+1}-x^*=(I-h_kG_k)\cdot (x_k-x^*) xk+1x=(IhkGk)(xkx),因为 ∥ I n − h k G k ∥ < 1 \|I_n-h_kG_k\|\lt 1 InhkGk<1,再结合上面的 收缩映射的证明方式,可以最终得到 r k + 1 < r k r_{k+1} \lt r_k rk+1<rk.
下面考虑优化策略 m a x { ∣ a k ( h ) ∣ , ∣ b − k ( h ) ∣ } → min ⁡ h max\{|a_k(h)|,|b_-k(h)|\}\rightarrow \min \limits_{h} max{ak(h),bk(h)}hmin
优化的步长 h ∗ h^* h通过等式 a k ( h ) = b k ( h ) ⇔ 1 − h ( l − r k 2 M ) = h ( L + r k 2 M ) − 1 a_k(h)=b_k(h)\Leftrightarrow 1-h(l-\frac{r_k}{2}M)=h(L+\frac{r_k}{2}M)-1 ak(h)=bk(h)1h(l2rkM)=h(L+2rkM)1得到,因此, h k ∗ = 2 L + l h_k^*=\frac{2}{L+l} hk=L+l2

根据上面得到的式子, r k + 1 = ∥ I n − h k G k ∥ r k ≤ ( 1 − h ∗ ( l − r k 2 M ) ) r k r_{k+1}=\|I_n-h_kG_k\|r_k \leq (1-h^*(l-\frac{r_k}{2}M))r_k rk+1=InhkGkrk(1h(l2rkM))rk,然后把 h k ∗ = 2 L + l h_k^*=\frac{2}{L+l} hk=L+l2带入得到 r k + 1 = ( L − l ) r k L + l + M r k 2 L + l r_{k+1}=\frac{(L-l)r_k}{L+l}+\frac{Mr_k^2}{L+l} rk+1=L+l(Ll)rk+L+lMrk2。其中中间一步是根据选择 a k ( h ) a_k(h) ak(h) b k ( h ) b_k(h) bk(h)中最大的那一个,由于取到最优步长 h ∗ h^* h时, a k ( h ) = b k ( h ) a_k(h)=b_k(h) ak(h)=bk(h),因此在该式子中可以使用 a k ( h ) a_k(h) ak(h)
下面估计收敛率,设 q = 2 l L + l q=\frac{2l}{L+l} q=L+l2l,且 a k = M L + l r k a_k=\frac{M}{L+l}r_k ak=L+lMrk,其中 a k < q a_k < q ak<q, 因为上面的不等式 r k < 2 l M r_k < \frac{2l}{M} rk<M2l。所以;
a k + 1 ≤ ( 1 − q ) a k + a k 2 = a k ( 1 + ( a k − q ) ) = a k ( 1 − ( a k − q ) 2 ) 1 − ( a k − q ) ≤ a k 1 + q − a k a_{k+1}\leq (1-q)a_k+a^2_k=a_k(1+(a_k-q))=\frac{a_k(1-(a_k-q)^2)}{1-(a_k-q)}\leq \frac{a_k}{1+q-a_k} ak+1(1q)ak+ak2=ak(1+(akq))=1(akq)ak(1(akq)2)1+qakak。因此,对两边取倒数之后, 1 a k + 1 ≥ 1 + q a k − 1 \frac{1}{a_{k+1}}\geq \frac{1+q}{a_k}-1 ak+11ak1+q1。之后两边乘以 q q q再减去1得到:
q a k + 1 − 1 ≥ q ( 1 + q ) a k − 1 − q = ( 1 + q ) ( q a k − 1 ) \frac{q}{a_{k+1}}-1\geq \frac{q(1+q)}{a_k}-1-q=(1+q)(\frac{q}{a_k}-1) ak+1q1akq(1+q)1q=(1+q)(akq1),然后递推到 a 0 a_0 a0得到:
q a k − 1 ≥ ( q + 1 ) k ( q a 0 − 1 ) = ( q + 1 ) k ( 2 l L + l ⋅ L + l r 0 M − 1 ) = ( q + 1 ) k ( r ~ r 0 − 1 ) \frac{q}{a_k}-1\geq (q+1)^k(\frac{q}{a_0}-1)=(q+1)^k(\frac{2l}{L+l}\cdot\frac{L+l}{r_0M}-1)=(q+1)^k(\frac{\widetilde{r}}{r_0}-1) akq1(q+1)k(a0q1)=(q+1)k(L+l2lr0ML+l1)=(q+1)k(r0r 1),因此得到:
a k ≤ q r 0 r 0 + ( 1 + q ) k ( r ~ − r 0 ) ≤ q r 0 r ~ − r 0 ( 1 q + 1 ) k a_k\leq \frac{qr_0}{r_0+(1+q)^k(\widetilde{r}-r_0)}\leq \frac{qr_0}{\widetilde{r}-r_0}(\frac{1}{q+1})^k akr0+(1+q)k(r r0)qr0r r0qr0(q+11)k.

定理:令函数 f ( x ) f(x) f(x)满足假设,且令初始点 x 0 x_0 x0和局部最小足够的近, r 0 = ∥ x 0 − x ∗ ∥ ≤ r ~ = 2 l M r_0=\|x_0-x^*\|\leq \widetilde{r}=\frac{2l}{M} r0=x0xr =M2l,因此使用最佳步长 h ∗ h^* h得到的收敛率为 ∥ x k − x ∗ ∥ ≤ r ~ r 0 r ~ − r 0 ( 1 − 2 l L + 3 l ) k \|x_k-x^*\|\leq \frac{\widetilde{r}r_0}{\widetilde{r}-r_0}(1-\frac{2l}{L+3l})^k xkxr r0r r0(1L+3l2l)k,这种收敛率为线性的。

在上面的 ∥ x k − x ∗ ∥ ≤ r ~ r 0 r ~ − r 0 ( 1 − 2 l L + 3 l ) k \|x_k-x^*\|\leq \frac{\widetilde{r}r_0}{\widetilde{r}-r_0}(1-\frac{2l}{L+3l})^k xkxr r0r r0(1L+3l2l)k不等式的推导,使用到了定理上方的公式。上面已设 r k = ∥ x k − x ∗ ∥ r_k=\|x_k-x^*\| rk=xkx,定理上上面已设 a k = M L + l r k a_k=\frac{M}{L+l}r_k ak=L+lMrk,根据定理上面最后得到的不等式即可推得最后的定理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值