[优化算法]梯度下降法-强凸函数的收敛性分析


参考学习视频如下:
B站大佬

1. [优化算法] 梯度下降法-强凸函数的收敛性分析(上)

1.1 概述

  • f f f有下界,m-强凸,可微
  • ∇ f \nabla f f L − L i p s c h i t z L-Lipschitz LLipschitz连续
  • α ∈ ( 0 , 2 L + m ) \alpha \in (0,\frac{2}{L+m}) α(0,L+m2)

{ x k } → Q − 线性收敛 x ∗ \{x_k \}\xrightarrow[]{Q-线性收敛}x^* {xk}Q线性收敛 x

1.2 证明

如果我们要证明 { x k } \{x_k \} {xk}线性收敛,那么就需要证明:
∣ ∣ x k + 1 − x ∗ ∣ ∣ ∣ ∣ x k − x ∗ ∣ ∣ = c , c ∈ ( 0 , 1 ) \begin{equation} \frac{||x_{k+1}-x^*||}{||x_{k}-x^*||}=c,c \in(0,1) \end{equation} ∣∣xkx∣∣∣∣xk+1x∣∣=c,c(0,1)

我们定义梯度下降法表示如下: α k \alpha_k αk表示步长, p k p_k pk表示方向
x k + 1 = x k − α ∇ f ( x k ) \begin{equation} x_{k+1}=x_k-\alpha\nabla f(x_k) \end{equation} xk+1=xkαf(xk)

  • 那么可得:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ 2 = ∣ ∣ x k − α k ∇ f ( x k ) − x ∗ ∣ ∣ 2 = ∣ ∣ x k − x ∗ ∣ ∣ 2 − 2 α k ∇ f T ( x k ) ( x k − x ∗ ) + α k 2 ∣ ∣ ∇ f ( x k ) ∣ ∣ 2 \begin{equation} ||x_{k+1}-x^*||^2=||x_k-\alpha_k\nabla f(x_k)-x^*||^2=||x_k-x^*||^2-2\alpha_k\nabla f^T(x_k)(x_k-x^*)+\alpha_k^2||\nabla f(x_k)||^2 \end{equation} ∣∣xk+1x2=∣∣xkαkf(xk)x2=∣∣xkx22αkfT(xk)(xkx)+αk2∣∣∇f(xk)2
  • 我们知道在 x ∗ x^* x上的梯度为0,则 ∇ f T ( x ∗ ) = 0 \nabla f^T(x^*)=0 fT(x)=0,整理上述公式可得:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ 2 = ∣ ∣ x k − x ∗ ∣ ∣ 2 − 2 α k [ ∇ f T ( x k ) − ∇ f T ( x ∗ ) ] ( x k − x ∗ ) + α k 2 ∣ ∣ ∇ f ( x k ) ∣ ∣ 2 \begin{equation} ||x_{k+1}-x^*||^2=||x_k-x^*||^2-2\alpha_k[\nabla f^T(x_k)-\nabla f^T(x^*)](x_k-x^*)+\alpha_k^2||\nabla f(x_k)||^2 \end{equation} ∣∣xk+1x2=∣∣xkx22αk[fT(xk)fT(x)](xkx)+αk2∣∣∇f(xk)2
  • 定义 g ( x ) g(x) g(x)函数如下:
    g ( x ) ≜ f ( x ) − 1 2 m x T x ; ∇ g ( x ) = ∇ f ( x ) − m x \begin{equation} g(x)\triangleq f(x)-\frac{1}{2}mx^Tx;\nabla g(x)=\nabla f(x)-mx \end{equation} g(x)f(x)21mxTx;g(x)=f(x)mx
  • 因为 f是m-强凸函数,所以可得 g(x)也是凸的,因为f是可微的,所以g也是可微的。
    h ( x ) ≜ 1 2 L x T x − f ( x ) → h ( x ) 为凸函数 \begin{equation} h(x)\triangleq \frac{1}{2}Lx^Tx-f(x)\rightarrow h(x)为凸函数 \end{equation} h(x)21LxTxf(x)h(x)为凸函数
  • 整理可得:
    h ( x ) = 1 2 L x T x − 1 2 m x T x − g ( x ) = 1 2 ( L − m ) x T x − g ( x ) \begin{equation} h(x)=\frac{1}{2}Lx^Tx-\frac{1}{2}mx^Tx-g(x)=\frac{1}{2}(L-m)x^Tx-g(x) \end{equation} h(x)=21LxTx21mxTxg(x)=21(Lm)xTxg(x)
    h ( x ) = 1 2 ( L − m ) x T x − g ( x ) \begin{equation} h(x)=\frac{1}{2}(L-m)x^Tx-g(x) \end{equation} h(x)=21(Lm)xTxg(x)
  • 由于 g ( x ) , 1 2 ( L − m ) x T x − g ( x ) g(x),\frac{1}{2}(L-m)x^Tx-g(x) g(x),21(Lm)xTxg(x)为凸函数,
  • 白老爹定理 白老爹定理 条件2 --> 条件3,可得: ∇ g ( x ) 满足余强制性 \nabla g(x)满足余强制性 g(x)满足余强制性
    ( ∇ g ( x ) − ∇ g ( y ) ) T ( x − y ) ≥ 1 L − m ∣ ∣ ∇ g ( x ) − ∇ g ( y ) ∣ ∣ 2 \begin{equation} (\nabla g(x)-\nabla g(y))^T(x-y)\ge \frac{1}{L-m}||\nabla g(x)-\nabla g(y)||^2 \end{equation} (g(x)g(y))T(xy)Lm1∣∣∇g(x)g(y)2
  • ∇ g ( x ) = ∇ f ( x ) − m x \nabla g(x)=\nabla f(x)-mx g(x)=f(x)mx代入可得:
    [ ∇ f ( x ) − ∇ f ( y ) − m ( x − y ) ] T ( x − y ) ≥ 1 L − m [ ∇ f ( x ) − ∇ f ( y ) − m ( x − y ) ] 2 \begin{equation} [\nabla f(x)-\nabla f(y)-m(x-y)]^T(x-y)\ge \frac{1}{L-m}[\nabla f(x)-\nabla f(y)-m(x-y)]^2 \end{equation} [f(x)f(y)m(xy)]T(xy)Lm1[f(x)f(y)m(xy)]2
  • 分解可得:
    [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) − m ( x − y ) T ( x − y ) ≥ 1 L − m [ ∇ f ( x ) − ∇ f ( y ) − m ( x − y ) ] 2 \begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)-m(x-y)^T(x-y)\ge \frac{1}{L-m}[\nabla f(x)-\nabla f(y)-m(x-y)]^2 \end{equation} [f(x)f(y)]T(xy)m(xy)T(xy)Lm1[f(x)f(y)m(xy)]2
    [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) − m ∣ ∣ x − y ∣ ∣ 2 ≥ 1 L − m [ ∇ f ( x ) − ∇ f ( y ) − m ( x − y ) ] 2 \begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)-m||x-y||^2\ge \frac{1}{L-m}[\nabla f(x)-\nabla f(y)-m(x-y)]^2 \end{equation} [f(x)f(y)]T(xy)m∣∣xy2Lm1[f(x)f(y)m(xy)]2
  • 将右边展开可得:
    Q ( x ) = 1 L − m [ ∇ f ( x ) − ∇ f ( y ) ] 2 + 1 L − m m 2 ( x − y ) 2 − 2 L − m [ ∇ f ( x ) − ∇ f ( y ) ] T m ( x − y ) \begin{equation} Q(x)= \frac{1}{L-m}[\nabla f(x)-\nabla f(y)]^2+\frac{1}{L-m}m^2(x-y)^2- \frac{2}{L-m}[\nabla f(x)-\nabla f(y)]^Tm(x-y) \end{equation} Q(x)=Lm1[f(x)f(y)]2+Lm1m2(xy)2Lm2[f(x)f(y)]Tm(xy)
  • 整理可得:
    [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) − m ∣ ∣ x − y ∣ ∣ 2 ≥ Q ( x ) \begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)-m||x-y||^2\ge Q(x) \end{equation} [f(x)f(y)]T(xy)m∣∣xy2Q(x)
  • 整理后可得:
    ( 1 + 2 m L − m ) [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) − m ∣ ∣ x − y ∣ ∣ 2 ≥ [ ∇ f ( x ) − ∇ f ( y ) ] 2 + m 2 ∣ ∣ x − y ∣ ∣ 2 L − m \begin{equation} (1+\frac{2m}{L-m})[\nabla f(x)-\nabla f(y)]^T(x-y)-m||x-y||^2\ge \frac{[\nabla f(x)-\nabla f(y)]^2+m^2||x-y||^2}{L-m} \end{equation} (1+Lm2m)[f(x)f(y)]T(xy)m∣∣xy2Lm[f(x)f(y)]2+m2∣∣xy2
  • 进一步整理可得:
    ( 1 + 2 m L − m ) [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) ≥ [ ∇ f ( x ) − ∇ f ( y ) ] 2 L − m + ( m + m 2 L − m ) ∣ ∣ x − y ∣ ∣ 2 \begin{equation} (1+\frac{2m}{L-m})[\nabla f(x)-\nabla f(y)]^T(x-y)\ge \frac{[\nabla f(x)-\nabla f(y)]^2}{L-m}+(m+\frac{m^2}{L-m})||x-y||^2 \end{equation} (1+Lm2m)[f(x)f(y)]T(xy)Lm[f(x)f(y)]2+(m+Lmm2)∣∣xy2
  • 整理系数可得:
    [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) ≥ [ ∇ f ( x ) − ∇ f ( y ) ] 2 L + m + L m L + m ∣ ∣ x − y ∣ ∣ 2 \begin{equation} [\nabla f(x)-\nabla f(y)]^T(x-y)\ge \frac{[\nabla f(x)-\nabla f(y)]^2}{L+m}+\frac{Lm}{L+m}||x-y||^2 \end{equation} [f(x)f(y)]T(xy)L+m[f(x)f(y)]2+L+mLm∣∣xy2
  • x = x k , y = x ∗ x=x_k,y=x^* x=xk,y=x代入上式可得:
    [ ∇ f ( x k ) − ∇ f ( x ∗ ) ] T ( x k − x ∗ ) ≥ [ ∇ f ( x k ) − ∇ f ( x ∗ ) ] 2 L + m + L m L + m ∣ ∣ x k − x ∗ ∣ ∣ 2 \begin{equation} [\nabla f(x_k)-\nabla f(x^*)]^T(x_k-x^*)\ge \frac{[\nabla f(x_k)-\nabla f(x^*)]^2}{L+m}+\frac{Lm}{L+m}||x_k-x^*||^2 \end{equation} [f(xk)f(x)]T(xkx)L+m[f(xk)f(x)]2+L+mLm∣∣xkx2
  • 我们定义过如下公式:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ 2 = ∣ ∣ x k − x ∗ ∣ ∣ 2 − 2 α k [ ∇ f T ( x k ) − ∇ f T ( x ∗ ) ] T ( x k − x ∗ ) + α k 2 ∣ ∣ ∇ f ( x k ) ∣ ∣ 2 \begin{equation} ||x_{k+1}-x^*||^2=||x_k-x^*||^2-2\alpha_k[\nabla f^T(x_k)-\nabla f^T(x^*)]^T(x_k-x^*)+\alpha_k^2||\nabla f(x_k)||^2 \end{equation} ∣∣xk+1x2=∣∣xkx22αk[fT(xk)fT(x)]T(xkx)+αk2∣∣∇f(xk)2
  • 整理后可得:
    [ ∇ f ( x k ) − ∇ f ( x ∗ ) ] T ( x k − x ∗ ) = 1 2 α k [ ∣ ∣ x k − x ∗ ∣ ∣ 2 + α k 2 ∣ ∣ ∇ f ( x k ) ∣ ∣ 2 − ∣ ∣ x k + 1 − x ∗ ∣ ∣ 2 ] \begin{equation} [\nabla f(x_k)-\nabla f(x^*)]^T(x_k-x^*)=\frac{1}{2\alpha_k}[||x_k-x^*||^2+\alpha_k^2||\nabla f(x_k)||^2-||x_{k+1}-x^*||^2] \end{equation} [f(xk)f(x)]T(xkx)=2αk1[∣∣xkx2+αk2∣∣∇f(xk)2∣∣xk+1x2]
  • 代入到不等式可得:
    1 2 α k [ ∣ ∣ x k − x ∗ ∣ ∣ 2 + α k 2 ∣ ∣ ∇ f ( x k ) ∣ ∣ 2 − ∣ ∣ x k + 1 − x ∗ ∣ ∣ 2 ] ≥ [ ∇ f ( x k ) − ∇ f ( x ∗ ) ] 2 L + m + L m L + m ∣ ∣ x k − x ∗ ∣ ∣ 2 \begin{equation} \frac{1}{2\alpha_k}[||x_k-x^*||^2+\alpha_k^2||\nabla f(x_k)||^2-||x_{k+1}-x^*||^2]\ge \frac{[\nabla f(x_k)-\nabla f(x^*)]^2}{L+m}+\frac{Lm}{L+m}||x_k-x^*||^2 \end{equation} 2αk1[∣∣xkx2+αk2∣∣∇f(xk)2∣∣xk+1x2]L+m[f(xk)f(x)]2+L+mLm∣∣xkx2
  • 因为: α ∈ ( 0 , 2 L + m ) \alpha \in (0,\frac{2}{L+m}) α(0,L+m2)
    α k 2 ∣ ∣ ∇ f ( x k ) ∣ ∣ 2 − [ ∇ f ( x k ) ] 2 L + m ≤ 0 \begin{equation} \frac{\alpha_k}{2}||\nabla f(x_k)||^2- \frac{[\nabla f(x_k)]^2}{L+m}\le 0 \end{equation} 2αk∣∣∇f(xk)2L+m[f(xk)]20
  • 所以缩放可得:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ 2 ≤ ( 1 − 2 α L m L + m ) ∣ ∣ x k − x ∗ ∣ ∣ 2 \begin{equation} ||x_{k+1}-x^*||^2\le(1-\frac{2\alpha Lm}{L+m})||x_k-x^*||^2 \end{equation} ∣∣xk+1x2(1L+m2αLm)∣∣xkx2
  • 显然 ( 1 − 2 α L m L + m ) < 1 (1-\frac{2\alpha Lm}{L+m})<1 (1L+m2αLm)<1
  • 因为: α ∈ ( 0 , 2 L + m ) \alpha \in (0,\frac{2}{L+m}) α(0,L+m2)
    1 − 2 α L m L + m > 1 − 4 L m ( L + m ) 2 = ( L − m ) 2 ( L + m ) 2 > 0 \begin{equation} 1-\frac{2\alpha Lm}{L+m}>1-\frac{4Lm}{(L+m)^2}=\frac{(L-m)^2}{(L+m)^2}>0 \end{equation} 1L+m2αLm>1(L+m)24Lm=(L+m)2(Lm)2>0
  • 所以可得, L ≠ m L\ne m L=m时:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ 2 ≤ c ∣ ∣ x k − x ∗ ∣ ∣ 2 ; c = ( 1 − 2 α L m L + m ) , 0 < c < 1 \begin{equation} ||x_{k+1}-x^*||^2\le c||x_k-x^*||^2;c=(1-\frac{2\alpha Lm}{L+m}), 0<c<1 \end{equation} ∣∣xk+1x2c∣∣xkx2c=(1L+m2αLm),0<c<1
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ ≤ c ∣ ∣ x k − x ∗ ∣ ∣ ; c = ( 1 − 2 α L m L + m ) , 0 < c < 1 \begin{equation} ||x_{k+1}-x^*||\le \sqrt{c}||x_k-x^*||;c=(1-\frac{2\alpha Lm}{L+m}), 0<\sqrt{c}<1 \end{equation} ∣∣xk+1x∣∣c ∣∣xkx∣∣c=(1L+m2αLm),0<c <1
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ ∣ ∣ x k − x ∗ ∣ ∣ ≤ ( 1 − 2 α L m L + m ) 1 2 ; c = ( 1 − 2 α L m L + m ) , 0 < c < 1 \begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (1-\frac{2\alpha Lm}{L+m})^{\frac{1}{2}};c=(1-\frac{2\alpha Lm}{L+m}), 0<\sqrt{c}<1 \end{equation} ∣∣xkx∣∣∣∣xk+1x∣∣(1L+m2αLm)21c=(1L+m2αLm),0<c <1
    { x k } → Q − 线性收敛 x ∗ \{x_k \}\xrightarrow[]{Q-线性收敛}x^* {xk}Q线性收敛 x
    ! ! ! 完结撒花 ! ! ! !!!完结撒花!!! !!!完结撒花!!!

2. [优化算法] 梯度下降法-强凸函数的收敛性分析(下)

2.1 概述

  1. f f f 有下界,m-强凸,二阶可微
  2. ∇ f \nabla f f是L-Lipschitz连续
  3. α ∈ ( 0 , 2 L + m ) \alpha \in(0,\frac{2}{L+m}) α(0,L+m2)
    可得:
    { x k } → Q − 线性收敛 x ∗ \{x_k \}\xrightarrow[]{Q-线性收敛}x^* {xk}Q线性收敛 x
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ ∣ ∣ x k − x ∗ ∣ ∣ ≤ ( 1 − 2 α L m L + m ) 1 2 \begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (1-\frac{2\alpha Lm}{L+m})^{\frac{1}{2}} \end{equation} ∣∣xkx∣∣∣∣xk+1x∣∣(1L+m2αLm)21

2.2 证明

  • 由 f 是m-强凸可得,二阶可微
    ∇ 2 f ⪰ m I → ∇ 2 f − m I 为半正定矩阵 \begin{equation} \nabla^2 f\succeq mI \rightarrow \nabla^2 f- mI 为半正定矩阵 \end{equation} 2fmI2fmI为半正定矩阵

  • ∇ f \nabla f f是L-Lipschitz连续,二阶可微可得:
    ∇ 2 f ⪯ L I , 即 [ L I − ∇ 2 f ] 为半正定矩阵 \begin{equation} \nabla^2 f\preceq LI,即 [LI-\nabla^2 f]为半正定矩阵 \end{equation} 2fLI,[LI2f]为半正定矩阵

  • 综上所述可得:
    m I ⪯ ∇ 2 f ⪯ L I \begin{equation} mI\preceq \nabla^2 f\preceq LI \end{equation} mI2fLI

  • 因为 ∇ 2 f \nabla^2f 2f是对称正定的矩阵,可以进行正交分解可得
    ∇ 2 f = Q Λ Q T , Λ = [ λ 1 λ 2 ⋱ λ n ] , λ 1 ≥ λ 2 ≥ ⋯ ≥ λ n \begin{equation} \nabla^2 f=Q\Lambda Q^T,\Lambda=\begin{bmatrix}\lambda_1\\\\&\lambda_2\\\\&&\ddots\\\\&&&\lambda_n\end{bmatrix},\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_n \end{equation} 2f=QΛQT,Λ= λ1λ2λn ,λ1λ2λn

  • 化简如下公式可得:
    ∇ 2 f − m I = Q Λ Q − 1 − Q m I Q − 1 = Q [ λ 1 − m λ 2 − m ⋱ λ n − m ] Q − 1 ≥ 0 \begin{equation} \nabla^2 f- mI =Q\Lambda Q^{-1}-QmIQ^{-1}=Q \begin{bmatrix}\lambda_1-m\\\\&\lambda_2-m\\\\&&\ddots\\\\&&&\lambda_n-m\end{bmatrix}Q^{-1}\ge0 \end{equation} 2fmI=QΛQ1QmIQ1=Q λ1mλ2mλnm Q10

  • 所以可得:
    λ i − m ≥ 0 , ∀ i = 1 , 2 , ⋯   , n → λ m i n = λ n ≥ m \begin{equation} \lambda_i-m\ge0,\forall i=1,2,\cdots,n\rightarrow \lambda_{min}=\lambda_n\ge m \end{equation} λim0,i=1,2,,nλmin=λnm

  • 根据如下条件
    m I ⪯ ∇ 2 f ⪯ L I \begin{equation} mI\preceq \nabla^2 f\preceq LI \end{equation} mI2fLI

  • 可得:
    λ m a x = λ n ≤ L \begin{equation} \lambda_{max}=\lambda_n\le L \end{equation} λmax=λnL

  • 综上所述:
    0 < m ≤ λ m i n ≤ λ m a x ≤ L \begin{equation} 0<m\le\lambda_{min}\le \lambda_{max}\le L \end{equation} 0<mλminλmaxL

  • 不妨令 L = λ m a x , m = λ m i n , α = 1 L L=\lambda_{max},m=\lambda_{min},\alpha=\frac{1}{L} L=λmax,m=λmin,α=L1,代入公式可得:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ ∣ ∣ x k − x ∗ ∣ ∣ ≤ ( λ m a x − λ m i n λ m a x + λ m i n ) 1 2 = ( λ m a x / λ m i n − 1 λ m a x / λ m i n + 1 ) 1 2 \begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (\frac{\lambda_{max}-\lambda_{min}}{\lambda_{max}+\lambda_{min}})^{\frac{1}{2}}=(\frac{\lambda_{max}/\lambda_{min}-1}{\lambda_{max}/\lambda_{min}+1})^{\frac{1}{2}} \end{equation} ∣∣xkx∣∣∣∣xk+1x∣∣(λmax+λminλmaxλmin)21=(λmax/λmin+1λmax/λmin1)21

  • 我们定义 ∇ 2 f \nabla^2f 2f的条件数表示如下:
    K ( ∇ 2 f ) = λ m a x λ m i n \begin{equation} \mathbb{K}(\nabla^2f)=\frac{\lambda_{max}}{\lambda_{min}} \end{equation} K(2f)=λminλmax

  • 那么综上所述可得:
    ∣ ∣ x k + 1 − x ∗ ∣ ∣ ∣ ∣ x k − x ∗ ∣ ∣ ≤ ( K ( ∇ 2 f ) − 1 K ( ∇ 2 f ) + 1 ) 1 2 \begin{equation} \frac{||x_{k+1}-x^*||}{||x_k-x^*||}\le (\frac{\mathbb{K}(\nabla^2f)-1}{\mathbb{K}(\nabla^2f)+1})^{\frac{1}{2}} \end{equation} ∣∣xkx∣∣∣∣xk+1x∣∣(K(2f)+1K(2f)1)21

  • K ( ∇ 2 f ) → ∞ \mathbb{K}(\nabla^2f)\to \infty K(2f)时,称作病态问题
    lim ⁡ K ( ∇ 2 f ) → ∞ ( K ( ∇ 2 f ) − 1 K ( ∇ 2 f ) + 1 ) 1 2 = 1 \begin{equation} \lim_{\mathbb{K}(\nabla^2f)\to \infty}(\frac{\mathbb{K}(\nabla^2f)-1}{\mathbb{K}(\nabla^2f)+1})^{\frac{1}{2}}=1 \end{equation} K(2f)lim(K(2f)+1K(2f)1)21=1

  • 19
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机梯度下降法是一种迭代优化算法,它可以用于求解目标函数的极小值。在每次迭代中,随机梯度下降法会根据当前的参数值和一个随机选择的样本计算梯度,并按照一定的步长更新参数。由于每次迭代中只使用了一个样本,所以随机梯度下降法收敛速度比批量梯度下降法更快。 后验停机准则是一种判断随机梯度下降法是否收敛的方法。它的基本思想是检查目标函数值的变化是否足够小,如果是,则认为随机梯度下降法已经收敛。具体来说,后验停机准则的步骤如下: 1. 初始化参数 $\theta_0$。 2. 对于每个 $t=1,2,\dots$,执行以下步骤: - 从样本集中随机选择一个样本 $(x^{(i)}, y^{(i)})$。 - 计算梯度 $\nabla_{\theta} \mathcal{L}(\theta_{t-1}, x^{(i)}, y^{(i)})$。 - 更新参数 $\theta_t = \theta_{t-1} - \eta_t \nabla_{\theta} \mathcal{L}(\theta_{t-1}, x^{(i)}, y^{(i)})$。 - 计算目标函数值 $f(\theta_t)$。 - 如果 $|f(\theta_t) - f(\theta_{t-1})| \leq \epsilon$,则停止迭代。 其中,$\epsilon$ 是预设的一个小正数,$\eta_t$ 是学习率。后验停机准则的正确性基于随机梯度下降法收敛性,即当学习率 $\eta_t$ 满足一定条件时,随机梯度下降法能够收敛到目标函数的极小值。 具体来说,当目标函数是凸函数时,随机梯度下降法具有全局收敛性,即无论初始值如何选择,随机梯度下降法都能够收敛到唯一的极小值。而当目标函数是凸函数时,随机梯度下降法具有更快的收敛速度,即它的迭代次数与目标函数值的下降率成指数关系。因此,后验停机准则在实践中是一种有效的判断随机梯度下降法是否收敛的方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值