梯度下降的收敛分析

最新推荐文章于 2024-09-04 15:33:47 发布

lhz泽少

最新推荐文章于 2024-09-04 15:33:47 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/li15006474642/article/details/104570485

版权

本文深入探讨了梯度下降法的收敛分析，通过L-Lipschitz定理和凸函数性质，证明了在特定条件下，梯度下降法在经过k次迭代后，解与最优解的差距可以缩小到ε。详细阐述了定理一和定理二，并通过数学推导展示了梯度下降法如何确保每次迭代后的函数值不高于之前的函数值，从而逐步逼近最优解。

摘要由CSDN通过智能技术生成

梯度下降法

1、选择初始值 $x_0$ 和步长 $\eta$

2、循环从1…n:

$\quad\quad x_{i+1}=x_i+\eta\nabla f(x)$

这个就是典型的梯度下降法，也就是不断的循环，直到x收敛，找到最优的 $x$ ，那么迭代多少次才能收敛呢？
今天咱们就分析一下

梯度下降法的收敛分析

梯度下降法的收敛分析，我们常用的定理就是：

假设函数满足L-Lipscthitz条件，并且函数是凸函数，设定： $x^*=argmaxf(x)$ 那么对于步长 $n_t\leq \dfrac{1}{L}$ :

$f(x_k)\leq f(x^*)+\dfrac{||x_0-x^*||^2}{2\eta_tk}$

公式中L表示一个常数， $k$ 表示迭代的次数， $x^*$ 表示最优解，也就是随着迭代次数的增加， $\dfrac{||x_0-x^*||^2}{2\eta_tk}$ 越小表示我们的解也就越接近最优解，比如：第一次迭代 $f(x_1)\leq f(x^*)+20$ ，第23次迭代： $f(x_{23})\leq f(x^*)+0.1$ 我们从公式中可以看出 $f(x_{23})$ 要比 $f(x_1)$ 要更加接近 $f(x^*)$