梯度下降

最新推荐文章于 2024-07-22 09:16:52 发布

做技术不可耻

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量117

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_40019838/article/details/97270235

版权

梯度下降

梯度下降法是最常用的一阶优化方法，用于求解无约束优化问题。

考虑无约束优化问题 $min_{\boldsymbol{x}}f(\pmb{x})$ ，其中 $f(\pmb{x})$ 为连续可微函数，若能构造一个序列 $\pmb{x}_0,\pmb{x}_1,\pmb{x}_2$ …满足
$f(\pmb{x}_{t+1})<f(\pmb{x}_t) \quad t=0,1,2...$
则不断执行该过程即可收敛到局部极小点，根据泰勒公式，函数 $f(\pmb{x}+\Delta \pmb{x})$ 在 $\pmb{x}$ 处的泰勒展开为：
$f(\pmb{x}+ \Delta \pmb{x}) \approx f(\pmb{x})+\nabla f(\pmb{x})^T\Delta \pmb{x} \tag{1}$
其中 $f(\pmb{x})$ 已知，要满足 $f(\pmb{x}+ \Delta \pmb{x}) < f(\pmb{x})$ ，只需令 $\nabla f(\pmb{x})^T\Delta \pmb{x}<0$ ，同时为了更快的收敛到局部极小点， $f(\pmb{x}+ \Delta \pmb{x})$ 应尽量小，注意到式(1)的右边第二项是 $\nabla f(\pmb{x})$ 与 $\Delta \pmb{x}$ 的内积，那么只需令 $\Delta \pmb{x}$ 与 $\nabla f(\pmb{x})$ 的方向相反， $f(\pmb{x})$ 将以最快的速度下降(反之则以最快的速度上升，这就是为什么梯度的方向是函数值增长最快的方向)，现实中通常取
$\Delta \pmb{x}=-\gamma \nabla f(\pmb{x})\quad \gamma>0$
其中 $\gamma$ 是步长，步长的设置需合理，若过小可能收敛速度慢，若过大可能会在局部极小点附近振荡无法收敛。
下面以 $f(x)=x^2$ 为例，看一下收敛过程。
当 $\gamma=0.2$ 时，整个梯度下降的收敛路径如下所示。
在这里插入图片描述
不妨减小步长，令 $\gamma=0.05$ ，此时路径如下所示。

再看看增大步长，令 $\gamma=0.9$ 。

能够明显的看到在极值点附近振荡。为保证一定能收敛 $\gamma$ 可以适当小一点，在实际使用时 $\gamma$ 通常取 $0.05\sim0.1$

做技术不可耻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降

梯度下降梯度下降法是最常用的一阶优化方法，用于求解无约束优化问题。考虑无约束优化问题minxf(x)min_{\pmb{x}}f(\pmb{x})minxxxf(xxx)，其中f(x)f(\pmb{x})f(xxx)为连续可微函数，若能构造一个序列x0,x1,x2\pmb{x}_0,\pmb{x}_1,\pmb{x}_2xxx0,xxx1,xxx2…满足f(xt+1)&lt;...
复制链接

扫一扫