梯度下降算法

最新推荐文章于 2022-06-19 01:10:18 发布

hhjhh76

最新推荐文章于 2022-06-19 01:10:18 发布

阅读量649

点赞数

分类专栏：机器学习文章标签：梯度下降算法

本文链接：https://blog.csdn.net/hhjhh76/article/details/81909419

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一.梯度下降算法的推导

在深度网络的训练过程中，为了使损失尽可能的小，经常使用梯度下降算法训练网络，为什么沿着负梯度的方向更新权值就能使损失值越来越小，下面给出梯度下降算法的简要推导。

已知函数f(x),当前x取值 $x_0$ ,令 $x_{1}=x_{0}+\lambda\vec n$ ,则：
$f(x_{1})= f(x_{0}+\lambda\vec n)$
            $=f(x_{0})+f^{'}(x_{0})\cdot\lambda\vec n+O(\lambda\vec n)^{2}$
            $\approx f(x_{0}) +f^{'}(x_{0})\cdot \lambda\vec n$
            $=f(x_0)+\lambda|f^{'}(x_{0})|\cdot|\vec n|\cdot\cos<f^{'}(x_{0}),\vec n>$
当 $\cos<f^{'}(x_{0}),\vec n>=-1$ ,即 $\vec n$ 与 $f^{’}(x_{0})$ 成 $180^{。}$ ，即 $\vec n$ 取负梯度方向时， $f(x_{1})$ 取最小值
$min(f(x_{1}))=f(x_{0})-\lambda|f^{'}(x_{0})|\cdot|\vec n|$

只有当函数为凸函数时梯度下降算法才能保证达到全局最小值，在凹函数中沿着梯度方向可以到达局部最小值，是否能到达全局最小值和初始点 $x_{0}$ 的取值有关

二.梯度下降算法的分类

梯度下降算法：在全部数据上最小化损失，损失函数的取值是所有训练数据上的损失，每轮迭代计算所有的损失函数非常耗时。
随机梯度下降算法：每一轮迭代中随机选择某一条训练数据上的损失来优化参数，但在某一条数据上损失更小并不代表在全部数据上损失更小，使用随机梯度下降可能无法达到局部最优。
batch梯度下降算法：上面两种方法的折中。每次在一个batch上优化神经网络的参数并不会比单个数据慢太多，也可以大大减少收敛所需的迭代次数，同时使收敛到的结果更加接近梯度下降算法的效果。