深度学习-*-梯度优化算法及代码实例

最新推荐文章于 2024-06-12 09:11:00 发布

Leo蓝色

最新推荐文章于 2024-06-12 09:11:00 发布

阅读量1.2k

点赞数

分类专栏：深度学习机器学习文章标签：梯度下降机器学习深度学习最优化

本文链接：https://blog.csdn.net/u013894072/article/details/83180662

版权

1 梯度下降简单说明

想必大家对梯度下降或多或少有所了解，这里对他的原理就不再多说（其他教程说的比我好多了），只给出下列公式（按照吴恩达的深度学习课程中的公式）： $W:=W-\alpha*dW$ $b:=b-\alpha*db$
上述公式中dW与db为权重W与偏置b的梯度方向， $\alpha$ 为步长/学习速率，即一个超参。我们的任务就是通过大量数据的学习，来逼近真实的W和b。

1.1 随机梯度下降

该方法简写做SGD。通常，在数据集较少的情况下，我们一般使用批梯度下降，也就是用所有的数据集来进行求解。当数据量较多时，批梯度下降就不再适合，因为速度超级慢。所以我们在每次迭代时随机选取一个样本点来进行权重W、偏置b的更新。这样能保证权重随着迭代不断地逼近真实值。但要警惕，每次只是依靠当前一个数据集，容易陷入局部极小。

1.2 Mini-Batch梯度下降

此种方法可以看做批梯度下降与SGD的折中方法：在SGD中每次迭代时，不是选取1个样本点，而是选取M个样本点来进行梯度下降。此种方法的好处在于：若数据集中有一些噪音数据，可以有效的平均噪音数据的影响，一定程度上避免陷入局部极小值。据吴恩达深度学习课程介绍，M的选取也是有经验借鉴的。若数据集数量N<=2000,则M=1即可。若N很大，那么M的取值可以取2的K次方，即M={32,64,128,256,512}。

1.3 Momentum梯度下降

在说明此种方法之前，首先需要了解什么是指数加权平均。
假设有数据 $d_{1},d_{2},...,d_{100}$ ，他们的平均数为：
则 $a_{100}=\frac{d_{1}+d_{2}+...+d_{100}}{100} \ (1.1)$
若我们按照公式：
$v_{100}=\beta*v_{99}+(1-\beta)*d_{100}$
$v_{99}=\beta*v_{98}+(1-\beta)*d_{99}$
$. . .$
$v_{1}=\beta*v_{0}+(1-\beta)*d_{1}$
对第一式化简可得 $v_{100}=(1-\beta)*d_{100}+(1-\beta)*\beta*d_{99}+(1-\beta)*\beta^2*d_{98}+...+(1-\beta)*\beta^{99}*d_{1} \ (1.2)$
通过（1.1）（1.2）之间的比较可以看到，（1.1）中每一项的权重都是一样的，也就是说每一项对平均值的贡献同样重要。而（1.2）中，每一项都不同，尤其是各数值的加权影响力随时间呈指数式递减，时间越靠近当前时刻的数据加权影响力越大。一般我们取 $\beta$ 为0.9（详细的介绍请看下面参考文献）
把该思想应用到梯度下降中，就发明了动量梯度下降（Momentum），在每次迭代时需要先计算一下当前的动量梯度，然后用此动量梯度来进行更新权重。注意：我们需要设定初始的动量梯度 $v_{0}$ 为0，此为冷启动问题，有时为了消除0的影响需要进行偏差修正：每次得到的 $v$ 除以

最低0.47元/天解锁文章

Leo蓝色

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习-*-梯度优化算法及代码实例

1 梯度下降算法想必大家对梯度下降或多或少有所了解，这里对他的原理就不再多说（其他教程说的比我好多了），只给出下列公式（按照吴恩达的深度学习课程中的公式）：W:=W−α∗dWW:=W-\alpha*dWW:=W−α∗dW b:=b−α∗dbb:=b-\alpha*dbb:=b−α∗db上述公式中dW与db为参数W与偏置b的梯度方向，α\alphaα为步长/学习速率，即一个超参。我们的任务就是通...
复制链接

扫一扫

专栏目录