深度学习常用优化方法

最新推荐文章于 2022-05-31 21:57:37 发布

lpppcccc

最新推荐文章于 2022-05-31 21:57:37 发布

阅读量792

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41332469/article/details/89811197

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

以下方法都是总结吴恩达深度学习课程的方法。

（1）梯度下降

batch-GD（size=m）：速度比较慢，但每一次都是最优方向；
随机梯度下降（size=1）：不能用向量加速，相对来说速度慢，而且最后只会在最优值附近徘徊；
mini-batch（size=16,32,64,128）：速度较快，虽然也会在最优值之间徘徊，但是可以调整学习率使得到达最优值；

（2）动量梯度下降（Momentum）

动量法实际是利用加权指数平均将过去的梯度考虑在内，从而使的更新过程更加平滑
算法实现：
Vdw和Vdb初始化为零，β常用的值是0.9（上一时刻的权重）。

在我们进行动量梯度下降算法的时候，由于使用了指数加权平均的方法。原来在纵轴方向上的上下波动，经过平均以后，接近于0，纵轴上的波动变得非常的小；但在横轴方向上，所有的微分都指向横轴方向，因此其平均值仍然很大。最终实现红色线所示的梯度下降曲线。

（3）RMS-prob

除了上面所说的Momentum梯度下降法，RMSprop（root mean square prop）也是一种可以加快梯度下降的算法。同样算法的样例实现如下图所示：
在这里插入图片描述这里假设参数b的梯度处于纵轴方向，参数w的梯度处于横轴方向（当然实际中是处于高维度的情况），利用RMSprop算法，可以减小某些维度梯度更新波动较大的情况(我们希望w方向，也就是水平方向快一点，b方向，也就是垂直方向慢一点)，如图中蓝色线所示，使其梯度下降的速度变得更快，如图绿色线所示。
在如图所示的实现中，RMSprop将微分项进行平方，然后使用平方根进行梯度更新（将曲线变得平滑），同时为了确保算法不会除以0，平方根分母中在实际使用会加入一个很小的值如ε=10−8。

（4）Adam（ Adaptive Moment Estimation ）

Adam 优化算法的基本思想就是将 Momentum 和 RMSprop 结合起来形成的一种适用于不同深度学习结构（应用广泛且有效）的优化算法。
在这里插入图片描述

（5）学习率的衰减

在我们利用 mini-batch 梯度下降法来寻找Cost function的最小值的时候，如果我们设置一个固定的学习速率α，则算法在到达最小值点附近后，由于不同batch中存在一定的噪声，使得不会精确收敛，而一直会在一个最小值点较大的范围内波动，如下图中蓝色线所示。
但是如果我们使用学习率衰减，逐渐减小学习速率α，在算法开始的时候，学习速率还是相对较快，能够相对快速的向最小值点的方向下降。但随着α的减小，下降的步伐也会逐渐变小，最终会在最小值附近的一块更小的区域里波动，如图中绿色线所示。
在这里插入图片描述

（6）局部最优问题

在低维度的情形下，我们可能会想象到一个Cost function 如左图所示，存在一些局部最小值点，在初始化参数的时候，如果初始值选取的不得当，会存在陷入局部最优点的可能性。
但是，如果我们建立一个神经网络，通常梯度为零的点，并不是如左图中的局部最优点，而是右图中的鞍点（叫鞍点是因为其形状像马鞍的形状）。
在这里插入图片描述在一个具有高维度空间的函数中，如果梯度为0，那么在每个方向，Cost function可能是凸函数，也有可能是凹函数。但如果参数维度为2万维，想要得到局部最优解，那么所有维度均需要是凹函数，其概率为2−20000
，可能性非常的小。也就是说，在低纬度中的局部最优点的情况，并不适用于高纬度，我们在梯度为0的点更有可能是鞍点。
在高纬度的情况下：