吴恩达老师深度学习视频课笔记：优化算法

最新推荐文章于 2024-08-09 22:29:31 发布

fengbingchun

最新推荐文章于 2024-08-09 22:29:31 发布

阅读量1.7k

点赞数

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/fengbingchun/article/details/79828816

版权

Deep Learning 专栏收录该内容

134 篇文章 122 订阅

订阅专栏

优化算法能够帮助你快速训练模型。

mini-batch梯度下降法：把训练集分割(split)为小一点的子训练集，这些子集被叫做mini-batch。

batch梯度下降法指的是：同时处理整个训练集，只有处理完整个训练集才更新一次权值和偏置。并且预期每次迭代的成本都会下降，如果成本函数(cost function)J是迭代次数的一个函数，它应该会随着每次迭代而减少，如果J在某次迭代中增加了，那肯定在某处出现了问题。

mini-batch梯度下降法指的是：每次同时处理的是单个mini-batch，而不是同时处理整个训练集，每处理完单个子集时都会更新一次权值和偏置。但是与batch梯度下降法不同的是，如果成本函数(cost function)J是迭代次数的一个函数，则并不是每次迭代J都是下降的，它的趋势是向下，但是也带有更多的噪声；在mini-batch梯度下降法中，没有每次迭代J都是下降的也是可以的，但是走势应该是向下的，如下图：

选择mini-batch的大小：假设m为整个训练集的大小。一种极端情况下，如果mini-batch的大小为m，其实就是batch梯度下降法。另一种极端情况下，如果mini-batch的大小为1，则叫做随机梯度下降法(stochastic gradient descent)，每个样本都是一个独立的mini-batch。随机梯度下降法永远不会收敛，而是会一直在最小值附近波动，但是并不会在达到最下值时停留下来。实际中，mini-batch的大小应该在1和m之间选择，1太小而m太大，如下图：

如果训练集较少，直接使用batch梯度下降法，样本集较少就没必要使用mini-batch梯度下降法。一般说的少是指样本集总数小于2000.如果样本集数目较大的话，一般的mini-batch大小在64至512之间，如64、128、256、512。考虑到电脑内存布局和访问的方式，有时mini-batch的大小为2的n次方，code会运行的较快一些。

指数加权平均(exponentially weighted averages)：关键公式v_t=βv_t-1+(1-β)θ_t，如下图，以计算一年中第t天的平均温度为例，图中的v₁₀₀就是一年中第100天计算的数据。有偏差修正(biascorrection)的指数加权平均。

偏差修正(bias correction)：可以让平均数计算更加准确。如果你关心初始时期的偏差，在刚开始计算指数加权平均数的时候，偏差修正能帮助你在早期获得更好的估计。即用v_t/(1-β^t)= (βv_t-1+(1-β)θ_t)/ (1-β^t)替代之前v_t=βv_t-1+(1-β)θ_t，你会发现，随着t的增加，β的t次方将接近于0，所以当t很大的时候，偏差修正几乎没有作用，如下图：

动量梯度下降法(gradient descent with momentum)：运行速度几乎总是快于标准的梯度下降算法。基本的想法就是计算梯度的指数加权平均并利用该梯度更新你的权值。在mini-batch或batch梯度下降法中，第t次迭代过程中，你会计算导数dw,db，如下图：

这样就可以减缓梯度下降的幅度。不像梯度下降法，每一步都独立于之前的步骤。超参β控制着指数加权平均(exponentially weighted average)，β最常用的值是0.9。实际中，在使用梯度下降法或momentum时并不强制(bother)使用偏差修正，因为10次迭代以后，你的移动平移(your moving average)已经过了初始阶段不再是一个具有偏差的预测。v_dw的初始值为0，v_dw和w具有相同的维数。v_db的初始值也为0和b具有相同的维数。有时会使用v_dw=βv_dw+dw替代v_dw=βv_dw+(1-β)dw，一般不这么做。

RMSprop(root mean square prop，均方根)：也可以加速梯度下降，如下图。在第t次迭代中，RMSprop会照常计算dw,db，保留指数加权平均，使用s_dw替代v_dw, s_dw=βs_dw+(1-β)dw²,这样做能够保留导数平方的加权平均数(an exponentially weighted average of thesquares of the derivatives)。s_db类似。接着，RMSprop会这样更新参数值：w=w-αdw/(square root(s_dw))，参数b类似。RMSprop和momentum一样，可以消除梯度下降中的摆动，并允许你使用一个更大的学习率α。

Adam(Adaptive Moment Estimation)：将momentum和RMSprop结合在一起，如下图。一般使用Adam时，要计算偏差修正。Adam能有效适用于不同的神经网络。在使用Adam时，人们经常赋值超参数β₁为0.9, β₂为0.999，ε为10^-8，经常使用这些缺省值即可，然后尝试不同的α值，看看哪个效果更好。