神经网络之优化方法

最新推荐文章于 2024-08-09 22:29:31 发布

hjj牛bb啊

最新推荐文章于 2024-08-09 22:29:31 发布

阅读量1.9k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/gadwgdsk/article/details/80357306

版权

机器学习专栏收录该内容

17 篇文章 4 订阅

订阅专栏

1、前言

神经网络的优化方法有很多，前面学习了神经网络参数的初始化方法，好的初始化方法可以让网络训练的更快，也可能让网络收敛的更好。同样，好的优化方法同样具有这样的作用。注意：谈论优化方法时候，并没有修改损失函数，只是修改了网络学习过程中参数的更新方法。

之前经常使用梯度下降法来优化网络，今天学习了梯度下降法的几个改进版本：Momentum、RMSprop、Adam

网络学习中，梯度下降法的经典公式为：

梯度下降法一般有三种常见的形式（梯度更新的公式并没有本质性地改变）：

（1）随机梯度下降法（stochastic gradient descent）

该方法是最Navie的，每次计算一个样本，然后更新参数，显然容易受噪声干扰，从而导致损失下降曲线震荡，甚至出现损失中途一度上升的现象。另外，一次计算一个样本，效率很低，因此网络学习很慢。

（2）梯度下降法（Gradient descent）

该方法相对于随机梯度下降法，指示的是一次训练所有样本，然后再更新参数。这种形式的好处是每次计算全部样本的梯度，然后用它们的均值去更新参数，能够有效避免噪声干扰现象。由于采用了向量化技术（全部样本几乎同时计算），numpy能够大大加速计算过程，所以计算速度较快。另外，由于能够有效避免或减小噪声干扰问题，所以学习率可以设置的大一些。

缺点：数据量大的时候无法使用，几千个样本的数据量还是可以的，但如果是几万、几十万、甚至数百万的数据呢，显然无法之前全部计算，此时网络训练速度反而很慢。

（3）小批量梯度下降法（mini-batch gradient descent）

综合上述两种方法，面对大数据情况，每次使用一部分数据来计算，并且优化网络，而不是只用一个数据或者全部数据。这样，计算速度得到了大大提高，同时又一定程度上避免了噪声干扰问题（还有有一些）。考虑到计算机储存方式问题，每个小批量的size一般取64、128、512、1024等，这样计算会更快（未验证）。

简单写下流程：

a、将全部样本随机打乱

b、按照设定的batch-size划分数据为若干个batch，最后一个batch大小可能不是设定值，但一样要参与计算

c、以batch为单位训练网络，每个batch计算后都要更新参数w和b，所有样本都做了一边算是一代

d、多次执行a-c以完成多个iterations

2、Momentum

momentum是动量的意思，其实就是对dw做一个一阶平均滤波，十分简单。通过一阶平均滤波，可以平滑dw的变化，也可以让dw加入滞后因子，到达谷点后因为滞后因素，依然会向前冲，如果对面是一个较低的山峰，说不定就冲过去了，也就是它能让网络在学习过程中跳出一些局部最优点。公式如下：

beta是需要tune的超参数，一般设置为0.9，这里用beta1为了避免与后面的RMSprop的beta搞混。

显然，新的dw会以（1-beta）的系数加入Vdw，并且Vdw也只会保留beta倍，所以，如果将多次迭代的式子展开，可以看到每次计算的dw的权值承指数衰减。若干次迭代后，比如t次，dw[1]的系数变为了beta**(t-1)*(1-beta)，已经很小了，可以忽略。这里不再深入。到此足够理解和使用Momentum了。

若Vdw一开始初始化为0，则Vdw一开始并不准确，会缓慢上升到准确值。原因是，比如，第一次计算Vdw=（1-beta）dw，该值明显小于dw，所以可以使用修正方法：

Vdw（corrected）=Vdw/(1 - beta**t) ，其中t是迭代次数