第二课优化神经网路第二周优化算法_最长的完全连续交替方波信号-CSDN博客

本文链接：https://blog.csdn.net/weixin_43538042/article/details/120912989

文章目录

- 第二周优化算法

第二周优化算法

2.1 Mini-batch 梯度下降

把样本再分为小批量的样本，在梯度下降时，用这小批量的样本的梯度代替整体梯度进行梯度下降的方法。

这样，我们得到的cost function随着迭代进行的曲线并不是一直下降，而是波动下降。

当mini-batch的大小为1，我们就得到了随机梯度下降算法（Stochastic Gradient Descent）。

2.2 指数加权平均数 Exponentially weighted averages

直接给出公式：

$v_t=\beta v_{t-1}+(1-\beta)\theta_t$ ，其中 $\theta$ 是原数据，v是经过计算后的数据。

本质就是以指数式递减加权的移动平均。各数值的加权而随时间而指数式递减，越近期的数据加权越重，但较旧的数据也给予一定的加权。

2.3 指数加权平均数的修正

计算移动平均数的时候，初始化𝑣0 = 0，𝑣1 = 0.98𝑣0 + 0.02𝜃1，但是𝑣0 = 0，所以这部分没有了(0.98𝑣0)，所以𝑣1 = 0.02𝜃1，所以如果一天温度是 40 华氏度，那么𝑣1 = 0.02𝜃1 = 0.02 × 40 = 8，因此得到的值会小很多，所以第一天温度的估测不准。

有个办法可以修改这一估测，让估测变得更好，更准确，用 $v_t^\prime = \frac{v_t}{1-\beta^t}$ ，t 就是现在的天数。相当于给原来的vt乘上一个大于1的数修正。

在机器学习中，在计算指数加权平均数的大部分时候，大家不在乎执行偏差修正，因为大部分人宁愿熬过初始时期，拿到具有偏差的估测，然后继续计算下去。如果你关心初始时期的偏差，在刚开始计算指数加权移动平均数的时候，偏差修正能帮助你在早期获取更好的估测。

2.4 动量梯度下降法 Gradient descent with Momentum

动量梯度下降法就是将指数加权平均用到梯度下降的过程。

在这里插入图片描述

在上图中你会发现，纵轴的摆动很大，但平均值为0；横轴的摆动很小，都指向中心方向。

如果我们对历史梯度进行加权平均，我们就能一定程度上消除纵轴摆动过大的缺点，加快横轴的运动。

在这里插入图片描述

2.6 RMSprop 算法

root mean square prop 均方根传播算法

在这里插入图片描述

我的理解：平方加剧了方向上的摆动。最后梯度更新时，再除以方根，结果就是摆动大的维度除以一个较大的数，消除了影响。

要说明一点，我一直把纵轴和横轴方向分别称为𝑏和𝑊，只是为了方便展示而已。实际中，你会处于参数的高维度空间，所以需要消除摆动的垂直维度，你需要消除摆动，实际上是参数𝑊 ，𝑊 等的合集，水平维度可能𝑊 ，𝑊 等等，因此把𝑊和𝑏分开只是方便说明。

实际中𝑑𝑊是一个高维度的参数向量，𝑑𝑏也是一个高维度参数向量，但是你的直觉是，在你要消除摆动的维度中，最终你要计算一个更大的和值，这个平方和微分的加权平均值，所以你最后去掉了那些有摆动的方向。所以这就是 RMSprop，全称是均方根，因为你将微分进行平方，然后最后使用平方根。