【吴恩达深度学习笔记】2.2 优化算法Optimization algorithms

最新推荐文章于 2023-08-17 15:08:35 发布

贪钱算法还我头发

最新推荐文章于 2023-08-17 15:08:35 发布

阅读量230

点赞数

分类专栏： AI # Deep Learning 文章标签：深度学习

本文链接：https://blog.csdn.net/keiven_/article/details/109263093

版权

AI 同时被 2 个专栏收录

64 篇文章 7 订阅

订阅专栏

Deep Learning

45 篇文章 12 订阅

订阅专栏

第二门课改善深层神经网络：超参数调试、正则化以及优化（Improving Deep Neural Networks:Hyperparameter tuning,Regularization and Optimization）

2.1Mini-batch梯度下降（Mini-batch gradient descent）

优化算法将加快神经网络的运行，加快训练模型。深度学习没有在大数据领域发挥最大的效果，我们可以利用一个巨大的数据集训练神经网络，但这样训练速度很慢，使用快速的优化算法可以大大提高效率。

把训练集分割成小一点的子集训练，这些子集取名为mini-batch。若有500万个样本的训练集，每个子集中只有1000个样本，把 $x^{(1)}$ 到 $x^{(1000)}$ 取出称为第一个子训练集即mini-batch，称为 $X^{\{1\}}$ ， $x^{(1001)}$ 到 $x^{(2000)}$ 称为 $X^{\{2\}}$ ，直到 $X^{\{5000\}}$ ， $Y$ 也做同样的处理，把 $y^{(1)}$ 到 $y^{(1000)}$ 称为 $Y^{\{1\}}$ ，直到 $Y^{\{5000\}}$ 。mini-batch的数量 $t$ 组成了 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 。 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 的维数分别为 $n_x,1000)$ 和 $(1, 1000)$ 。

batch梯度下降法即之前讲的梯度下降算法，指同时处理全部 $X$ 和 $Y$ 训练集，mini-batch梯度下降法每次同时处理单个的mini-batch $X^{\{t\}}$ 和 $Y^{\{t\}}$ 。mini-batch梯度下降（在单个mini-batch上计算）的一次迭代快于梯度下降的迭代。如果你有一个丢失的训练集，mini-batch梯度下降法比batch梯度下降法运行地更快。注意：矢量化不适用于同时计算多个mini-batch。

在训练集上运行mini-batch梯度下降法，运行 $for\space t \space in\space range(1,5000)$ ，每次处理1000个样本，因为子集的规模是1000，在for循环中对 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 执行一步梯度下降法：

$input:\space X^{\{t\}}=A^{[0]}$

前向传播（ $l\in [1,l]$ ）：

$Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}$

$A^{[l]}=g^{[l]}(Z^{[l]})$

运用正则化计算成本函数 $J$ （ $L(\hat y^{(i)},y^{(i)})$ 指来自 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 的样本）:

$J^{\{t\}}=\frac{1}{1000}\sum^l_{i=1}L(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2*1000}\sum_l\|w^{[l]}\|^2_F$

反向传播计算 $J^{\{t\}}$ 梯度

更新参数：

$W^{[l]}:=W^{[l]}-\alpha dW^{[l]}$

$b^{[l]}:=b^{[l]}-\alpha db^{[l]}$

2.2理解Mini-batch梯度下降法（Understanding Mini-batch gradient descent）

在这里插入图片描述
使用mini-bratch梯度下降法并不是每次迭代都是下降的，成本函数 $J^{\{t\}}$ 只和 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 有关，每次迭代都在训练不同的样本集或者说是训练不同的mini-bratch，其成本函数图像整体走向朝下，但是存在噪声。

需要确定mini-bratch的大小， $m$ 为训练集大小，极端情况下

若mini-bratch=m，即bratch梯度下降法，其成本函数曲线相对噪声小，下降幅度大，若训练样本大，单次迭代耗时长。
若mini-bratch=1，称为随机梯度下降法，每个样本都是独立的mini-bratch，其成本函数曲线存在很多噪声，最终会靠近最小值，有时也会方向错误，永远无法收敛。通过减小学习速率，噪声会有所减小，整体效率低。

实际要取合适的mini-bratch尺寸，若训练集很小（m<2000）直接使用batch梯度下降法，若训练集很大，一般取mini-bratch为64到512，是2的 $n$ 次方。

2.3指数加权平均数（Exponentially weighted averages）

加权平均数： $v_t=\beta v_{t-1}+(1-\beta)\theta_t$ ，其中 $\beta$ 是超参数， $\theta_t$ 是新加入的数据， $v_{t-1}$ 是上一个加权平均数。计算时可视 $v_t$ 为 $\frac{1}{(1-\beta)}$ 的平均数，如 $\beta=0.9$ ，这是十个数据的平均值，若 $\beta$ 增大，平均数据曲线会波动很小，更加平坦。因为 $\beta$ 增大相当于给之前的数据加了太多权重。统计学中指数加权平均数被称为指数加权移动平均数。

下图中蓝色点代表数据，当 $\beta=0.98$ 时均值曲线为绿线，当 $\beta =0.9$ 时均值曲线为红线，当 $\beta=0.5$ 时均值曲线为黄线。在这里插入图片描述

2.4理解指数加权平均数（Understanding exponentially weighted averages）

令 $\beta=0.9$ ，有下列公式： $v_{100}=0.9v_{99}+0.1\theta_{100}$

$v_{99}=0.9v_{98}+0.1\theta_{99}$

$v_{98}=0.9v_{97}+0.1\theta_{98}$

$\cdot \cdot \cdot \cdot \cdot \cdot$

将 $v_{100}$ 展开： $v_{100}=0.1\theta_{100}+0.1×0.9\theta_{99}+0.1×(0.9)^2\theta_{98}+0.1×(0.9)^3\theta_{97}+...$

这些 $\theta$ 之前的所有系数相加为1或者逼近1，称为偏差修正。

$0.9^{10}\approx0.35\approx\frac{1}{e}$ ， $\beta^{\frac{1}{1-\beta}}\approx\frac{1}{e}$ ，通过10个数据，曲线的高度下降到相当于峰值的 $\frac{1}{e}$ 。

实际执行中，要将 $v_\theta$ 初始化为0，然后拿到第 $t$ 个数据，把 $v$ 更新为 $v:=\beta v_{\theta}+(1-\beta)\theta_t$ 。

指数加权平均数公式的新数据代入公式进行覆盖，所有其占用极少内存，但是需要保存所有最近的数据和过去数据的总和就要占用更多的内存，执行更加复杂，计算成本也更高。

2.5指数加权平均的偏差修正（Bias correction in exponentially weighted averages）

偏差修正可以让平均数运算更加准确。由于初始化时 $v_0=0$ ，导致 $v_1=(1-\beta)\theta_1$ ，得到的数会小很多，前几个数据估测不准。

在估测初期，使用 $\frac{v_t}{1-\beta^t}$ 代替 $v_t$ 。例如第二个数据的估测值为 $\frac{v_2}{1-\beta^2}=\frac{\beta(1-\beta)\theta_1+(1-\beta)\theta_2}{1-\beta^2}$ ，也即 $\theta_1$ 和 $\theta_2$ 的加权平均数，并去除了偏差。随着 $t$ 的增大， $\beta^t$ 接近0，所以当 $t$ 很大时，偏差修正基本没作用。

机器学习中大部分人不在乎初期得到偏差的估测，继续计算后面部分，若你关注初期时的偏差可以使用偏差修正。

2.6动量梯度下降法（Gradient descent with Momentum）

动态梯度下降算法（Momentem）运行速度总是快于标准的梯度下降法，基本思想是计算梯度的指数加权平均数，利用该梯度更新权重。
在这里插入图片描述

假如你想优化成本函数，函数形状如图，红点表示最小值位置，利用梯度下降法的得到蓝色曲线，上下波动减慢了梯度下降的速度。若使用较大的学习率得到紫色曲线，结果可能会偏离函数范围。为了避免摆动过大需要使用较小的学习率。而我们想纵轴上使用小的学习率减小摆动，横轴上使用大的学习率加快学习，由此使用动量梯度下降法。
在这里插入图片描述

2.7均方根（RMSprop）

RMSprop（root mean square prop）算法可以加速梯度下降。实现步骤： $S_{dW}=\beta S_{dW}+(1-\beta)dW^2$

$S_{db}=\beta S_{db}+(1-\beta)db^2$

$W:=W-\alpha\frac{dW}{\sqrt{S_{dW}}}$

$b:=b-\alpha\frac{db}{\sqrt{S_{db}}}$

其中 $dW^2$ 和 $db^2$ 是指对整个微分进行平方

2.8Adam优化算法（Adam optimization algorithm）

Adam（Adaptive Moment Estimation）优化算法将Momentum和RMSprop结合起来。

初始化： $V_{dw}=0,S_{dW}=0,v_{db}=0,S_{db}=0$

在第 $t$ 次迭代中，使用当前的mini-bratch计算 $d W, d b$ ：

$v_{dW}=\beta_1v_{dW}+(1-\beta_1)dW,\space v_{db}=\beta_1v_{db}+(1-\beta_1)db$

$S_{dW}=\beta_2 S_{dW}+(1-\beta_2)dW^2,\space S_{db}=\beta_2 S_{db}+(1-\beta_2)db^2$

$v^{corrected}_{dW}=\frac{v_{dW}}{1-\beta_1^t},\space v^{corrected}_{db}=\frac{v_{db}}{1-\beta_1^t}$

$S^{corrected}_{dW}=\frac{S_{dW}}{1-\beta_2^t},\space S^{corrected}_{db}=\frac{S_{db}}{1-\beta_2^t}$

$W:=W-\alpha\frac{V^{corrected}_{dW}}{\sqrt{S^{corrected}_{dW}+\epsilon}},\space b:=b-\alpha\frac{V^{corrected}_{db}}{\sqrt{S^{corrected}_{db}+\epsilon}}$