Coursera Deeplearning.ai「深度学习」课程笔记L2.W2优化算法

最新推荐文章于 2024-08-08 08:33:29 发布

XLearning88

最新推荐文章于 2024-08-08 08:33:29 发布

阅读量292

点赞数 1

分类专栏：吴恩达deeplearning机器学习笔记文章标签：机器学习吴恩达深度学习

本文链接：https://blog.csdn.net/XLearning88/article/details/89385126

版权

9 篇文章 0 订阅

订阅专栏

1. Mini-batch梯度下降 (Mini-batch gradient descent)

mini-batch梯度下降大小选择

${{v}_{t}}=\beta {{v}_{t-1}}+(1-\beta ){{\theta }_{t}}$
温度的指数加权平均数显示

动量梯度下降法可以加快梯度下降速度，常被使用

在第 $t$ 次迭代中:

超参数： $\alpha, \beta$ ，其中 $\beta$ 常用值是 $\beta=0.9$

$v_{{dW}}$ 初始值是0，要注意到这是和 $d W$ 拥有相同维数的零矩阵，也就是跟 $W$ 拥有相同的维数， $v_{db}$ 的初始值也是向量零，所以和 $d b$ 拥有相同的维数，也就是和 $b$ 是同一维数。

可以加速梯度下降速度

在第 $t$ 次迭代中：

要确保你的算法不会除以0，如果 $S_{dW}$ 的平方根趋近于0怎么办？为了确保数值稳定，在实际操练的时候，你要在分母上加上一个很小很小的 $\varepsilon$ ， $10^{-8}$ 是个不错的选择

初始化， $v_{dW} = 0$ ， $S_{dW} =0$ ， $v_{db} = 0$ ， $S_{db} =0$
在第 $t$ 次迭代中：

用当前的mini-batch计算 $d W$ ， $d b$
$v_{dW}= \beta_{1}v_{dW} + ( 1 - \beta_{1})dW$ ， $v_{db}= \beta_{1}v_{db} + ( 1 -\beta_{1} ){db}$
$S_{dW}=\beta_{2}S_{dW} + ( 1 - \beta_{2}){(dW)}^{2}$ ， $S_{db} =\beta_{2}S_{db} + \left( 1 - \beta_{2} \right){(db)}^{2}$
$v_{dW}^{\text{corrected}}= \frac{v_{dW}}{1 - \beta_{1}^{t}}$ ， $v_{db}^{\text{corrected}} =\frac{v_{db}}{1 -\beta_{1}^{t}}$ （偏差修正）
$S_{dW}^{\text{corrected}} =\frac{S_{dW}}{1 - \beta_{2}^{t}}$ ， $S_{db}^{\text{corrected}} =\frac{S_{db}}{1 - \beta_{2}^{t}}$ (偏差修正)
$\frac{a v_{dW}^{\text{corrected}}}{\sqrt{S_{dW}^{\text{corrected}}} +\varepsilon}$
$\frac{\alpha v_{\text{db}}^{\text{corrected}}}{\sqrt{S_{\text{db}}^{\text{corrected}}} +\varepsilon}$

超参数的选择：

拆分成不同的 mini-batch，第一次遍历训练集叫做第一代，第二次就是第二代，以此类推。
学习率衰减有以下几种：

$\frac{1}{1 + {decay\_rate} * {epoch\_num}}a_{0}$ ( ${decay\_rate}$ 称为衰减率， ${epoch\_num}$ 为代数， $\alpha_{0}$ 为初始学习率）
$={0.95}^{\text{epoch-num}} a_{0}$ (指数衰减)
$=\frac{k}{\sqrt{\text{epoch-num}}}a_{0}$ 或者 $=\frac{k}{\sqrt{t}}a_{0}$ （ $t$ 为mini-batch的数字）
离散下降(discrete stair cease)，即某个步骤有某个学习率，一会之后，学习率减少了一半，一会儿减少一半，一会儿又一半