第2次课改善深层神经网络：超参数优化、正则化以及优化 - week2 优化算法

最新推荐文章于 2024-09-11 20:56:18 发布

Asun0204

最新推荐文章于 2024-09-11 20:56:18 发布

阅读量535

点赞数

分类专栏： deeplearning.ai课程笔记文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/Asun0204/article/details/78131609

版权

deeplearning.ai课程笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1. mini-batch，小批量梯度下降法

批量(Batch)和小批量(mini-batch)梯度下降法

向量化输入输出

输入：( $n_x$ ,m)，n个特征，m个样本
$X = [x (1) x (2) . . . x (m)]$ $X = [x^{(1)} x^{(2)} \ ... \ x^{(m)}]$
输出：(1,m)
$Y = [y (1) y (2) . . . y (m)]$ $Y = [y^{(1)} y^{(2)} \ ... \ y^{(m)}]$

Batch & mini-batch定义

批量：一次迭代整个数据集，计算出一个误差然后更新权值和偏置(w,b)
小批量：一次迭代mini-batch size个样本，计算一个误差然后更新参数

算法步骤

假设样本集大小为500万，mini-batch size为1000，则有5000个mini-batch
repeat
- For t=1…5000
  - Forward prop on X{t}
    - $Z^{[1]} = W^{[1]}X^{\{t\}}+b^{[1]}$
    - $A^{[1]} = g^{[1]}(Z^{[1]})$
    - …
    - $A^{[L]} = g^{[L]}(Z^{[L]})$
  - Compute cost $J^{\{t\}} = \frac{1}{1000}\sum_{i=1}^{L}L(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2*1000}\sum_L||w^{[l]}||_F^2$
  - Backprop to compute gradients using J{t}(X{t},Y{t})
    - $W^{[L]} := W^{[L]}-\alpha dW^{[L]}, \quad b^{[L]} := b^{[L]}-\alpha db^{[L]}$
- epoch: 遍历一次训练集，使用batch，一次epoch只能更新一次参数，mini-batch如上例，可以更新5000次参数

J下降

batch: 一直下降
mini-batch: 局部波动，整体下降

选择mini-batch size

mini-batch size=m: Batch gradient descent
mini-batch size=1: Stochastic gradient descent
优点和缺点
- Batch gradient descent: 可以很好的取到最好的参数，但是如果数据集太大会导致迭代一次耗时很长
- Stochastic gradient descent: 有噪声，虽然可以通过减小学习率减少噪声，但是不会取到最好的参数，而且失去了向量化带来的速度优化
- mini-batch: 可以向量化，不需要一次性遍历整个训练集
选择mini-batch size的原则
1. 如果训练集很小，比如样本数小于2000，mini-batch size=m
2. mini-batch size取2的整数倍，比如说64，128，256，512等，有助于计算机加快运算
3. 确保CPU/GPU能够加载一个mini-batch

2. 指数加权平均(Exponentially weight average)

计算公式

给定一个时间序列，比如伦敦一年的每天气温 $\theta_1,\theta_2,...,\theta_{365}$

$v 0 v 1 v t = = = 0 0.9 v 0 + 0.1 θ 1 0.9 v t - 1 + 0.1 θ t$ $\begin{matrix} v_0 &=& 0 \\ v_1 &=& 0.9v_0 + 0.1\theta_1 \\ v_t &=& 0.9v_{t-1} + 0.1\theta_t \end{matrix}$
维基百科上的定义

$S t = {Y 1, α Y t + (1 - α) S t - 1, t = 1 t > 1$ $S_t = \begin{cases} Y_1, & t=1 \\ \alpha Y_t + (1-\alpha)S_{t-1}, & t>1 \end{cases}$

其中 $\alpha$ 是权值， $Y_t$ 是实际值， $S_t$ 是加权平均后的值

平均过去多少天

\approx 1 1 - β

$\approx \frac{1}{1-\beta}$

如上 $\beta=0.9$ ，则约等于10天
$\beta$ 越大，过去的影响越多，曲线越平滑，即时反应越弱

算法本质

v 100 = 0.1 θ 100 + 0.1 * 0.9 * θ 99 + 0.1 * 0.9 2 * θ 98 . . .

$v_{100} = 0.1\theta_{100}+0.1*0.9*\theta_{99}+0.1*0.9^2*\theta_{98} \ ...$

$0.9^{10} \approx \frac1e$ ，相当于把过去10天的气温指数加权平均作为当日的气温，因为10天后权重下降到当日的三分之一不到

算法步骤

v = 0
repeat
- get $\theta_i$
- v := $\beta$ v+(1- $\beta$ ) $\theta_i$
好处，节省内存，尤其对于数据大的情况，和移动窗求加权平均稍微差一点

偏差修正(bias correction)

注意到加权平均的第一个值被初始化为0，所以前几个值和实际值会相差很大，使用偏差修正来改变
将上述算法计算后的值做如下处理

$v t : = v t 1 - β t$ $v_t := \frac{v_t}{1-\beta^t}$
对于第一个值

$v 1 = β v 0 + (1 - β) θ 1 = (1 - β) θ 1 v 1 : = v 1 1 - β = θ 1$ $\begin{matrix} v_1 = \beta v_0 + (1-\beta)\theta_1 = (1-\beta)\theta_1 \\ v_1 := \frac{v_1}{1-\beta} = \theta_1 \end{matrix}$
对于第二个值

$v 2 = β v 1 + (1 - β) θ 2 = (1 - β) θ 2 + β (1 - β) θ 1 v 2 : = v 2 1 - β 2 = 1 1 - β θ 2 + β 1 - β θ 1$ $\begin{matrix} v_2 = \beta v_1 + (1-\beta)\theta_2 = (1-\beta)\theta_2+\beta(1-\beta)\theta_1 \\ v_2 := \frac{v_2}{1-\beta^2} = \frac{1}{1-\beta}\theta_2 + \frac{\beta}{1-\beta}\theta_1 \end{matrix}$
越往后偏差修正的影响越小

3. 动量梯度下降法(gradient descent with momentum)

计算梯度的指数加权平均数，并利用该梯度更新权重

算法步骤

On iteration t:
- Compute dw, db on current mini-batch
- $v_{dw} = \beta v_{dw} + (1-\beta)dw$
- $v_{db} = \beta v_{db} + (1-\beta)db$
- $w := w-\alpha v_{dw}, \quad b := b-\alpha v_{db}$
另一个版本: $v_{dw} = \beta v_{dw} + dw, \quad v_{db} = \beta v_{db} + db$ ， $v_{dw},v_{db}$ 减小了 $1-\beta$ 倍，所以 $\alpha$ 需要相应改变
效果：在抵达最小值的路径上减少了摆动，通过累加，减少摆动的误差，增大向极小值的梯度
一般 $\beta=0.9$

4. RMSprop(root mean square prop)

算法步骤

On iteration t:
- Compute dw, db on current mini-batch
- $S_{dw} = \beta_2 v_{dw} + (1-\beta_2)dw^2$
- $S_{db} = \beta_2 v_{db} + (1-\beta_2)db^2$
- $w := w-\alpha \frac{v_{dw}}{\sqrt{S_{dw}}+\epsilon}, \quad b := b-\alpha \frac{v_{db}}{\sqrt{S_{db}}+\epsilon}$
效果：在抵达最小值的路径上减少了摆动，比较大的dwi，会被一个大的vdwi除，所以可以减少摆动，同时可以增大学习速率来加快学习
$\epsilon = 10^{-8}$ ，防止分母太小导致变化太大

5. Adam(Adaptive moment estimate) optimization algorithm

整合了momentum和RMSprop

算法步骤

On iteration t:
- Compute dw, db on current mini-batch
- momentum
- $v_{dw} = \beta_1 v_{dw} + (1-\beta_1)dw, \quad v_{db} = \beta_1 v_{db} + (1-\beta_1)db$
- RMSprop
- $S_{dw} = \beta_2 v_{dw} + (1-\beta_2)dw^2, \quad S_{db} = \beta_2 v_{db} + (1-\beta_2)db^2$
- bias correction
- $v^{correction}_{dw} = v_{dw}/(1-\beta_1^t), \quad v^{correction}_{db} = v_{db}/(1-\beta_1^t)$
- $S^{correction}_{dw} = S_{dw}/(1-\beta_2^t), \quad S^{correction}_{db} = S_{db}/(1-\beta_2^t)$
- change the w and b
- $w := w-\alpha \frac{v^{correction}_{dw}}{\sqrt{S^{correction}_{dw}}+\epsilon}, \quad b := b-\alpha \frac{v^{correction}_{db}}{\sqrt{S^{correction}_{db}}+\epsilon}$

参数设置

$alpha$ : 需要调参
$\beta_1$ : 影响 $dw, db$ ，作者设置为0.9，一般不需要改
$\beta_2$ : 影响 $dw^2, db^2$ ，作者设置为0.999，一般不需要改
$\epsilon$ : 一般设置为 $10^{-8}$

6. 学习率衰减(learning rate decay)

随时间慢慢减少学习率，在学习初期步长较大，能够比较快的接近最小值，后期步长减小，帮助收敛

算法步骤

1 epoch: 迭代一次训练集
- $\alpha = \frac{1}{1+decay_rate*epoch_num} \alpha_0$
- 或者 $\alpha = 0.95^{epoch_num} \alpha_0$ 或者 $\alpha = \frac{k}{\sqrt{epoch_num}} \alpha_0, \quad \alpha = \frac{k}{t} \alpha_0$ 或者离散下降(discrete staircase)，阶梯函数，过几代就减少，例如减小一半