2-2. 改善深层神经网络

最新推荐文章于 2024-07-18 13:30:10 发布

辰风123456

最新推荐文章于 2024-07-18 13:30:10 发布

阅读量324

点赞数

分类专栏： Deeplearning 文章标签：笔记

本文链接：https://blog.csdn.net/qq_40989384/article/details/81180112

版权

Deeplearning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

$Mini-Batch$

$Mini-Batch$

1. 简述

所谓$mini-batch$，就是将整个样本集划分成很多个小的样本集。

2. 两个概念

. $Batch\ gradient\ descent$ ：相当于大小为m （m为样本数量）的mini-batch
. $stochastic\ gradient\ descent$ ：相当于大小为1 的mini-batch

3. 为Mini-Batch选择合适的大小

3-1. 为什么要选择合适的大小

如果直接用 $Batch\ gradient\ descent$ 的话，一次迭代（ $iteration$ ) 花的时间太长了；而大小太小的话（ $如Stochastic\ gradient\ descent$ ），则丧失了很多向量化带来的加速。所以我们要选择合适的大小。

3-2. 如何选择大小

考虑到电脑的内存设置和使用方式，建议选择为2的整数次方，这样代码运行更快。一般我们将其size设置为64，128，256，512。1024的话就有点过大了。

最后还要注意要符合CPU/GPU的内存方式,否则结果会惨不忍睹。

4. 指数加权（移动）平均数

$\overline{v_{t}} = \beta \cdot \overline{v_{t-1}} + (1 - \beta)\cdot v_{t}$
$v_{t} \approx averageing\ over\ \frac{1}{1 - \beta}\ days$
$\beta$ 越大，曲线越平缓，但对新数据适应得也越慢； $\beta$ 越小，曲线对新数据的适应越灵敏，但可能会出现很多噪音。
偏差修正： $\dfrac{\overline{v_{t}}}{1 - \beta^{t}}$ 。主要可以帮助我们修正早期的偏差。

5. 动量梯度下降法（ $Gradient\ descent\ with\ momentum$ )

5-1. 为什么要用动量梯度下降法

由于采用mini batch会使得我们的代价函数在接近最小值的过程中不断摆动，所以我们不能将学习率（learning rate）设置得太大，因为这在加大迈向最小值的过程（下称“横向”）中也增大了摆动（“纵向”）的幅度。于是我们要找的一个方法能够在减小纵向幅度的同时，增大横向步长。

5-2. 动量梯度下降法的过程

在进行动量梯度下降法时，我们对每一个mini batch进行一次梯度下降，我感觉大致上可以理解为把对每一个mini batch进行一次 $Batch\ gradient\ descent$ 。具体过程如下：

O n e a c h i t e r a t i o n t : C o m p u t e d W, d b o n c u r r e n t M i n i - b a t c h v d W = β \cdot v d W + (1 - β) \cdot d W v d b = β \cdot v d b + (1 - β) \cdot d b W = W - α \cdot v d W, b = b - α \cdot v d b

$\begin{aligned} On\ each\ iteration\ t: \\ \qquad \qquad &Compute\ dW,\ db\ on\ current\ Mini-batch \\ \qquad \qquad &v_{dW} = \beta \cdot v_{dW} + (1 - \beta)\cdot dW \\ &v_{db} = \beta \cdot v_{db} + (1 - \beta)\cdot db \\ &W = W - \alpha \cdot v_{dW},\ b = b - \alpha \cdot v_{db} \end{aligned}$

6. RMSprop（ $Root\ Mean\ Square\ Prop$ )

这个算法的原理我还不是很明白，好像是说W，b是两个高维空间，它在某些维度上摆动较大，我们需要减小；而在某些维度上我们又希望它有比较大的步长，所以我们在梯度下降的时候给 $v_{dW}$ 和 $v_{db}$ 除以一个 $\sqrt{S_{dW}}$ 和 $\sqrt{S_{db}}$ 来做相应的调整。

O n e a c h i t e r a t i o n t : C o m p u t e d W, d b o n c u r r e n t M i n i - b a t c h S d W = β 2 \cdot S d W + (1 - β 2) \cdot d W 2 S d b = β 2 \cdot S d b + (1 - β 2) \cdot d b 2 W = W - α \cdot v d W S d W - - - - \sqrt + ϵ, b = b - α \cdot v d b S d b - - - \sqrt + ϵ

$\begin{aligned} On\ each\ iteration\ t: \\ \qquad \qquad &Compute\ dW,\ db\ on\ current\ Mini-batch \\ \qquad \qquad &S_{dW} = \beta_2 \cdot S_{dW} + (1 - \beta_2)\cdot dW^2 \\ &S_{db} = \beta_2 \cdot S_{db} + (1 - \beta_2)\cdot db^2 \\ &W = W - \alpha \cdot \dfrac{v_{dW}}{\sqrt{S_{dW}} + \epsilon},\ b = b - \alpha \cdot \frac{v_{db}}{\sqrt{S_{db}} + \epsilon} \\ \end{aligned}$
其中\epsilon是用来防止分母为零而加的一个特别小的数，大约为10^{-8}

7. Adam 优化算法（ $Adaptive\ Moment\ Estimation$ ）

Adam算法相当于是把上面两个算法结合起来，其优越性更加明显，并且适应范围非常广。

O n e a c h i t e r a t i o n t : C o m p u t e d W, d b o n c u r r e n t M i n i - b a t c h v d W = β 1 \cdot v d W + (1 - β 1) \cdot d W, v d b = β \cdot v d b + (1 - β) \cdot d b S d W = β 2 \cdot S d W + (1 - β 2) \cdot d W 2, S d b = β 2 \cdot S d b + (1 - β 2) \cdot d b 2 V c o r r e c t d W = v d W 1 - β t 1, V c o r r e c t d b = v d b 1 - β t 1 S c o r r e c t d W = S d W 1 - β t 2, S c o r r e c t d b = S d b 1 - β t 2 W : = W - α \cdot V c o r r e c t d W S c o r r e c t d W - - - - - - \sqrt + ϵ, b : = b - α \cdot V c o r r e c t d b S c o r r e c t d b - - - - - - \sqrt + ϵ

$\begin{aligned} On\ each\ iteration\ t: \\ \qquad \qquad &Compute\ dW,\ db\ on\ current\ Mini-batch \\ &v_{dW} = \beta_1 \cdot v_{dW} + (1 - \beta_1)\cdot dW ,\ \ v_{db} = \beta \cdot v_{db} + (1 - \beta)\cdot db \\ &S_{dW} = \beta_2 \cdot S_{dW} + (1 - \beta_2)\cdot dW^2 ,\ \ S_{db} = \beta_2 \cdot S_{db} + (1 - \beta_2)\cdot db^2 \\ &V_{dW}^{correct} = \frac{v_{dW}}{1 - \beta_1^t},\ \ V_{db}^{correct} = \frac{v_{db}}{1 - \beta_1^t} \\ &S_{dW}^{correct} = \frac{S_{dW}}{1 - \beta_2^t},\ \ S_{db}^{correct} = \frac{S_{db}}{1 - \beta_2^t} \\ &W := W - \alpha \cdot \frac{V_{dW}^{correct}}{\sqrt{S_{dW}^{correct}} + \epsilon},\ \ b := b - \alpha \cdot \frac{V_{db}^{correct}}{\sqrt{S_{db}^{correct}} + \epsilon} \end{aligned} \\$

We recommend: W e r e c o m m e n d : $\ \ \ \ \ \ We\ recommend :$

α ： n e e d s t o b e t u n e β 1 = 0.9 β 2 = 0.999 ϵ = 10 - 8 (n o t i m p o r t a n t)

$\begin{aligned} &\alpha ：needs to be tune \\ &\beta_1 = 0.9 \\ &\beta_2 = 0.999 \\ &\epsilon = 10^{-8}(not\ important) \end{aligned}$

8. 学习率衰减（ $Learning\ rate\ decay$ ）

当我们的参数值逐渐趋向最优点或者说我们的代价函数逐渐趋于最小值时，我们希望这时的学习率变小一些来使得我们的结果能更精确地收敛与最优解附近。
具体的方法有很多，这里列举一些：

α = 1 1 + d e c a y - r a t e \cdot e p o c h - n u m α = 0.95 e p o c h - n u m \cdot α 0 α = k e p o c h - n u m - - - - - - - - - - - \sqrt \cdot α 0 \cdot \cdot \cdot

$\begin{aligned} & \alpha = \frac{1}{1 + decay-rate \cdot epoch-num} \\ & \alpha = 0.95^{epoch-num}\cdot \alpha_0 \\ & \alpha = \frac{k}{\sqrt{epoch-num}}\cdot \alpha_0 \\ & \cdot\ \cdot\ \cdot\ \\ \end{aligned}$

9. 局部最优问题

这一部分我们主要面临两个问题：

在有多个局部最优解的情况下，如果我们被困在了某一个极差的最优解上，该怎么办？
事实上，由于我们所要优化的参数是一个维数极高的空间，在如此之多的元素影响下我们很难被困在某个极差的局部最优解上。
当我们的函数走进了一个平缓段导致优化速率大大降低，该怎么办?
实际上这
也正是Momentum和Adam算法可以加速算法的地方。

辰风123456

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2-2. 改善深层神经网络

Mini-Batch1. 简述2. 两个概念3. 为Mini-Batch选择合适的大小3-1. 为什么要选择合适的大小3-2. 如何选择大小Mini-Batch1. 简述所谓mini-batch，就是将整个样本集划分成很多个小的样本集。2. 两个概念. Batch gradient descend：相当于大小为m （m为样本数量）的mini-...
复制链接

扫一扫