DeepLearing学习笔记-改善深层神经网络(第三周- 将batch-norm拟合进神经网络)

最新推荐文章于 2022-10-25 17:14:34 发布

JasonLiu1919

最新推荐文章于 2022-10-25 17:14:34 发布

阅读量880

点赞数

分类专栏：深度学习文章标签：神经网络 deep-learning

本文链接：https://blog.csdn.net/ljp1919/article/details/78300251

版权

深度学习专栏收录该内容

55 篇文章 3 订阅

订阅专栏

0- 背景

介绍如何将batch归一化引入到神经网络中

1- 流程如下：

在计算z之后，才是之前介绍的batch归一化方法，对其进行归一化，再替代原来的z值，输入到下该层的激活函数中。其他隐藏层，操作类似。
这里写图片描述
在实际中，可以直接使用框架中函数，而不必自己实现这些具体的细节。

tf.batch_normalization()#进行batch 归一化操作

2-min-batch下的batch归一化：

对于采用min-batch的处理方式的话，则是对每个min-batch样本集处理之后，对输出的Z进行batch归一化操作（减去均值，除以标准差）。各个min-batch样本都是做类似的工作：
这里写图片描述
其中每个min-batch之后，都会更新 $\beta和\gamma$ 值，batch归一化（BN）。
由于batch归一化处理的时候，减掉了一个均值操作，所以其实参数中的b参数会被均值减法所抵消掉。所以，在使用batch归一化时候，是可以不考虑b参数。
$z^{[l]}=w^{[l]}* a^{[l-1]}$
$z_{norm}^{[l]}$
$\tilde{z}^{[l]}=\gamma^{[l]}*z_{norm}^{[l]}+\beta^{[l]}$
其实只是在之前的处理逻辑中对 $z^{[l]}$ 进行了替换而已，其他的步骤是一样的。
$\gamma^{[l]}和\beta^{[l]}$ 的尺寸都是 $（n^{[l]},1）$ ，这是因为每层的神经元个数是 $n^{[l]}$ ，用 $\gamma^{[l]}和\beta^{[l]}$ 将每层的均值和方差进行缩放。

3- batch归一化加速原理

其中一个原因与输入特征值的归一化一样，归一化后的值都在一个特定范围内变化，加速了学习速度。另一个更深层次的原因是batch-归一化可以使权重比神经网络更滞后或者更深层。可以这样理解，batch归一化之后，比如第10层的权重相比于前层的权重（例如第1层）更够经受住变化，即更加稳定，使得前层和后层之后的相互影响减缓，层级之间相互独立一些。

假设有一个用于猫识别的浅层神经网络或者逻辑回归模型。训练集上的数据都是黑色的猫，但是如果现在想要用有色猫来作为测试集的话，可能结果不好。这类问题其实可以简化为映射问题，训练集是x，模型是映射函数，y则是映射结果。如果已经学习了x到y的映射，此时当x的分布改变了，那么我们可能需要重新训练，这就是神经网络中的covariate shift问题。
我们从下面的一个神经网络模型来分析：
这里写图片描述
从第三隐藏层来看学习过程，此时的网络已经学习了参数 $w^{[3]}和b^{[3]}$ 。从该层角度来看的话，它从前层中获取的值，结合参数 $w^{[3]}和b^{[3]}$ 等参数，目的是希望最后输出层的输出值 $\hat{y}$ 接近真实值 $y$ 。
我们先不看第三层左边部分，只看第三隐藏层：
这里写图片描述
输入是 $a_1^{[2]},a_2^{[2]},a_3^{[2]},a_4^{[2]}$ ，接收该输入的隐藏层找到一种方式，使得这些输入值映射到 $\hat{y}$ ，其中涉及到的参数是 $w^{[3]}和b^{[3]},w^{[4]}和b^{[4]}等等$ 。
我们再来看第三隐藏层左边的部分，涉及到的参数是 $w^{[2]}和b^{[2]},w^{[1]}和b^{[1]}$ ，如果这些参数发生变化，对于第三隐藏层的输入值 $a^{[2]}$ 也会发生变化。
所以，从第三隐藏层的角度来看，这些隐藏单元的值在不断变化着，所以，就有了covariate shift问题。batch归一化的作用，就是减少了这些隐藏单元值分布变化的数量范围。

当神经网络的参数更新时， $z_1^{[2]}和z_2^{[2]}$ 等发生改变，通过batch归一化可确保，无论这些值怎么变化，都可以保证 $z_1^{[2]}和z_2^{[2]}$ 等的均值和方差保持不变。
batch归一化操作，限制了前层的参数更新，从而影响单元值分布程度。它减少了输入值的改变，使得这些值变得更加稳定。这也使得之后的神经网络的基础更牢固，即使输入分布改变了一些，那么它会变得更小。它所做的就是减弱了前层参数的作用与后层参数的作用之间的联系，使得每层网络都可以自己学习，稍稍独立于其他层，从而有助于加速整个网络的学习。
从后层的角度来看，batch归一化使得前层不会左右移动太多。毕竟它们都被相同的均值和方差所限制。所以，均值和方差相同是指这个意思。这也使得后层的学习变得更加容易。

batch-归一化的轻微正则化效果：
batch归一化中非直观的就是每个min-batch（ $X^{\{i\}}$ ）的值Z都被均值和方差缩放了。由于在min-batch上计算的均值和方差是基于子数据集（min-batch size大小的数据上），而不是整个训练集，所以，均值和方差都有一些小噪声。这也就使得 $z^{[l]}$ 计算 $\tilde{z}^{[l]}$ 也存在噪声。这种效果与dropout相似，它往每个隐藏层的激活值中都添加了噪声。dropout使得一个隐藏的单元，以一定概率乘以0，一定概率乘以1，所以是含有多重噪声的。batch归一化的多重噪声，则是由于标准偏差的缩放，和减去均值操作带来的。隐藏单元多出来的这些噪声，迫使后部隐藏单元，不过分地依赖任何一个隐藏单元，因此有轻微的正则化效果。
因为噪声很小，所以，正则化效果不大，不如dropout的正则化效果。如果min-batch size较大，则会减少噪声，进而减少正则化效果。在使用过程可以将batch归一化和dropout一起使用。注意，batch-归一化的轻微正则是附带的，不是其主要的作用。

4- 测试时的batch归一化

训练时，batch归一化将数据以mini-batch的形式逐一处理，但在测试时，你可能需要对每一个样本逐个处理，怎样调整网络来做到这一点？
训练时：
$\mu = \frac{1}{m}\sum_{i}^{m}z^{(i)}$
$\sigma^2 = \frac{1}{m}\sum_{i}^{m}(z^{(i)}-\mu)^2$
$z_{norm}^{(i)}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}}$
$\tilde{z}^{(i)}=\gamma*z_{norm}^{(i)}+\beta$
其中的m表示该min-batch中的样本数量。
但是在测试的实时，我们是对于单个样本，无法同时取如一个min-batch size的样本数量进行处理，要怎么办？此时，我们需要用其他方式来计算 $\mu和\sigma^2$ ，而且对于一个样本来说，计算均值和方差也是没有意义的。
为了将训练好的神经网络应用于测试，需要单独计算 $\mu和\sigma^2$ ，一般是采用
指数加权平均的方式来估算 $\mu和\sigma^2$ 。这个平均数涵盖了所有的min-batch。
min-batch分别为 $X^{\{1\}}$ , $X^{\{2\}}....$
在为第 $l$ 层训练数据 $X^{\{1\}}$ 时，得到 $\mu^{\{1\}[l]}$
在为第 $l$ 层训练数据 $X^{\{2\}}$ 时，得到 $\mu^{\{2\}[l]}$
采用指数加权平均的方式我们就可以获取对这一隐藏层的均值 $z$ 的估计，同理我们可以根据各个min-batch的 $\sigma^2$ 来估计这层的 $\sigma^2$ 。在此基础上，我们就可以用z值来计算 $z_{norm}$ ，进而计算得到 $\tilde{z}$ 。所以，这里的均值和方差，其实是根据训练集估算出来的。

JasonLiu1919

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DeepLearing学习笔记-改善深层神经网络(第三周- 将batch-norm拟合进神经网络)

0- 背景介绍如何将batch归一化引入到神经网络中1- 流程如下：在计算z之后，才是之前介绍的batch归一化方法，对其进行归一化，再替代原来的z值，输入到下该层的激活函数中。其他隐藏层，操作类似。在实际中，可以直接使用框架中函数，而不必自己实现这些具体的细节。tf.batch_normalization()#进行batch 归一化操作2-min-batch下的batch归一化：对于采用m
复制链接

扫一扫