为什么要做Batch Normalization

最新推荐文章于 2024-05-10 09:44:27 发布

林林宋

最新推荐文章于 2024-05-10 09:44:27 发布

阅读量852

点赞数 1

分类专栏：深度学习基础知识

本文链接：https://blog.csdn.net/qq_40168949/article/details/85047953

版权

深度学习基础知识专栏收录该内容

31 篇文章 2 订阅

订阅专栏

2015年的文章《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

简单说：BN就是将数据集转化成均值为0，方差为1的矩阵

因为每一层的输出都是一个比较小的数值，多层累积之后数值会非常小，（也可以理解成矩阵的偏移）在学习反传的时候遇到困难，将数据进行归一化处理，在0-1之间分布，使得学习比较容易。

一、预备知识

数据预处理的方法：减均值<z-score<白化<BN

但是普通的归一化会影响学到的特征，因此实际上对于每个神经元是引入了可学习的参数

图像数据的每一维一般都是0-255之间的数字，因此数据点只会落在第一象限，而且图像数据具有很强的相关性，比如第一个灰度值为30，比较黑，那它旁边的一个像素值一般不会超过100，否则给人的感觉就像噪声一样。由于强相关性，数据点仅会落在第一象限的很小的区域中，形成类似上图所示的狭长分布。在使用梯度下降时，会用虚线将数据很好的分隔开。

上面举的只是一个二维平面四个象限的例子，如果数据是几百、几千、上万维呢？而且数据在第一象限中也只是占了很小的一部分区域而已，可想而知不对数据进行预处理带来了多少运算资源的浪费，而且大量的数据外分割面在迭代时很可能会在刚进入数据中时就遇到了一个局部最优，导致overfit的问题。

将数据减去其均值，数据点就不再只分布在第一象限，这时一个随机分界面落入数据分布的概率增加了2^n倍！

如果我们使用去除相关性的算法，例如PCA和ZCA白化，数据不再是一个狭长的分布，随机分界面有效的概率就又大大增加了。不过计算协方差矩阵的特征值太耗时也太耗空间，我们一般最多只用到z-score处理，即每一维度减去自身均值，再除以自身标准差，这样能使数据点在每维上具有相似的宽度，可以起到一定的增大数据分布范围，进而使更多随机分界面有意义的作用。

二、具体实现

文中使用了类似z-score的归一化方式：每一维度减去自身均值，再除以自身标准差，由于使用的是随机梯度下降法，这些均值和方差也只能在当前迭代的batch中计算，故作者给这个算法命名为Batch Normalization。这里有一点需要注意，像卷积层这样具有权值共享的层，Wx+b的均值和方差是对整张map求得的，在batch_size * channel * height * width这么大的一层中，对总共batch_size*height*width个像素点统计得到一个均值和一个标准差，共得到channel组参数。

注意到，如果我们令gamma等于之前求得的标准差，beta等于之前求得的均值，则这个变换就又将数据还原回去了。在他们的模型中，这两个参数与每层的W和b一样，是需要迭代求解的。

BN向前传导的过程

测试集的均值方差

在测试集上没有预先算好的均值和方差，用的是训练集的数据，均值是所有 batch的均值再求平均，方差是每个batch的无偏估计（？？没太懂）

将BN置于激活函数之前，可以省掉bias项，因为BN之后等于没有加

三、算法优势

算法优势

　　总结论文列举的优势（实效性待自己验证）

　　(1) 可以使用更高的学习率。如果每层的scale不一致，实际上每层需要的学习率是不一样的，同一层不同维度的scale往往也需要不同大小的学习率，通常需要使用最小的那个学习率才能保证损失函数有效下降，Batch Normalization将每层、每维的scale保持一致，那么我们就可以直接使用较高的学习率进行优化。

　　(2) 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法，而导致overfit的位置往往在数据边界处，如果初始化权重就已经落在数据内部，overfit现象就可以得到一定的缓解。论文中最后的模型分别使用10%、5%和0%的dropout训练模型，与之前的40%-50%相比，可以大大提高训练速度。

　　(3) 降低L2权重衰减系数。还是一样的问题，边界处的局部最优往往有几维的权重（斜率）较大，使用L2衰减可以缓解这一问题，现在用了Batch Normalization，就可以把这个值降低了，论文中降低为原来的5倍。

　　(4) 取消Local Response Normalization层。由于使用了一种Normalization，再使用LRN就显得没那么必要了。而且LRN实际上也没那么work。

　　(5) 减少图像扭曲的使用。由于现在训练epoch数降低，所以要对输入数据少做一些扭曲，让神经网络多看看真实的数据。

参考：https://blog.csdn.net/wfei101/article/details/79997708

参考：https://blog.csdn.net/suan2014/article/details/77915293

林林宋

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
为什么要做Batch Normalization

2015年的文章《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》简单说：BN就是将数据集转化成均值为0，方差为1的矩阵因为每一层的输出都是一个比较小的数值，多层累积之后数值会非常小，（也可以理解成矩阵的偏移）在学习反传的时候...
复制链接

扫一扫