深度学习小白笔记：Batch Normalization

最新推荐文章于 2023-07-10 14:51:39 发布

qq_42883766

最新推荐文章于 2023-07-10 14:51:39 发布

阅读量238

点赞数

本文链接：https://blog.csdn.net/qq_42883766/article/details/85038780

版权

这次主要来看看GoogLeNet之Batch Normalization的部分。论文的原名叫做《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》
所以这次论文相对于V1的论文的。在整体架构不做变动的基础上，致力于解决Internal Covariate Shift的问题。

解读 Internal Covariate Shift：

covariate shift 的概念： covariate shift现象，这个指的是训练集的数据分布和预测集的数据分布不一致，这样的情况下如果我们在训练集上训练出一个分类器，肯定在预测集上不会取得比较好的效果。这种训练集和预测集样本分布不一致的问题就叫做“covariate shift”现象。

对于深度学习这种包含很多隐层的网络结构，在训练过程中，因为各层参数不停在变化，所以每个隐层都会面临covariate shift的问题，也就是在训练过程中，隐层的输入分布老是变来变去，这就是所谓的“Internal Covariate Shift”。

在这种问题下，Batch Normalization的基本思想就非常明晰了：让每个隐层节点的激活输入分布固定下来！！

Batch Normalization解决方案：

Batch Normalization的提出启发：
之前的研究表明如果在图像处理中对输入图像进行白化（Whiten）操作那么神经网络会较快收敛。（白化，就是对输入数据分布变换到0均值，单位方差的正态分布）
于是，BN的作者推论：图像是深度神经网络的输入层，做白化能加快收敛，那么其实对于深度网络来说，其中某个隐层的神经元是下一层的输入。
Batch Normalization的就可以理解成对深层神经网络每个隐层神经元的激活值做简化版本的白化操作。

所以可以看出团队还是很好的根据之前的研究做了进一步的推广，虽然很多细节不是很清晰（我只是简单地感觉关联感，并没有很强的理论支撑，我太弱了o(╥﹏╥)o），但是实践证明，这种合理的推论是有效的。
Batch Normalization本质思想：
对于每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。

在传统的深度网络中，过高的学习率可能会导致梯度爆炸或消失，并陷入较差的局部极小值。批处理规范化有助于解决这些问题。通过对整个网络的激活进行归一化，它可以防止参数的微小变化在梯度上放大为更大的、次优的激活变化; 例如，它可以防止训练陷入非线性饱和状态。
同时，批处理标准化也使训练对参数尺度更有弹性。通过层的反向传播不受其参数规模的影响
Batch Normalization训练过程：

- Mini-Batch SGD：

对每个隐层神经元的激活值做BN，可以想象成每个隐层又加上了一层BN操作层，它位于X=WU+B激活值获得之后，非线性函数变换之前。
在这里插入图片描述
这里的t层是指这个神经元的线性激活x=WU+B，U是t-1层的神经元输出。

核心公式：
在这里插入图片描述
某个神经元对应的原始的激活x通过减去mini-Batch内m个实例获得的m个激活x求得的均值E(x)并除以求得的方差Var(x)来进行转换。

又出现问题啦~~
作者表示，如果单纯这么做，会降低层的表达能力。在使用sigmoid激活函数的时候，如果把数据限制到0均值单位方差，那么相当于只使用了激活函数中近似线性的部分。这样会大大降低模型表达能力。
因此作者为BN增加了2个参数来保证模型的表达能力。
在这里插入图片描述

这个是BN的具体流程：
在这里插入图片描述

测试过程：
在这里插入图片描述
这里的均值和方差已经不是针对某一个Batch了，而是针对整个数据集而言。因此，在训练过程中除了正常的前向传播和反向求导之外，我们还要记录每一个Batch的均值和方差。

每次做Mini-Batch训练时，都会有那个Mini-Batch里m个训练实例获得的均值和方差，现在要全局统计量，只要把每个Mini-Batch的均值和方差统计量记住。
在这里插入图片描述

实验：
在这里插入图片描述
这是作者所进行的对比试验，（a）运用BN的训练加快，（b）（c）分别展示了训练过程数据分布变化。

实验结果的对比，在使用BN的过程中，作者发现Sigmoid激活函数比Relu效果要好。（感到有点意外）

总结一下BN的好处和特点:
好处：
1.极大提升了训练速度和收敛过程。（看看上面的实验对比，直观明显）
2.取消Local Response Normalization层。由于使用了一种Normalization，效果更棒，那就干脆不用LRN浪费表情了（^ _ ^）。
3.增加分类效果，类似于Dropout的一种防止过拟合的正则化表达方式。
特点：
1.归一化了每层和每维度的scale，所以可以整体使用一个较高的学习率，而不必像以前那样迁就小scale的维度。
2.批处理标准化也使训练对参数尺度更有弹性。通过层的反向传播不受其参数规模的影响。

大概就读懂了这么多吧，，，，有些细节和函数的运算逻辑还不清晰，要回顾一下。。。
持续更新中。。。

参考资料：