BatchNormalization作用及使用

Jackie_Wang11

已于 2022-09-04 10:22:58 修改

阅读量1.9k

点赞数 3

分类专栏：深度学习与机器学习文章标签：深度学习神经网络机器学习

于 2022-02-09 09:39:05 首次发布

本文链接：https://blog.csdn.net/jq_98/article/details/122697330

版权

深度学习与机器学习专栏收录该内容

27 篇文章 1 订阅

订阅专栏

BatchNormalization作用及使用

BN层的提出
BN层的作用
BN层的使用

BN层的提出

Internal Covariate Shift ：此术语是google小组在论文Batch Normalizatoin 中提出来的，其主要描述的是：训练深度网络的时候经常发生训练困难的问题，因为，每一次参数迭代更新后，上一层网络的输出数据经过这一层网络计算后，数据的分布会发生变化，为下一层网络的学习带来困难（神经网络本来就是要学习数据的分布，要是分布一直在变，学习就很难了），此现象称之为Internal Covariate Shift.

Batch Normalizatoin 之前的解决方案就是使用较小的学习率，和小心的初始化参数，对数据做白化处理，但是显然治标不治本。

BN层的作用

（最重要）可以加快训练速率，即可以增大学习率，加快模型的收敛速度
不过分依赖网络初始值
一定程度上抑制了过拟合情况，降低了Dropout的必要性

BN层指的是对输入神经网络的一批次feature map数据的每一个通道进行归一化操作，使得输入每一维度满足均值为0方差为1的数据分布。这里需要注意的是，如果每一层都满足均值为0方差为1的标准正态分布，那么网络很难学习到新的信息，所以在最后需要添加缩放以及平移信息，以达到每一次数据经过归一化后还保留的有学习来的特征。
在这里插入图片描述

BN层的使用

在这里插入图片描述
重要：
（1）训练时要将traning参数设置为True，在验证时将trainning参数设置为False。在pytorch中可通过创建模型的model.train()和model.eval()方法控制。

（2）batch size尽可能设置大点，设置小后表现可能很糟糕，设置的越大求的均值和方差越接近整个训练集的均值和方差。

（3）建议将bn层放在卷积层（Conv）和激活层（例如Relu）之间，且卷积层不要使用偏置bias，因为没有用，参考下图推理，即使使用了偏置bias求出的结果也是一样的
在这里插入图片描述

（4）目前CNN网络，CBRP结构已经是标配，如果网络中使用了全连接，那么Dropout和BN共用往往效果不是很好
（5）面试常问的问题，BN在训练和测试时的区别在哪里？训练时是对每一批训练数据进行归一化，当一个模型训练完成时，BN的参数都确定了，比如均值方差，gamma和beta，在测试时，比如进行一个样本预测，没有batch的概念，使用全局训练数据的均值和方差，这个全局训练数据的均值和方差是通过滑动平均确定的。
这里附上滑动平均的讲解：BN/Batch Norm中的滑动平均/移动平均/Moving Average

Jackie_Wang11

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
BatchNormalization作用及使用

BatchNormalization作用及使用BN层的提出BN层的作用BN层的使用BN层的提出Internal Covariate Shift ：此术语是google小组在论文Batch Normalizatoin 中提出来的，其主要描述的是：训练深度网络的时候经常发生训练困难的问题，因为，每一次参数迭代更新后，上一层网络的输出数据经过这一层网络计算后，数据的分布会发生变化，为下一层网络的学习带来困难（神经网络本来就是要学习数据的分布，要是分布一直在变，学习就很难了），此现象称之为Internal Co
复制链接

扫一扫

专栏目录