5、BN层的作用及原理？

最新推荐文章于 2024-06-04 21:48:28 发布

北京纯牛奶

最新推荐文章于 2024-06-04 21:48:28 发布

阅读量7.6k

点赞数 6

分类专栏：面试问题总结

本文链接：https://blog.csdn.net/qq_44666320/article/details/106524271

版权

面试问题总结专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Normalization是数据标准化（归一化，规范化），Batch 可以理解为批量，加起来就是批量标准化。在CNN中，Batch就是训练网络所设定的图片数量batch_size。

作用（归一化至：均值0、方差为1）：

（1）加速网络收敛速度，可以使用较大的学习率来训练网络

（2）改善梯度弥散

（3）提高网络的泛化能力

（4）BN层一般用在线性层和卷积层后面，而不是放在非线性单元后

因为非线性单元的输出分布形状会在训练过程中变化，归一化无法消除他的方差偏移，相反的，全连接和卷积层的输出一般是一个对称,非稀疏的一个分布，更加类似高斯分布，对他们进行归一化会产生更加稳定的分布。

BN层本质上是一个归一化网络层，可以替代局部响应归一化层（Local Response Normalization，LRN层）。
可以打乱样本训练顺序（这样就不可能出现同一张照片被多次选择用来训练）论文中提到可以提高1%的精度。

原理解释：

管随机梯度下降法对于训练深度网络简单高效，但是它有个毛病，就是需要我们人为的去选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要，以至于我们很多时间都浪费在这些的调参上，不需要那么刻意的慢慢调整参数。BN算法（Batch Normalization）其强大之处。

可以选择比较大的初始学习率，让你的训练速度飙涨。
不用去理会过拟合中drop out、L2正则项参数的选择问题，采用BN算法后，你可以移除这两项了参数，或者可以选择更小的L2正则约束参数了，因为BN具有提高网络泛化能力的特性；
再也不需要使用使用局部响应归一化层了（局部响应归一化是Alexnet网络用到的方法）
可以把训练数据彻底打乱（防止每批训练的时候，某一个样本都经常被挑选到，文献说这个可以提高1%的精度）。

神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；
一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度；
把网络中间层在训练过程中，数据分布的改变称之为：“Internal Covariate Shift”。Paper所提出的算法，就是要解决在训练过程中，中间层数据分布发生改变的情况，于是有了Batch Normalization。

BN层本质原理：在网络的每一层输入的时候，又插入了一个归一化层，也就是先做一个归一化处理，然后再进入网络的下一层。不过文献归一化层，可不像我们想象的那么简单，它是一个可学习、有参数的网络层。既然说到数据预处理

北京纯牛奶

关注

6
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
5、BN层的作用及原理？

Normalization是数据标准化（归一化，规范化），Batch 可以理解为批量，加起来就是批量标准化。在CNN中，Batch就是训练网络所设定的图片数量batch_size。作用（归一化至：均值0、方差为1）：（1）加速网络收敛速度，可以使用较大的学习率来训练网络（2）改善梯度弥散（3）提高网络的泛化能力（4）BN层一般用在线性层和卷积层后面，而不是放在非线性单元后因为非线性单元的输出分布形状会在训练过程中变化，归一化无法消除他的方差偏移，相反的，全连接和卷积层的输出一般是一个
复制链接

扫一扫

专栏目录