Batch Normalization批标准化的原理,为什么以及如何使用Batch Normalization

最新推荐文章于 2024-04-25 11:01:22 发布

皮皮#2500

最新推荐文章于 2024-04-25 11:01:22 发布

阅读量375

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41452267/article/details/110850352

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Batch Normalization批标准化的原理,以及如何使用Batch Normalization

为什么使用Batch Normalization

Batch Normalization(BN)方法最初在Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift被提出，是用来解决“Internal Covariate Shift”问题的。

Internal Covariate Shift

含义：在训练过程中，隐层的输入分布老是变来变去，这就是所谓的“Internal Covariate Shift”。
影响：随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（对于Sigmoid函数来说，意味着激活输入值WU+B是大的负值或正值），所以这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。

Batch Normalization本质思想

核心思想：BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。经过BN后，大部分Activation的值落入非线性函数的线性区内，其对应的导数远离导数饱和区，这样来加速训练收敛过程。

与zero-mean的区别：如果每个隐藏层都通过BN，那么不就跟把非线性函数替换成线性函数效果相同了？这意味着什么？我们知道，如果是多层的线性函数变换其实这个深层是没有意义的，因为多层线性网络跟一层线性网络是等价的。这意味着网络的表达能力下降了，这也意味着深度的意义就没有了。所以BN为了保证非线性的获得，对变换后的满足均值为0方差为1的x又进行了scale加上shift操作(y=scale*x+shift)，每个神经元增加了两个参数scale和shift参数，这两个参数是通过训练学习到的，意思是通过scale和shift把这个值从标准正态分布左移或者右移一点并长胖一点或者变瘦一点，每个实例挪动的程度不一样，这样等价于非线性函数的值从正中心周围的线性区往非线性区动了动。核心思想应该是想找到一个线性和非线性的较好平衡点，既能享受非线性的较强表达能力的好处，又避免太靠非线性区两头使得网络收敛速度太慢。

如何使用Batch Normalization

目前关于如何使用BN并没有一个非常明确的结论性质的总结，但是根据经验尝试总结如下：
问题：
在这里插入图片描述
回答：
①

②

参考链接

Batch Normalization原理：
深入理解Batch Normalization批标准化
 深度学习—BN的理解
如何使用Batch Normalization：
Where should I place the batch normalization layer(s)?
A Gentle Introduction to Batch Normalization for Deep Neural Networks

皮皮#2500

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization批标准化的原理,为什么以及如何使用Batch Normalization

Batch Normalization批标准化的原理,以及如何使用Batch Normalization为什么使用Batch NormalizationInternal Covariate ShiftBatch Normalization本质思想如何使用Batch Normalization参考链接为什么使用Batch NormalizationBatch Normalization(BN)方法最初在Batch Normalization: Accelerating Deep Network Train
复制链接

扫一扫