Batch Normalization层

最新推荐文章于 2022-04-27 18:44:12 发布

陈昊-1

最新推荐文章于 2022-04-27 18:44:12 发布

阅读量288

点赞数

分类专栏：深度学习-不同层

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fireflychh/article/details/77186160

版权

深度学习-不同层专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本次所讲的内容为Batch Normalization，简称BN，相关论文：《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

网络训练过程中参数不断改变导致后续每一层输入的分布也发生变化，而学习的过程又要使每一层适应输入的分布，因此不得不降低学习率，精心初始化。这种分布的变化称为internal covariate shift。

而BN的目的就是使得训练加快，同时不易发散。一般在训练网络时会将输入减去均值，甚至对输入做白化操作，目的是为加快训练，那么为何如此做能够加快训练呢。这是因为图像数据是高度相关的，假如其分布如下图a所示，一般在参数初始化时会以0均值进行初始化，而此时的网络函数y=wx+b一般都在原点附近，如图b的红色虚线，因此，网络需要经过多次学习才能逐步达到如紫色实现的拟合，因此收敛比较慢。如果我们对输入数据先作减均值操作，如图c，显然可以加快学习。更进一步的，我们对数据再进行去相关操作，使得数据更加容易区分，这样又会加快训练，如图d。

白化的方式有好几种，常用的有PCA白化：即对数据进行PCA操作之后，在进行方差归一化。这样数据基本满足0均值、单位方差、弱相关性。作者首先考虑，对每一层数据都使用白化操作，但分析认为这是不可取的。因为白化需要计算协方差矩阵、求逆等操作，计算量很大，此外，反向传播时，白化操作不一定可导。于是，作者采用下面的Normalization方法。

2-Normalization via Mini-Batch Statistics

数据归一化方法很简单，就是要让数据具有0均值和单位方差，如下式：

但是作者又说如果简单的这么干，会降低层的表达能力。比如下图，在使用sigmoid激活函数的时候，如果把数据限制到0均值单位方差，那么相当于只使用了激活函数中近似线性的部分，这显然会降低模型表达能力。

为此，作者又为BN增加了2个参数，用来保持模型的表达能力。
于是最后的输出为：

上述公式中用到了均值E和方差Var，需要注意的是理想情况下E和Var应该是针对整个数据集的，但显然这是不现实的。因此，作者做了简化，用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
整个BN的算法如下：

实际测试网络的时候，我们依然会应用下面的式子：

特别注意：这里的均值和方差已经不是针对某一个Batch了，而是针对整个数据集而言。因此，在训练过程中除了正常的前向传播和反向求导之外，我们还要记录每一个Batch的均值和方差，以便训练完成之后按照下式计算整体的均值和方差：

BN before or after Activation

作者在文章中说应该把BN放在激活函数之前，这是因为Wx+b具有更加一致和非稀疏的分布。但是也有人做实验表明放在激活函数后面效果更好。这是实验链接，里面有很多有意思的对比实验：https://github.com/ducha-aiki/caffenet-benchmark

3-Experiments

作者在文章中也做了很多实验对比，我这里就简单说明2个。
下图a说明，BN可以加速训练。图b和c则分别展示了训练过程中输入数据分布的变化情况。

陈昊-1 CSDN认证博客专家 CSDN认证企业博客

码龄14年

122: 原创

13万+: 周排名

101万+: 总排名

81万+: 访问

: 等级

5344: 积分

134: 粉丝

291: 获赞

37: 评论

1233: 收藏

私信

关注

热门文章

分类专栏

最新评论

解决libgtk2.0-dev依赖包的问题
lingdu66: 直接更新软件源，比如阿里源就管用
1_2 pytorch 调试相关问题
筱阳^_^: 确实，慎用+=，和*=这种操作，我也是这个问题
pytorch onnx install
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)文章不宜太短；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。
Distutils使用介绍
wink-leaf: 博主你知道怎么在pycharm下载distutils模块吗
ＲＯＳ安装问题
Beingbe931: 1的解决办法无法定位软件包怎么解决？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。