神经网络BN层batch normalization参数计算

bblingbbling

已于 2024-09-08 16:57:52 修改

阅读量7.5k

点赞数 7

分类专栏：深度学习文章标签：神经网络 batch 人工智能

于 2021-02-27 13:14:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bblingbbling/article/details/114168687

版权

深度学习专栏收录该内容

30 篇文章 3 订阅

订阅专栏

神经网络BN层batch normalization参数计算

作用
计算过程
训练阶段
预测阶段

作用

BN层一般放在线性层或卷积层后面，激活函数前面，作用如下：

1.加快网络收敛；
因为每层的数据都转换为同一的分布，这样会加快训练速度。

2.防止梯度爆炸和梯度消失；
因为BN会使非线性变换函数的输入值落入对输入比较敏感的区域。

3.防止过拟合，提升泛化能力。
因为BN求均值和方差是基于同一个batch内的样本，使网络不会朝一个方向学习。

计算过程

在这里插入图片描述

为什么会有放缩系数 $\gamma$ 和平移系数 $\beta$ ？
因为归一化不可避免的会改变数据的分布，从而可能会对激活函数只使用了其线性部分，限制了模型的表达能力。引入参数 $\gamma$ 和 $\beta$ 可以使网络的输出重构原始特征的表达能力。

训练阶段

在训练阶段，BN会对batch内的每个样本做归一化，每一层特征图会计算出HxWxChannel个均值和方差。训练时计算的均值和方差会不断按加权累积下来，通过移动平均的方法来近似得到整个样本集的均值和方差。

训练过程中共会产生（图片总数/batchsize）组 $\gamma$ 和 $\beta$ 。

在反向传播时，利用 $\gamma$ 和 $\beta$ 求梯度从而改变训练权重，每层都有自己的 $\gamma$ 和 $\beta$ 。

预测阶段

在预测阶段，很可能不是按batch预测的，通常只有一个样本，那么BN层中的均值和方差都是固定的，那就需要用到训练时的均值和方差通过移动平均而得到。

关注

7
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。