Batch Normalization详解

最新推荐文章于 2023-08-09 08:31:09 发布

ming6383

最新推荐文章于 2023-08-09 08:31:09 发布

阅读量237

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ming6383/article/details/105124963

版权

深度学习专栏收录该内容

13 篇文章 3 订阅

订阅专栏

对于第k维度的特征，大小为m的batch的BN计算，其中 $\gamma$ 和 $\beta$ 是可学习参数, $\epsilon$ 是一个为了保持计算稳定的常数，一般取值为 $e^{-5}$ (PyTorch默认)。
在这里插入图片描述
梯度回传：

深度学习100问之深入理解Batch Normalization（批归一化）

BN 训练时

BN在训练阶段是保持计算每一个Batch的均值和方差的，其计算算法：

BN测试时

那么对每层的输入数据进行batch normalization之后，我们可以更加快速地实现收敛，那么当整个模型训练成功之后，我们需要对网络进行测试，这时候输入的单个的样本，只有一个数据，如何对这个输入样本进行规范呢？

答案就是我们在训练的时候要记住每个mini-batch的均值与方差，然后根据这些数据计算训练集整体的均值与方差（均值的期望、方差的无偏估计），公式如下：
在这里插入图片描述
利用整体的均值与方差，实现对单个样本的规范化，然后再输入到训练好的网络中进行测试。

BN训练时为什么不用全量训练集的均值和方差呢？

因为用全量训练集的均值和方差容易过拟合，对于BN，其实就是对每一批数据进行归一化到一个相同的分布，而每一批数据的均值和方差会有一定的差别，而不是用固定的值，这个差别实际上能够增加模型的鲁棒性，也会在一定程度上减少过拟合。

也正是因此，BN一般要求将训练集完全打乱，并用一个较大的batch值，否则，一个batch的数据无法较好得代表训练集的分布，会影响模型训练的效果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization详解

深度学习100问之深入理解Batch Normalization（批归一化）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。