pytorch BatchNorm参数详解，计算过程

最新推荐文章于 2025-03-19 16:45:42 发布

置顶拿铁大侠

最新推荐文章于 2025-03-19 16:45:42 发布

阅读量3.5w

点赞数 53

分类专栏： pytorch batch normalization 批归一化文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39228381/article/details/107896863

版权

pytorch 同时被 3 个专栏收录

9 篇文章

订阅专栏

2 篇文章

订阅专栏

batch normalization

1 篇文章

订阅专栏

目录

BatchNorm1d参数

track_running_stats

BatchNorm1d训练时前向传播

BatchNorm1d评估时前向传播

说明

网络训练时和网络评估时，BatchNorm模块的计算方式不同。如果一个网络里包含了BatchNorm，则在训练时需要先调用train()，使网络里的BatchNorm模块的training=True（默认是True），在网络评估时，需要先调用eval()，使网络里的BatchNorm模块的training=False。

BatchNorm1d参数

torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

num_features

输入维度是(N, C, L)时，num_features应该取C；这里N是batch size，C是数据的channel，L是数据长度。

输入维度是(N, L)时，num_features应该取L；这里N是batch size，L是数据长度，这时可以认为每条数据只有一个channel，省略了C

eps

对输入数据进行归一化时加在分母上，防止除零，详情见下文。

momentum

更新全局均值running_mean和方差running_var时使用该值进行平滑，详情见下文。

affine

设为True时，BatchNorm层才会学习参数 $\gamma$ 和 $\beta$ ，否则不包含这两个变量，变量名是weight和bias，详情见下文。

track_running_stats

设为True时，BatchNorm层会统计全局均值running_mean和方差running_var，详情见下文。

BatchNorm1d训练时前向传播

首先对输入batch求和，并用这两个结果把batch归一化，使其均值为0，方差为1。归一化公式用到了eps()，即。如下输入内容，shape是(3, 4)，即batch_size=3，此时num_features需要传入4。
```
tensor = torch.FloatTensor([[1, 2, 4, 1],
                            [6, 3, 2, 4],
                            [2, 4, 6, 1]])
```
此时，（无偏样本方差）和（有偏样本方差），有偏和无偏的区别在于无偏的分母是N-1，有偏的分母是N。注意在BatchNorm中，用于更新running_var时，使用无偏样本方差即，但是在对batch进行归一化时，使用有偏样本方差，因此如果batch_size=1，会报错。归一化后的内容如下。
```
[[-0.9258, -1.2247,  0.0000, -0.7071],
 [ 1.3887,  0.0000, -1.2247,  1.4142],
 [-0.4629,  1.2247,  1.2247, -0.7071]]
```
如果track_running_stats==True，则使用momentum更新模块内部的running_mean（初值是[0., 0., 0., 0.]）和running_var（初值是[1., 1., 1., 1.]），更新公式是 $x_{new}=(1-momentum)\times x_{cur}+momentum\times x_{batch}$ ，其中 $x_{new}$ 代表更新后的running_mean和running_var， $x_{cur}$ 表示更新前的running_mean和running_var， $x_{batch}$ 表示当前batch的均值和无偏样本方差。
如果track_running_stats==False，则BatchNorm中不含有running_mean和running_var两个变量。
如果affine==True，则对归一化后的batch进行仿射变换，即乘以模块内部的weight（初值是[1., 1., 1., 1.]）然后加上模块内部的bias（初值是[0., 0., 0., 0.]），这两个变量会在反向传播时得到更新。
如果affine==False，则BatchNorm中不含有weight和bias两个变量，什么都都不做。

BatchNorm1d评估时前向传播

如果track_running_stats==True，则对batch进行归一化，公式为 $y=\frac{x-\hat{E}[x]}{\sqrt{\hat{Var}[x]+\epsilon }}$ ，注意这里的均值和方差是running_mean和running_var，在网络训练时统计出来的全局均值和无偏样本方差。
如果track_running_stats==False，则对batch进行归一化，公式为 $y=\frac{x-{E}[x]}{\sqrt{{Var}[x]+\epsilon }}$ ，注意这里的均值和方差是batch自己的mean和var，此时BatchNorm里不含有running_mean和running_var。注意此时使用的是无偏样本方差（和训练时不同），因此如果batch_size=1，会使分母为0，就报错了。
如果affine==True，则对归一化后的batch进行放射变换，即乘以模块内部的weight然后加上模块内部的bias，这两个变量都是网络训练时学习到的。
如果affine==False，则BatchNorm中不含有weight和bias两个变量，什么都不做。

总结

在使用batchNorm时，通常只需要指定num_features就可以了。网络训练前调用train()，训练时BatchNorm模块会统计全局running_mean和running_var，学习weight和bias，即文献中的 $\gamma$ 和 $\beta$ 。网络评估前调用eval()，评估时，对传入的batch，使用统计的全局running_mean和running_var对batch进行归一化，然后使用学习到的weight和bias进行仿射变换。

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。