PyTorch -- Batch Normalization（BN）快速实践

CODE_RabbitV

已于 2024-06-15 22:59:30 修改

阅读量829

点赞数 10

分类专栏： PyTorch 学习文章标签： pytorch batch 人工智能

于 2024-06-15 22:54:16 首次发布

本文链接：https://blog.csdn.net/CODE_RabbitV/article/details/139665053

版权

PyTorch 学习专栏收录该内容

17 篇文章 3 订阅

订阅专栏

Batch Normalization 可以
- 改善梯度消失/爆炸问题：前面层的梯度经过多次传递后会变得非常小(大)，从而导致网络收敛速度慢(不收敛)，应用 BN 可缓解
- 加速网络收敛：BN 使得每个神经元的输入分布更加稳定
- 减少过拟合：BN 可减少由于数据分布的变化导致的模型性能下降
- 提高模型泛化能力：BN 使得模型对输入的微小变化更加稳定
- 缓解超参敏感：对于 learning rate 等超参数敏感性降低
- …
Batch Normalization（BN）：使 feature map 满足均值为 0，方差为 1 的分布规律
- 如果batch size为m，则在前向传播过程中，网络中每个节点都有m个输出，所谓的Batch Normalization，就是对该层每个节点的这m个输出进行归一化再输出
- 数学表达：每个 channel 下统计一个对应的均值和方差
  $x_{\text{norm}} = \frac{x - \mathbb{E}[x]}{\sqrt{Var[x]+\epsilon}} * \gamma + \beta$
  - 其中 $\gamma, \beta$ 为可学习的参数

代码实践：

>>> import torch
>>> import torch.nn as nn
>>>
>>> x = torch.rand(2,1,28,28)   		## *0.创建输入 x 
>>> bn = nn.BatchNorm2d(				## *1. 创建 bn 层,
						1,  				# -- 输入的 channel 数
						training = False, 	# -- 是否为训练模式
						affine = False) 	# -- 是否学习 γ β 				
>>> out = bn(x) 						## *2 获取输出

>>> # 查看相关数值 ------------------------------------------------
>>> bn.running_mean					# 均值
tensor([0.0507])
>>> bn.running_var 					# 方差
tensor([0.9080])
>>> bn.weight						# γ
Parameter containing:
tensor([1.], requires_grad=True)
>>> bn.bias							# β
Parameter containing:
tensor([0.], requires_grad=True)