详解Batch Normalization并基于PyTorch实操(附代码)

0. 前言

按照国际惯例,首先声明:本文只是我自己学习的理解,虽然参考了他人的宝贵见解,但是内容可能存在不准确的地方。如果发现文中错误,希望批评指正,共同进步。
本文初创于2022-02-27,由于存在纰漏,以及这一年多的持续学习有一丢丢积累,于2023-09-10进行大修。

本文将从Batch Normalization的数学定义入手,讲解Batch Normalization的计算过程,然后说明Batch Normalization在深度学习中的作用。

1. Batch Normalization的数学定义

1.1 Normalization的表达式

首先需要讲解Normalization的定义。Normalization是对矩阵(张量)的一种操作:这种操作会使原来的张量变成一个均值为0,方差为1的新的张量,其数学表达式为:
y = x − E [ x ] V a r [ x ] y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x]}} y=Var[x] xE[x]
其中 x x x为Normalization操作前的数据(原始数据),E [ x ] [x] [x] x x x的平均值,Var [ x ] [x] [x] x x x的平方差, y y y为Normalization操作后的数据。

在工程上,为了避免Var [ x ] [x] [x]=0导致分母为0,还会在分母上加一个很小的值 ϵ \epsilon ϵ(例如 1 0 − 5 10^{-5} 105):

y = x − E [ x ] V a r [ x ] + ϵ y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} y=Var[x]+ϵ xE[x]

1.2 Batch Normalization的表达式

Batch Normalization在Normalization的基础上增加了缩放因子 γ \gamma γ和偏移量 β \beta β,这样其数学表达式就变成了:

y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ+β

这里就出现了一个难点:缩放因子 γ \gamma γ和偏移量 β \beta β如何计算?

其实缩放因子 γ \gamma γ和偏移量 β \beta β都是可以学习的参数,其默认值为 γ = 1 \gamma=1 γ=1 β = 0 \beta=0 β=0,即不进行缩放和偏移。

Pytorch源码注释 :math:\gamma and :math:\beta are learnable parameter vectors of size C (where C is the input size). By default, the elements of :math:\gamma are set to 1 and the elements

这样 γ \gamma γ β \beta β可以看作是关于 x x x的变量,在反向传播时也要计算损失函数 L L L γ \gamma γ β \beta β的偏导,并对其进行优化:
∂ L ∂ γ = ∑ i = 1 m ∂ L ∂ y ( i ) x ( i ) − μ σ 2 + ϵ \frac{\partial L}{\partial \gamma} = \sum_{i=1}^m \frac{\partial L}{\partial y^{(i)}} \frac{x^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}} γL=i=1my(i)Lσ2+ϵ x(i)μ

∂ L ∂ β = ∑ i = 1 m ∂ L ∂ y ( i ) \frac{\partial L}{\partial \beta} = \sum_{i=1}^m \frac{\partial L}{\partial y^{(i)}} βL=i=1my(i)L

特殊地,如果 γ = V a r [ x ] + ϵ \gamma = \sqrt{\mathrm{Var}[x] + \epsilon} γ=Var[x]+ϵ β = E [ x ] \beta=E[x] β=E[x],那就等于是原始数据什么都没处理过,还是原来模样。

2. Batch Normalization的作用

Batch Normalization应用于深度学习模型中,它的作用大体可以包括以下几个方面:

  1. 改善梯度消失/爆炸问题:在深层神经网络中,前面层的梯度经过多次传递后会变得非常小或非常大,从而导致网络收敛速度慢或者不收敛。通过Batch Normalization,可以将每个特征值归一化到均值为0,方差为1的标准正态分布,从而避免梯度消失/爆炸问题。

  2. 加速网络收敛:Batch Normalization可以加速网络的收敛速度,因为它可以使得每个神经元的输入分布更加稳定,从而使得网络更容易学习有效的特征。

  3. 提高模型泛化能力:Batch Normalization可以减少由于数据分布的变化导致的模型性能下降,从而提高模型的泛化能力。

  4. 减少过拟合:Batch Normalization可以提高网络的鲁棒性,使得模型对输入的微小变化更加稳定,从而减少过拟合的风险。

3. PyTorch实战

我们可以计算如下简单矩阵的Batch Normalization操作后的数据。
{ 1 1 − 1 1 } \left\{ \begin{matrix} 1 & 1 \\ -1 & 1 \end{matrix} \right\} {1111}
在PyTorch中使用nn.BatchNorm2d方法完成矩阵的Batch Normalization操作,它的常用参数如下:

  • num_features: 输入特征的数量,通常为输入数据的通道数。
  • eps: 防止除以0的小值,缺省值为1e-5。
  • momentum: 动量,通常取较小的值(如0.1),用于计算滑动平均值。
  • affine: 是否对输出进行仿射变换,默认为True表示进行仿射变换。
  • track_running_stats: 是否在训练时计算并跟踪运行时统计量,缺省值为True。

一般在使用nn.BatchNorm2d时,通常只需要设置num_features参数即可,其他参数可以使用默认值。

import torch

a = torch.tensor([[[[1,1],
                  [-1,1]]]],dtype=torch.float32)
bn = torch.nn.BatchNorm2d(1) 

b = bn(a)
print(b)

输出为:

tensor([[[[ 0.5773,  0.5773],
          [-1.7320,  0.5773]]]], grad_fn=<NativeBatchNormBackward>)

与笔算结果一致:
{ √ 3 / 3 √ 3 / 3 − √ 3 √ 3 / 3 } \left\{ \begin{matrix} √3/3 & √3/3 \\ -√3 &√3/3 \end{matrix} \right\} {√3/3√3√3/3√3/3}
这样,关于Batch Normalization就说明完了~

  • 11
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

使者大牙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值