详解Batch Normalization并基于PyTorch实操（附代码）

使者大牙

已于 2023-11-05 11:03:14 修改

阅读量1.4k

点赞数 11

分类专栏：【PyTorch实战演练】文章标签： batch pytorch 深度学习

于 2022-02-27 21:24:18 首次发布

本文链接：https://blog.csdn.net/m0_49963403/article/details/122911388

版权

【PyTorch实战演练】专栏收录该内容

22 篇文章 10 订阅

订阅专栏

文章目录

0. 前言

按照国际惯例，首先声明：本文只是我自己学习的理解，虽然参考了他人的宝贵见解，但是内容可能存在不准确的地方。如果发现文中错误，希望批评指正，共同进步。
本文初创于2022-02-27，由于存在纰漏，以及这一年多的持续学习有一丢丢积累，于2023-09-10进行大修。

本文将从Batch Normalization的数学定义入手，讲解Batch Normalization的计算过程，然后说明Batch Normalization在深度学习中的作用。

1. Batch Normalization的数学定义

1.1 Normalization的表达式

首先需要讲解Normalization的定义。Normalization是对矩阵（张量）的一种操作：这种操作会使原来的张量变成一个均值为0，方差为1的新的张量，其数学表达式为：
$\frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x]}}$
其中 $x$ 为Normalization操作前的数据（原始数据），E $[x]$ 为 $x$ 的平均值，Var $[x]$ 为 $x$ 的平方差， $y$ 为Normalization操作后的数据。

在工程上，为了避免Var $[x]$ =0导致分母为0，还会在分母上加一个很小的值 $\epsilon$ （例如 $10^{-5}$ ）：

$\frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}}$

1.2 Batch Normalization的表达式

Batch Normalization在Normalization的基础上增加了缩放因子 $\gamma$ 和偏移量 $\beta$ ，这样其数学表达式就变成了：

$\frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta$

这里就出现了一个难点：缩放因子 $\gamma$ 和偏移量 $\beta$ 如何计算？

其实缩放因子 $\gamma$ 和偏移量 $\beta$ 都是可以学习的参数，其默认值为 $\gamma=1$ ， $\beta=0$ ，即不进行缩放和偏移。

Pytorch源码注释 :math:\gamma and :math:\beta are learnable parameter vectors of size C (where C is the input size). By default, the elements of :math:\gamma are set to 1 and the elements

这样 $\gamma$ 和 $\beta$ 可以看作是关于 $x$ 的变量，在反向传播时也要计算损失函数 $L$ 对 $\gamma$ 和 $\beta$ 的偏导，并对其进行优化：
$\frac{\partial L}{\partial \gamma} = \sum_{i=1}^m \frac{\partial L}{\partial y^{(i)}} \frac{x^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}}$

$\frac{\partial L}{\partial \beta} = \sum_{i=1}^m \frac{\partial L}{\partial y^{(i)}}$

特殊地，如果 $\gamma = \sqrt{\mathrm{Var}[x] + \epsilon}$ 且 $\beta=E[x]$ ，那就等于是原始数据什么都没处理过，还是原来模样。

2. Batch Normalization的作用

Batch Normalization应用于深度学习模型中，它的作用大体可以包括以下几个方面：

改善梯度消失/爆炸问题：在深层神经网络中，前面层的梯度经过多次传递后会变得非常小或非常大，从而导致网络收敛速度慢或者不收敛。通过Batch Normalization，可以将每个特征值归一化到均值为0，方差为1的标准正态分布，从而避免梯度消失/爆炸问题。
加速网络收敛：Batch Normalization可以加速网络的收敛速度，因为它可以使得每个神经元的输入分布更加稳定，从而使得网络更容易学习有效的特征。
提高模型泛化能力：Batch Normalization可以减少由于数据分布的变化导致的模型性能下降，从而提高模型的泛化能力。
减少过拟合：Batch Normalization可以提高网络的鲁棒性，使得模型对输入的微小变化更加稳定，从而减少过拟合的风险。

3. PyTorch实战

我们可以计算如下简单矩阵的Batch Normalization操作后的数据。
$\left\{ \begin{matrix} 1 & 1 \\ -1 & 1 \end{matrix} \right\}$
在PyTorch中使用nn.BatchNorm2d方法完成矩阵的Batch Normalization操作，它的常用参数如下：

num_features: 输入特征的数量，通常为输入数据的通道数。
eps: 防止除以0的小值，缺省值为1e-5。
momentum: 动量，通常取较小的值（如0.1），用于计算滑动平均值。
affine: 是否对输出进行仿射变换，默认为True表示进行仿射变换。
track_running_stats: 是否在训练时计算并跟踪运行时统计量，缺省值为True。

一般在使用nn.BatchNorm2d时，通常只需要设置num_features参数即可，其他参数可以使用默认值。

import torch

a = torch.tensor([[[[1,1],
                  [-1,1]]]],dtype=torch.float32)
bn = torch.nn.BatchNorm2d(1) 

b = bn(a)
print(b)

输出为：

tensor([[[[ 0.5773,  0.5773],
          [-1.7320,  0.5773]]]], grad_fn=<NativeBatchNormBackward>)

与笔算结果一致：
$\left\{ \begin{matrix} √3/3 & √3/3 \\ -√3 &√3/3 \end{matrix} \right\}$
这样，关于Batch Normalization就说明完了~

使者大牙

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
6
评论
详解Batch Normalization并基于PyTorch实操（附代码）

一文全解Batch Normalization
复制链接

扫一扫

专栏目录