CV【4】：Batch normalization

zzzyzh

已于 2023-02-09 10:18:43 修改

阅读量485

点赞数 2

分类专栏： # Picture Classification 文章标签：深度学习神经网络

于 2023-02-07 15:26:52 首次发布

本文链接：https://blog.csdn.net/HoraceYan/article/details/128769458

版权

Picture Classification 专栏收录该内容

17 篇文章 8 订阅

订阅专栏

系列文章目录

Normalization 系列方法（一）：CV【4】：Batch normalization
Normalization 系列方法（二）：CV【5】：Layer normalization

前言

对于早前的 CNN 模型来说，大多使用 batch normalization 进行归一化，随着 Transformer 在计算机视觉领域掀起的热潮， layer normalization 开始被用于提升传统的 CNN 的性能，在许多工作中展现了不错的提升

本文主要是对 batch normalization 用法的总结

1. Batch normalization

1.1. Motivation

1.1.1. Single-level view

在这里插入图片描述
神经网络可以看成是上图形式，对于中间的某一层，其前面的层可以看成是对输入的处理，后面的层可以看成是损失函数。一次反向传播过程会同时更新所有层的权重 $W_1, W_2, \cdots, W_L$ ，前面层权重的更新会改变当前层输入的分布，而跟据反向传播的计算方式，我们知道，对 $W_k$ 的更新是在假定其输入不变的情况下进行的

如果假定第 $k$ 层的输入节点只有 2 个，对第 $k$ 层的某个输出节点而言，相当于一个线性模型 $y = w_1x_1 + w_2x_2 + b$ ，如下图所示，

在这里插入图片描述
假定当前输入 $x_1$ 和 $x_2$ 的分布如图中圆点所示，本次更新的方向是将直线 $H_1$ 更新成 $H_2$ ，但是当前面层的权重更新完毕，当前层输入的分布换成了另外一番样子，直线相对输入分布的位置可能变成了 $H_3$ ，下一次更新又要根据新的分布重新调整

1.1.2. Internal Covariate Shift

深度学习这种包含很多隐层的网络结构，在训练过程中，因为各层参数不停在变化，每一层的参数更新都会导致上层的输入数据在输出时分布规律发生了变化，并且这个差异会随着网络深度增大而增大 —— 这就是 Internal Covariate Shift

每个神经元的输入数据不再是独立同分布的了，会导致如下问题：

上层参数需要不断适应新的输入数据分布，降低学习速度
下层输入的变化可能趋向于变大或者变小，导致上层落入饱和区。反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因 —— 梯度消失

1.1.3. Whitening

所谓白化，就是对输入数据分布变换到0均值，单位方差的正态分布

白化过程就是对数据进行如下的操作：

去除数据之间的关联性，使之满足独立这个条件
使得特征具有相同的均值和方差，就是同分布

之前的研究表明如果在图像处理中对输入图像进行白化（Whiten）操作的话，那么神经网络会较快收敛。

BN 作者就开始尝试：图像是深度神经网络的输入层，做白化能加快收敛，那么其实对于深度网络来说，其中某个隐层的神经元是下一层的输入，意思是其实深度神经网络的每一个隐层都是输入层，不过是相对下一层来说而已，那么能不能对每个隐层都做白化呢？

这就是启发BN产生的原初想法，而 BN 也确实就是这么做的，可以理解为对深层神经网络每个隐层神经元的激活值做简化版本的白化操作

1.2. Definition

Batch Normalization，简称 BatchNorm 或 BN，翻译为批归一化，是神经网络中一种特殊的层，如今已是各种流行网络的标配。在原论文中，BN 被建议插入在（每个）ReLU 激活层前面，如下所示：

在这里插入图片描述
BN 的基本思想：

因为深层神经网络在做非线性变换前的激活输入值（对于计算公式 $x = W U + B$ ， $U$ 是输入）随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动
- 之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（对于 Sigmoid 函数来说，意味着激活输入值 $W U + B$ 是大的负值或正值）
- 这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因
而 BN 就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为 $0$ 方差为 $1$ 的标准正态分布
- 就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，
- 即让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度

1.3. Calculation process

1.3.1. Forward propagation

如果 batch size 为 $m$ ，则在前向传播过程中，网络中每个节点都有 $m$ 个输出，所谓的 Batch Normalization，就是对该层每个节点的这 $m$ 个输出进行归一化再输出，具体计算方式如下：

在这里插入图片描述

其操作可以分成2步，

Standardization：首先对 $m$ 个 $m$ 进行 Standardization，得到 zero mean unit variance 的分布 $\hat{x}$
scale and shift：然后再对 $\hat{x}$ 进行 scale and shift，缩放并平移到新的分布 $y$ ，具有新的均值 $\beta$ 方差 $\gamma$

假设BN层有 $d$ 个输入节点，则 $x$ 可构成 $\times m$ 大小的矩阵 $X$ ，BN 层相当于通过行操作将其映射为另一个 $\times m$ 大小的矩阵 $Y$ ，如下所示：

在这里插入图片描述
将 2 个过程写在一个公式里如下：

在这里插入图片描述
其中， $x^{(b)}_i$ 表示输入当前 batch 的 $b - t h$ 样本时该层 $i - t h$ 输入节点的值， $x_i$ 为 $[x_i^{(1)}, x_i^{(2)}, \cdots, x_i^{(m)}]$ 构成的行向量，长度为 batch size $m$ ， $\mu$ 和 $\sigma$ 为该行的均值和标准差， $\epsilon$ 为防止除零引入的极小量（可忽略）， $\gamma$ 和 $\beta$ 为该行的 scale 和 shift 参数，可知

$\mu$ 和 $\sigma$ 为当前行的统计量，不可学习
$\gamma$ 和 $\beta$ 为待学习的 scale 和 shift 参数，用于控制 $y_i$ 的方差和均值
- 上文说过经过这个变换后某个神经元的激活 $x$ 形成了均值为 $0$ ，方差为 $1$ 的正态分布，目的是把值往后续要进行的非线性变换的线性区拉动，增大导数值，增强反向传播信息流动性，加快训练收敛速度
- 但是这样会导致网络表达能力下降，为了防止这一点，每个神经元增加两个调节参数（scale 和 shift），这两个参数是通过训练来学习到的，用来对变换后的激活反变换，使得网络表达能力增强
BN 层中， $x_i$ 和 $x_j$ 之间不存在信息交流 $\neq j)$

可见，无论 $x_i$ 原本的均值和方差是多少，通过 BatchNorm 后其均值和方差分别变为待学习的 $\beta$ 和 $\gamma$

下图给出了一个计算均值 $\mu_{\mathcal{B}}$ 和方差 $\sigma_{\mathcal{B}}^{2}$ 的示例：

在这里插入图片描述
上图展示了一个 batch size 为 2（两张图片）的 Batch Normalization 的计算过程

假设 feature1、feature2 分别是由 image1、image2 经过一系列卷积池化后得到的特征矩阵，feature 的 channel 为 2，
- 那么 $x^{(1)}$ 代表该 batch 的所有 feature 的 channel1 的数据，
- 同理 $x^{(2)}$ 代表该batch的所有 feature 的 channel2 的数据
然后分别计算 $x^{(1)}$ 和 $x^{(2)}$ 的均值与方差，得到我们的 $\mu_{\mathcal{B}}$ 和 $\sigma_{\mathcal{B}}^{2}$ 两个向量
- 然后再根据标准差计算公式分别计算每个 channel 的值（公式中 $\epsilon$ 的是一个很小的常量，防止分母为零的情况）。
在我们训练网络的过程中，我们是通过一个 batch 一个 batch 的数据进行训练的，但是我们在预测过程中通常都是输入一张图片进行预测，此时 batch size 为 1，如果再通过上述方法计算均值和方差就没有意义了
- 所以我们在训练过程中要去不断的计算每个 batch 的均值和方差，并使用移动平均(moving average) 的方法记录统计的均值和方差，在训练完后我们可以近似认为所统计的均值和方差就等于整个训练集的均值和方差。
然后在我们验证以及预测过程中，就使用统计得到的均值和方差进行标准化处理

1.3.2. Reverse propagation

对于目前的神经网络计算框架，一个层要想加入到网络中，要保证其是可微的，即可以求梯度

反向传播求梯度只需抓住一个关键点，如果一个变量对另一个变量有影响，那么他们之间就存在偏导数，找到直接相关的变量，再配合链式法则，公式就很容易写出了，如下所示：

在这里插入图片描述
根据反向传播的顺序，首先求取损失 $\ell$ 对 BN 层输出 $y_i$ 的偏导 $\frac{\partial \ell}{\partial y_i}$ ，然后是对可学习参数的偏导 $\frac{\partial \ell}{\partial \gamma}$ 和 $\frac{\partial \ell}{\partial \beta}$ ，用于对参数进行更新，想继续回传的话还需要求对输入 $x$ 偏导，于是引出对变量 $\mu$ 、 $\sigma^2$ 和 $\hat{x}$ 的偏导，根据链式法则再求这些变量对 $x$ 的偏导

前向传播与反向传播的过程如下图所示：

从左到右，沿着黑色箭头前向传播。输入是一个矩阵 $X$ ， $\gamma$ 和 $\beta$ 作为向量
从右到左，沿着红色箭头反向传播，将梯度从上一层分布到 $\gamma$ 和 $\beta$ ，并一直返回到输入

在这里插入图片描述

反向传播的每块详细内容（从右往左）如下所示：

在实际实现时，通常以矩阵或向量运算方式进行，比如逐元素相乘、沿某个axis求和、矩阵乘法等操作

1.3.3. Inference process

在预测阶段，所有参数的取值是固定的，对 BN 层而言，意味着 $\mu$ 、 $\sigma$ 、 $\gamma$ 和 $\beta$ 都是固定值

$\gamma$ 和 $\beta$ 比较好理解，随着训练结束，两者最终收敛，预测阶段使用训练结束时的值即可
对于 $\mu$ 和 $\sigma$ ，在训练阶段，它们为当前 mini batch 的统计量，随着输入 batch 的不同， $\mu$ 和 $\sigma$ 一直在变化。

在预测阶段，输入数据可能只有 1 条，该使用哪个 $\mu$ 和 $\sigma$ ，或者说，每个 BN 层的 $\mu$ 和 $\sigma$ 该如何取值？可以采用训练收敛最后几批 mini batch 的 $\mu$ 和 $\sigma$ 的期望，作为预测阶段的 $\mu$ 和 $\sigma$ ，如下所示：

在这里插入图片描述

因为 standardization 和 scale and shift 均为线性变换，在预测阶段所有参数均固定的情况下，参数可以合并成 $y = k x + b$ 的形式，如上图中行号11所示

1.4. Discussion

1.4.1. Advantages & Disadvantages

使用 batch normalization 的优点：

可以使用更大的学习率，训练过程更加稳定，极大提高了训练速度
可以将 bias 置为 0，因为 batch normalization 的 standardization 过程会移除直流分量，所以不再需要 bias
对权重初始化不再敏感，通常权重采样自 0 均值某方差的高斯分布，以往对高斯分布的方差设置十分重要，有了 batch normalization 后，对与同一个输出节点相连的权重进行放缩，其标准差 $\sigma$ 也会放缩同样的倍数，相除抵消
对权重的尺度不再敏感，理由同上，尺度统一由 $\gamma$ 参数控制，在训练中决定
深层网络可以使用激活函数 sigmoid 和 tanh 了，理由同上，BN 抑制了梯度消失。
batch normalization 具有某种正则作用，不需要太依赖 dropout，减少过拟合

使用 batch normalization 的缺点：

模型运行时间长
BN 对于 batch_size 的大小还是比较敏感的，batch_size 很小的时候，其梯度不够稳定，效果反而不好

1.4.2. Implement detail

1.4.2.1. 训练和推理阶段时参数的初始化问题

在训练阶段，均值 $\mu$ 和方差 $\sigma$ 不用初始化，是计算出来的；缩放系数 $\gamma$ 和 $\beta$ 分别初始化为 $1$ 和 $0$ ，训练阶段结束，模型会学习出 $\gamma$ 和 $\beta$ 作为推理阶段的初始化
在推理阶段，缩放系数 $\gamma$ 和 $\beta$ 分别初始化训练阶段学习到的值；均值 $\mu$ 和方差 $\sigma$ 利用训练集统计的均值和方差，统计方式一般包括移动平均和全局平均

1.4.2.2. 卷积层如何使用 `BatchNorm` ？

$1$ 个卷积核产生 $1$ 个 feature map， $1$ 个 feature map 有 $1$ 对 $\gamma$ 和 $\beta$ 参数，同一 batch 同 channel 的 feature map 共享同一对 $\gamma$ 和 $\beta$ 参数，若卷积层有 $n$ 个卷积核，则有 $n$ 对 $\gamma$ 和 $\beta$ 参数

1.4.2.3. 没有 `scale and shift` 过程可不可以？

BatchNorm 有两个过程，standardization 和 scale and shift，前者是机器学习常用的数据预处理技术，在浅层模型中，只需对数据进行 standardization 即可
Batch Normalization 可以只有 standardization，但网络的表达能力会下降
- 直觉上理解，浅层模型中，只需要模型适应数据分布即可。对深度神经网络，每层的输入分布和权重要相互协调，强制把分布限制在 zero mean unit variance 并不见得是最好的选择
- 加入参数 $\gamma$ 和 $\beta$ ，对输入进行 scale and shift，有利于分布与权重的相互协调，特别地，令 $\gamma = 1, \beta = 0$ 等价于只用 standardization，令 $\gamma = \sigma, \beta = \mu$ 等价于没有 BN 层
- scale and shift 涵盖了这 2 种特殊情况，在训练过程中决定什么样的分布是适合的，所以使用 scale and shift 增强了网络的表达能力。

1.4.2.4. `BN` 层放在激活函数前面还是后面？

提出 BN 的论文建议将 BN 层放置在 ReLU 前，因为 ReLU 激活函数的输出非负，不能近似为高斯分布
但是在经过一系列对照实验发现，放在前后的差异似乎不大，甚至放在 ReLU 后还好一些
- 放在 ReLU 后相当于直接对每层的输入进行归一化，如下图所示，这与浅层模型的 standardization 是一致的
BN 究竟应该放在激活的前面还是后面？以及，BN 与其他变量，如激活函数、初始化方法、dropout等，如何组合才是最优？可能需要根据具体的实验情况，具体分析

1.4.2.5. `BN` 层为什么有效？

BN 层让损失函数更平滑
- 损失函数的 landscape (loss surface) 变得更平滑，相比高低不平上下起伏的 loss surface，平滑 loss surface 的梯度预测性更好，可以选取较大的步长
BN 更有利于梯度下降
- 没有 BN 层的，其 loss surface 存在较大的“高原”，有 BN 层的则没有“高原”，而是“山峰”，因此更容易下降
- 没有 BN 层的情况下，网络没办法直接控制每层输入的分布，其分布前面层的权重共同决定，或者说分布的均值和方差“隐藏”在前面层的每个权重中，网络若想调整其分布，需要通过复杂的反向传播过程调整前面的每个权重实现，
- BN 层的存在相当于将分布的均值和方差从权重中剥离了出来，只需调整 $\gamma$ 和 $\beta$ 两个参数就可以直接调整分布，让分布和权重的配合变得更加容易

1.5. Implement with PyTorch

在我们训练过程中，均值 $\mu_{\mathcal{B}}$ 和方差 $\sigma_{\mathcal{B}}^{2}$ 是通过计算当前批次数据得到的，记为 $\mu _{now}$ 和 $\sigma _{now}^{2}$
而我们的验证以及预测过程中所使用的均值方差是一个统计量，记为 $\mu _{statistic}$ 和 $\sigma _{statistic}^{2}$

$\mu _{statistic}$ 和 $\sigma _{statistic}^{2}$ 的具体更新策略如下，其中 momentum 默认取 $0.1$ ：

在这里插入图片描述
这里要注意一下，在 pytorch 中对当前批次 feature 进行 BN 处理时所使用的 $\sigma _{now}^{2}$ 是总体标准差，计算公式如下：

在这里插入图片描述
在更新统计量 $\sigma _{statistic}^{2}$ 时采用的 $\sigma _{now}^{2}$ 是样本标准差，计算公式如下：

在这里插入图片描述
下面是使用 pytorch 做的测试，代码如下（参考博主太阳花的小绿豆）：

bn_process 函数是自定义的 BN 处理方法验证是否和使用官方bn处理方法结果一致
- 在 bn_process 中计算输入 batch 数据的每个维度（这里的维度是 channel 维度）的均值和标准差（标准差等于方差开平方）
- 然后通过计算得到的均值和总体标准差对 feature 每个维度进行标准化，然后使用均值和样本标准差更新统计均值和标准差
初始化统计均值是一个元素为 0 的向量，元素个数等于 channel 深度
- 初始化统计方差是一个元素为 1 的向量，元素个数等于 channel 深度，初始化 $\gamma = 1$ ， $\beta = 0$

import numpy as np
import torch.nn as nn
import torch
 
 
def bn_process(feature, mean, var):
    feature_shape = feature.shape
    for i in range(feature_shape[1]):
        # [batch, channel, height, width]
        feature_t = feature[:, i, :, :]
        mean_t = feature_t.mean()
        # 总体标准差
        std_t1 = feature_t.std()
        # 样本标准差
        std_t2 = feature_t.std(ddof=1)
 
        # bn process
        # 这里记得加上eps和pytorch保持一致
        feature[:, i, :, :] = (feature[:, i, :, :] - mean_t) / np.sqrt(std_t1 ** 2 + 1e-5)
        # update calculating mean and var
        mean[i] = mean[i] * 0.9 + mean_t * 0.1
        var[i] = var[i] * 0.9 + (std_t2 ** 2) * 0.1
    print(feature)
 
 
# 随机生成一个batch为2，channel为2，height=width=2的特征向量
# [batch, channel, height, width]
feature1 = torch.randn(2, 2, 2, 2)
# 初始化统计均值和方差
calculate_mean = [0.0, 0.0]
calculate_var = [1.0, 1.0]
# print(feature1.numpy())
 
# 注意要使用copy()深拷贝
bn_process(feature1.numpy().copy(), calculate_mean, calculate_var)
 
bn = nn.BatchNorm2d(2, eps=1e-5)
output = bn(feature1)
print(output)

总结

参考资料1
参考资料2
参考资料3
参考资料4

zzzyzh

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
CV【4】：Batch normalization

对于早前的 CNN 模型来说，大多使用进行归一化，随着在计算机视觉领域掀起的热潮，开始被用于提升传统的 CNN 的性能，在许多工作中展现了不错的提升本文主要是对用法的总结和比较参考资料1参考资料2参考资料3。
复制链接

扫一扫