Batch Normalization及各类衍生的Normalization

最新推荐文章于 2022-06-20 21:34:19 发布

guofei_fly

最新推荐文章于 2022-06-20 21:34:19 发布

阅读量520

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/guofei_fly/article/details/104185513

版权

深度学习专栏收录该内容

3 篇文章 6 订阅

订阅专栏

一. Batch Normalization所解决的问题

Batch Normalization，是针对“Internal Covariate Shift”问题提出的，一种cross-batch的数据标准化方法，已被实践证明能促进深度学习中的BP梯度反向传递流的正常工作，从而已成为诸多深度学习网络架构的常用层。

在传统机器学习中，输入数据各特征维度的标准化（转换为服从标准正态分布）的预处理过程，对于涉及矩阵运算以及梯度求导的机器学习算法大有裨益，可便于矩阵运算，并加速算法迭代收敛。

而在深度学习中，随着网络架构的不断加深，也存在类似的问题。对于原始数据，其被称为“Outer Covariate Shift”，同样可以通过上述的标准化处理保证输入数据的同分布。但在结构内部，由于网络架构中的卷积、投影和非线性激活等操作，导致每层网络接受到的输入值呈现非同分布的趋势（也就是“Internal Covariate Shift”），这给梯度反向传递带来了如下困难：
（1）网络必须学习去适应这种非同分布的数据特点，加重了网络学习的负担；
（2）随着网络的加深，隐层的数据会主键发生偏移，容易落入激活函数的饱和区域，导致梯度消失或梯度爆炸问题，加大了网络学习的难度；
（3）由于（2）的存在，导致整个网络模型在学习率的选取、权重初始化上必须谨慎选择。

而Batch Normalization通过在每个层输入数据中，强制的进行标准化处理，使数据分布满足统一的标准正态分布，经验证能够有效的解决上述问题。

二. Batch Normalization的计算流程

Batch Normalization分训练阶段和使用阶段。

2.1 训练阶段

在训练阶段，其对每个mini-batch中各layer中非线性激活前的各channel数据进行标准化化处理。

假设对于某神经网络，其第 $L$ 隐藏层为 $\sigma(WX+b)$ ，其中 $X$ 为输入数据（即第 $L - 1$ 层的输出数据）， $\sigma$ 为非线性激活函数。Batch Normalization一般作用在 $W X + b$ 之后，非线性激活之前！

假设在该层，mini-batch训练数据中，某个channel上的所有数据为 ${x_1,x_2,...x_m}$ ，则其具体算法流程为：
在这里插入图片描述
其对应的解释为：
（1）所有数据的均值；
（2）所有数据的方差值；
（3）利用上面计算能得到的均值和方式，对所有数据进行标准化处理，使其落入标准正态分布内；
（4）设置两个可学习的参数 $\gamma、\beta$ ，分别对上面的标准结果进行缩放(scale)和偏移(shift)，从而得到BN之后的最终结果。

上述计算流程有两个需要注意和解释的点：
（1）参数 $\gamma、\beta$ 的意义：对数据进行标准化的做法可能太强，所以通过设置这两个参数来实现标准化的逆函数，使得模型寻找原始数据和标准化处理的一个折中。如果模型通过学习，认为无需进行标准化，则这两个参数保留了再转化为原始输入数据的能力。
（2）各mini-batch的均值和方差应予以保留，以便在使用阶段使用。

2.2 使用阶段

在使用阶段，对数据的推断是逐样本的，而非逐batch的。这与Batch Normalization的cross-batch设计所不符。因此，我们需要从在训练阶段的各mini-batch的均值和方差数据中得到一个具有统计意义的值，用于推断：
在这里插入图片描述
然后利用训练好的各channel的 $\gamma、\beta$ 参数，对样本数据进行变换：

在实践中，统计手法往往通过移动平均的方式进行统计。

2.3 Batch Normalization的代码示例

下面根据上面的算法流程介绍，以图像的四维数据为例（batch×channel×height×width），给出pytorch的实现方式：

import torch
import torch.nn as nn

class MyBatchNorm(nn.Module):
    def __init__(self, moment=0.9, eps = 1e-5, train=True):
        super(MyBatchNorm, self).__init__()
        self.initial = False
        self.gamma = None          # 缩放因子
        self.beta = None          # 移动因子
        self.running_mean = None    # 移动平均数
        self.running_var = None          # 移动方差
        assert 0 <= moment <= 1
        self.moment = moment     # 移动稀疏
        self.eps = torch.tensor(eps)    

    def forward(self, inputs):
        assert inputs.dim() == 4    # （N, C, H, W）
        if self.train:
            if not self.initial:     # 实现参数初始化
                channel_size = inputs.shape[1]
                self.gamma = nn.init.normal_(torch.zeros(channel_size, requires_grad=True), 0, 1)    # （C）
                self.beta = nn.init.normal_(torch.zeros(channel_size, requires_grad=True), 0, 1)     # （C）
                self.running_mean = torch.zeros(channel_size)     # （C）
                self.running_var = torch.zeros(channel_size)      # （C）
                self.initial = True

            mean_x = torch.mean(inputs, dim=(0, 2, 3))   # (C)
            var_x = torch.var(inputs - mean_x.view(1, -1, 1, 1), dim=(0, 2, 3))   # (C)
            self.running_mean = self.running_mean * self.moment + mean_x * (1 - self.moment)   # 计算移动平均数
            self.running_var = self.running_var * self.moment + var_x * (1 - self.moment)    # 计算移动平方数

            inputs = (inputs - mean_x.view(1, -1, 1, 1)) / torch.sqrt(var_x.view(1, -1, 1, 1) + self.eps)   # BN计算
            inputs = self.gamma.view(1, -1, 1, 1) * inputs + self.beta.view(1, -1, 1, 1)

        else:
            assert self.initial
            inputs = self.gamma.view(1, -1, 1, 1)/torch.sqrt(self.running_var.view(1, -1, 1, 1) + self.eps) * inputs + (self.beta.view(1, -1, 1, 1) - 
                     self.gamma.view(1, -1, 1, 1)*self.running_mean.view(1, -1, 1, 1)/torch.sqrt(self.running_var.view(1, -1, 1, 1) + self.eps))  # BN推断
        return inputs