神经网路：批归一化

最新推荐文章于 2024-03-16 15:35:24 发布

Make_magic

最新推荐文章于 2024-03-16 15:35:24 发布

阅读量717

点赞数 1

分类专栏：神经网络文章标签：深度学习机器学习人工智能神经网络计算机视觉

本文链接：https://blog.csdn.net/qq_50993557/article/details/131335275

版权

神经网络专栏收录该内容

39 篇文章 4 订阅

订阅专栏

批归一化（Batch Normalization，BN）是一种常用的正则化技术，用于加速深度神经网络的训练过程和提高模型的收敛性。它的主要作用包括以下几个方面：

1. 加速收敛：
BN层通过将输入数据进行标准化，使得各个特征维度具有相似的分布，从而加速模型的收敛速度。

2. 缓解梯度消失/爆炸问题：
在深层神经网络中，梯度消失和梯度爆炸是常见的问题。通过在每个批次数据上进行归一化，BN层可以将梯度范围限制在一个合理的范围内，缓解梯度消失和梯度爆炸问题。

3. 提高模型的鲁棒性：
BN层对输入数据的微小扰动具有一定的鲁棒性，可以提高模型对输入数据的适应能力和泛化能力。

常见的批归一化方法包括以下几种：

1. 批标准化（Batch Normalization，BN）：
对每个特征维度进行标准化，通过学习得到每个特征维度的缩放因子和偏移量。

3. 层归一化（Layer Normalization，LN）：
对每个样本的所有特征进行标准化，通过学习得到每个样本的缩放因子和偏移量。

5. 组归一化（Group Normalization，GN）：
将特征分成若干组，对每组内的特征进行标准化，通过学习得到每组的缩放因子和偏移量。

这些批归一化方法都有各自的优缺点和适用情况：

- BN优点：

加速模型收敛速度。
缓解梯度消失和梯度爆炸问题。
提高模型的鲁棒性。

- BN的缺点：

需要计算每个批次数据的均值和方差，增加了计算开销。
在较小的批次大小下可能引入噪声。

- LN的优点：

不依赖于批次大小，适用于小批次或单样本的情况。
对于逐样本的序列数据，比如自然语言处理任务，表现较好。

- LN的缺点：

LN对每个样本的所有特征进行标准化，这在图像数据中可能不太适用。因为图像的不同位置可能具有不同的特征分布，全局归一化可能无法捕捉到局部特征的差异性。
LN在处理较大的图像数据时，计算代价较高，因为需要计算每个样本的均值和方差。

- GN的优点：

不受批次大小限制，适用于小批次或单样本的情况。
对于较大的卷积神经网络，可以减少计算开销。

-GN的缺点

GN对每个组内的特征进行标准化，这可能导致组间信息的丢失。在图像中，不同组之间可能存在相关性，组归一化可能无法充分利用这种相关性。
GN对于小批量训练和小数据集上的表现可能较差，因为每个组内的样本数较少，难以准确估计组内的均值和方差。

当进行批归一化时，我们需要对输入数据进行一系列的计算和转换。下面我将更详细地介绍每个批归一化方法的计算公式和步骤：

1. 批标准化（Batch Normalization，BN）：

输入： $x = (x^{(1)}, x^{(2)}, ..., x^{(m)})$ ， $m$ 为批次大小
计算：

计算均值： $\mu = \frac{1}{m}\sum_{i=1}^{m}x^{(i)}$
计算方差： $\sigma^2 = \frac{1}{m}\sum_{i=1}^{m}(x^{(i)}-\mu)^2$
标准化： $\hat{x}^{(i)} = \frac{x^{(i)} - \mu}{\sqrt{\sigma^2 + \epsilon}}$ ， $\epsilon$ 为一个小的常数（用于数值稳定性）
缩放和平移： $y^{(i)} = \gamma\hat{x}^{(i)} + \beta$ ， $\gamma$ 为缩放因子， $\beta$ 为偏移量

在训练过程中，每个批次的均值和方差会被用于标准化，而在推断过程中，使用累积的均值和方差进行标准化。

2. 层归一化（Layer Normalization，LN）：

输入： $x = (x^{(1)}, x^{(2)}, ..., x^{(n)})$ ， $n$ 为特征维度
计算：

计算均值： $\mu = \frac{1}{n}\sum_{i=1}^{n}x^{(i)}$
计算方差： $\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x^{(i)}-\mu)^2$
标准化： $\hat{x}^{(i)} = \frac{x^{(i)} - \mu}{\sqrt{\sigma^2 + \epsilon}}$ ， $\epsilon$ 为一个小的常数
缩放和平移： $y^{(i)} = \gamma\hat{x}^{(i)} + \beta$ ， $\gamma$ 为缩放因子， $\beta$ 为偏移量

层归一化对每个样本的所有特征进行标准化，适用于逐样本的序列数据，如自然语言处理任务。

3. 组归一化（Group Normalization，GN）：

输入： $x = (x^{(1)}, x^{(2)}, ..., x^{(g)})$ ， $g$ 为分组数
计算：

将特征分组：将特征 $x$ 分成 $g$ 组，每组包含 $n / g$ 个特征
计算均值： $\mu = \frac{1}{n/g}\sum_{i=1}^{n/g}x^{(i)}$
计算方差： $\sigma^2 = \frac{1}{n/g}\sum_{i=1}^{n/g}(x^{(i)}-\mu)^2$
标准化： $\hat{x}^{(i)} = \frac{x^{(i)} - \mu}{\sqrt{\sigma^2 + \epsilon}}$ ， $\epsilon$ 为一个小的常数
缩放和平移： $y^{(i)} = \gamma\hat{x}^{(i)} + \beta$ ， $\gamma$ 为缩放因子， $\beta$ 为偏移量

组归一化将特征分成若干组，对每组内的特征进行标准化。这种方法适用于计算资源受限的情况或具有较大网络的情况。

这些批归一化方法的选择取决于任务和网络架构的需求。一般来说，批标准化（BN）是最常用的批归一化方法，适用于大多数深度神经网络。层归一化（LN）适用于逐样本的序列数据，如自然语言处理任务。组归一化（GN）适用于计算资源受限的情况或具有较大网络的情况。根据实际情况，可以尝试不同的批归一化方法并选择最适合的方法。

Make_magic

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
神经网路：批归一化

批归一化（Batch Normalization，BN）是一种常用的正则化技术，用于加速深度神经网络的训练过程和提高模型的收敛性。在训练过程中，每个批次的均值和方差会被用于标准化，而在推断过程中，使用累积的均值和方差进行标准化。BN层对输入数据的微小扰动具有一定的鲁棒性，可以提高模型对输入数据的适应能力和泛化能力。层归一化对每个样本的所有特征进行标准化，适用于逐样本的序列数据，如自然语言处理任务。将特征分成若干组，对每组内的特征进行标准化，通过学习得到每组的缩放因子和偏移量。
复制链接

扫一扫