Layer Normalization和Batch Normalization

现实、狠残酷

于 2024-09-02 15:20:19 发布

阅读量383

点赞数 5

分类专栏： python应用文章标签： batch 开发语言

本文链接：https://blog.csdn.net/qq_34184505/article/details/141820443

版权

python应用专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Layer Normalization（层归一化）和 Batch Normalization（批归一化）是两种常用的归一化技术，用于加速神经网络的训练和提高模型的稳定性。它们的主要区别在于归一化的维度和使用场景。

Batch Normalization（批归一化）

Batch Normalization的归一化是在每个mini-batch内的每个特征维度上进行的。具体来说，对于输入形状为 ([b, c, h, w]) 的数据，Batch Normalization会对每个通道 ( c ) 独立进行归一化。
在这里插入图片描述
训练阶段： 在训练阶段，Batch Normalization计算每个mini-batch的均值和方差，并使用这些统计量进行归一化。

推理阶段： 在推理阶段，Batch Normalization使用整个训练集计算得到的全局均值和方差进行归一化，而不是使用当前mini-batch的统计量。

Layer Normalization（层归一化）

Layer Normalization的归一化是在每个样本的所有特征上进行的。对于形状为 ([b, c, h, w]) 的输入数据，Layer Normalization会对每个样本的所有通道、所有高度和宽度上的特征进行归一化。

在这里插入图片描述

训练阶段： 在训练阶段，Layer Normalization计算每个样本的均值和方差，并使用这些统计量进行归一化。

推理阶段： 在推理阶段，Layer Normalization与训练阶段一样，使用每个样本的均值和方差进行归一化。

总结

计算方式

Batch Normalization：
归一化是在每个mini-batch的每个通道上进行的。
计算的是每个通道在整个mini-batch上的均值和方差。
公式中涉及到每个通道的均值 (\mu_c) 和方差 (\sigma_c^2)。
Layer Normalization：
归一化是在每个样本的所有特征（即所有通道、所有高度和宽度）上进行的。
计算的是每个样本在所有特征上的均值和方差。
公式中涉及到每个样本的均值 (\mu_i) 和方差 (\sigma_i^2)。

训练与推理阶段

训练和推理阶段的区别：
Batch Normalization：训练阶段使用mini-batch的统计量，推理阶段使用全局统计量。
Layer Normalization：训练阶段和推理阶段都使用每个样本的统计量。

现实、狠残酷

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
Layer Normalization和Batch Normalization

归一化是在每个mini-batch的每个通道上进行的。计算的是每个通道在整个mini-batch上的均值和方差。公式中涉及到每个通道的均值 (\mu_c) 和方差 (\sigma_c^2)。归一化是在每个样本的所有特征（即所有通道、所有高度和宽度）上进行的。计算的是每个样本在所有特征上的均值和方差。公式中涉及到每个样本的均值 (\mu_i) 和方差 (\sigma_i^2)。
复制链接

扫一扫