LayerNormalization 和 RMSNormalization的计算方法和区别

samoyan

已于 2024-04-09 17:28:13 修改

阅读量2.7k

点赞数 19

分类专栏： LLM 面试 NLP 文章标签： transformer 算法

于 2024-03-18 16:34:14 首次发布

本文链接：https://blog.csdn.net/baoyan2015/article/details/136813544

版权

LLM 面试同时被 2 个专栏收录

43 篇文章

订阅专栏

NLP

37 篇文章

订阅专栏

本文详细比较了LayerNormalization和RMSNormalization两种归一化方法，阐述了它们的计算原理、应用场景、优缺点，以及在ChatGLM中的适用性。强调在选择归一化技术时需考虑模型需求和实际效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题来源

Layer Normalization 与 RMSNormalization 的详细计算方法

Layer Normalization（层归一化）

RMSNormalization（均方根归一化）

Layer Normalization与RMSNormalization的异同

Layer Normalization

RMSNormalization

异同点

问题来源

在ChatGLM中，把 layer-normalization 改为 RMSNormalization，想详细了解两种归一化有什么异同？

Layer Normalization 与 RMSNormalization 的详细计算方法

Layer Normalization（层归一化）

定义
Layer Normalization 是一种归一化技术，主要用于神经网络中，它按照每个样本的所有特征进行归一化，不同于批归一化（Batch Normalization）是按照每个特征在不同样本上进行归一化。
计算步骤
- 计算均值
  (\mu = \frac{1}{H} \sum_{i=1}^{H} x_i)
- 计算方差
  (\sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2)
- 归一化
  对于每个特征 (x_i)，计算归一化值
  (\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}})
  其中 (\epsilon) 是一个很小的数，以防止除以零。
- 缩放和偏移
  最后，引入可学习的参数 (\gamma) 和 (\beta)（与特征维度相同），进行缩放和偏移
  (y_i = \gamma \hat{x}_i + \beta)
  (y_i) 是最终的输出特征向量。
给定一个样本的特征向量 (x = [x_1, x_2, ..., x_H])，其中 (H) 是特征的数量，Layer Normalization 的计算步骤如下：

RMSNormalization（均方根归一化）

Root Mean Square Layer Normalization（RMS Norm）提出，层归一化（Layer Normalization）之所以有效，关键在于其实现的缩放不变性（Scale Invariance），而非平移不变性（Translation Invariance）。基于这一观点，RMS Norm在设计时简化了传统层归一化的方法。它移除了层归一化中的平移操作（即去掉了均值的计算和减除步骤），而只保留了缩放操作。因此，RMS Norm仅依赖于输入特征的均方根（Root Mean Square）来进行归一化。

定义
RMSNormalization 是一种类似于 Layer Normalization 的归一化方法，它使用均方根（Root Mean Square, RMS）代替标准差来进行归一化。
计算步骤
给定一个样本的特征向量 (x = [x_1, x_2, ..., x_H])，RMSNormalization 的计算步骤如下：
- 计算均方根
  (RMS = \sqrt{\frac{1}{H} \sum_{i=1}^{H} x_i^2 + \epsilon})
- 归一化
  对于每个特征 (x_i)，计算归一化值
  (\hat{x}_i = \frac{x_i}{RMS})
  同样，(\epsilon) 是一个很小的数，用于数值稳定性。
- 缩放和偏移（可选）
  与 Layer Normalization 类似，可以引入可学习的参数 (\gamma) 和 (\beta) 进行缩放和偏移（这一步不是RMSNormalization必须的，但在某些实现中可能包含）
  (y_i = \gamma \hat{x}_i + \beta)
  (y_i) 是最终的输出特征向量。

请注意，Layer Normalization 和 RMSNormalization 的主要区别在于归一化步骤中使用的是方差（Layer Normalization）还是均方根（RMSNormalization）。其他步骤大致相同，都包含了计算均值（或均方根）、归一化以及可选的缩放和偏移。

Layer Normalization与RMSNormalization的异同

Layer Normalization（层归一化）和RMSNormalization（均方根归一化）都是神经网络中用于稳定训练过程的归一化技术。它们都旨在对神经网络中的激活进行规范化处理，以减少训练过程中的内部协变量偏移（Internal Covariate Shift）问题。尽管它们的目标相似，但在实现和应用上存在一些差异。

Layer Normalization

原理: Layer Normalization通过计算一个层内所有激活的均值和标准差，并用这些统计量对激活进行归一化，使得输出的均值为0，方差为1。
应用: Layer Normalization不依赖于批量的大小，因此它特别适用于批量大小不一或者需要减少批量相关性的场景，如循环神经网络（RNNs）和Transformer模型。
优点: Layer Normalization可以在每个时间步独立地应用于RNNs，有助于稳定隐藏状态的动态范围。
局限性: Layer Normalization在归一化时考虑了整个特征层，可能会忽略不同特征之间的差异性。

RMSNormalization

原理: RMSNormalization是一种归一化方法，它使用均方根（Root Mean Square, RMS）值对激活进行缩放。RMS值是激活的平方的均值的平方根。
应用: RMSNormalization可以用于类似Layer Normalization的场景，但它强调使用均方根而不是标准差作为规范化的尺度。
优点: RMSNormalization可能在某些情况下提供更稳定的训练过程，因为它使用均方根值，这可能对激活值的极端波动更加鲁棒。
局限性: RMSNormalization的研究和应用相对较少，因此在实际应用中可能缺乏Layer Normalization的广泛经验支持。

异同点

相同点: 两者都是归一化技术，用于规范化神经网络中的激活，以减少训练过程中的内部协变量偏移问题。
不同点:
- Layer Normalization使用均值和标准差进行归一化，而RMSNormalization使用均方根值。
- Layer Normalization在整个特征层上归一化，可能不区分不同特征间的差异；RMSNormalization则侧重于激活值的均方根，可能对极端值更加鲁棒。
- Layer Normalization适用于不同类型的网络架构，并且在实践中被广泛采用；RMSNormalization在实际应用中可能不如Layer Normalization常见。

在ChatGLM或其他神经网络模型中替换归一化技术时，需要仔细考虑模型的特定需求和归一化技术的特性，以及可能对训练动态和最终性能产生的影响。实验和实践经验会对选择最合适的归一化策略起到关键作用。