均方根归一化 RMSNorm 详解：原理、实现与应用

阿正的梦工坊

已于 2025-02-24 15:50:03 修改

阅读量1.4k

点赞数 32

分类专栏： LLM Deep Learning 文章标签： LLM transformer 人工智能

于 2025-02-24 15:49:32 首次发布

本文链接：https://blog.csdn.net/shizheng_Li/article/details/145830637

版权

Deep Learning 同时被 2 个专栏收录

290 篇文章

订阅专栏

LLM

211 篇文章

订阅专栏

RMSNorm 详解：原理、实现与应用

1. 引言

在深度学习模型中，归一化（Normalization） 是提升训练稳定性、加速收敛的重要技巧之一。常见的归一化方法包括：

Batch Normalization (BN)：对 mini-batch 进行归一化，广泛用于 CNN。
Layer Normalization (LN)：对单个样本的每个特征维度进行归一化，常用于 Transformer 结构。
Group Normalization (GN)：结合了 BN 和 LN 的思想。

然而，BatchNorm 需要依赖 batch 统计信息，在 Transformer 等序列模型 中可能并不适用。因此，LayerNorm（LN）成为 NLP 和大规模 Transformer 模型的标准选择。然而，LN 需要计算均值（mean）和标准差（std），计算量较大。为了解决这一问题，Root Mean Square Normalization（RMSNorm） 作为一种更轻量级的替代方案被提出。

本文将介绍：

RMSNorm 的数学原理
PyTorch 实现（以 Gemma 模型为例）
RMSNorm 的优势
在大模型中的应用

2. RMSNorm 数学原理

2.1 LayerNorm vs. RMSNorm

LayerNorm (LN) 计算公式
对于输入向量 ( $\in \mathbb{R}^{d}$ )，LayerNorm 计算：
$\mu = \frac{1}{d} \sum_{i=1}^{d} x_i, \quad \sigma^2 = \frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2$
$\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$
$\gamma \hat{x} + \beta$
其中：

( $\mu$ ) 是均值
( $\sigma^2$ ) 是方差
( $\gamma, \beta$ ) 是可学习参数

LayerNorm 需要计算均值和标准差，计算量较大，且涉及减法操作，可能影响数值稳定性。

RMSNorm 计算公式
RMSNorm 省略了均值计算，仅使用 均方根（RMS, Root Mean Square） 归一化：
$\text{rms}(x) = \sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2}$
$\hat{x} = \frac{x}{\text{rms}(x) + \epsilon}$
$\gamma \hat{x}$
其中：

不计算均值，避免减法，提高数值稳定性
仅计算平方和，计算量更小
适用于 NLP 任务，特别是 Transformer 结构

相比 LayerNorm，RMSNorm 只使用 RMS 进行缩放，不做均值归一化，计算更高效。

3. RMSNorm 的 PyTorch 实现

以下是 Gemma 模型中的 RMSNorm 代码：

import torch
import torch.nn as nn

class RMSNorm(nn.Module):
    def __init__(self, dim: int, eps: float = 1e-6, add_unit_offset: bool = True):
        super().__init__()
        self.eps = eps
        self.add_unit_offset = add_unit_offset
        self.weight = nn.Parameter(torch.zeros(dim))  # gamma 参数

    def _norm(self, x):
        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

    def forward(self, x):
        output = self._norm(x.float())  # 计算 RMSNorm
        if self.add_unit_offset:
            output = output * (1 + self.weight.float())  # 加 1 避免零梯度问题
        else:
            output = output * self.weight.float()
        return output.type_as(x)

3.1 代码解析

初始化
```
self.weight = nn.Parameter(torch.zeros(dim))
```
- 这里的 weight 相当于 gamma，用于缩放归一化后的输出。
计算 RMS 归一化
```
def _norm(self, x):
    return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)
```
- 计算均方根：
  $\text{rms}(x) = \sqrt{\frac{1}{d} \sum x_i^2}$
- 使用 torch.rsqrt() 计算倒数：
  $\frac{x}{\sqrt{\frac{1}{d} \sum x_i^2 + \epsilon}}$
- 避免除零错误，增加 eps。

前向传播

output = self._norm(x.float())
if self.add_unit_offset:
    output = output * (1 + self.weight.float())  
else:
    output = output * self.weight.float()

如果 add_unit_offset=True，则 weight 加 1，防止归一化后值变成 0，影响梯度传播。

4. RMSNorm 的优势

相较于 LayerNorm，RMSNorm 具有以下优点：

4.1 更快的计算

LayerNorm 计算均值和方差，需要额外的计算步骤：
$\mathcal{O}(d) \quad (\text{均值计算}) + \mathcal{O}(d) \quad (\text{方差计算})$
RMSNorm 只计算平方和，计算量减少：
$\mathcal{O}(d) \quad (\text{仅 RMS 计算})$

4.2 数值稳定性

LayerNorm 计算 ( $\mu$ ) 时可能出现小数精度问题，而 RMSNorm 不涉及均值计算，数值更稳定。
避免均值归一化导致的梯度消失问题。

4.3 适用于 Transformer

在 GPT、Llama、Gemma 这类 超大规模 Transformer 语言模型 中，RMSNorm 的高效计算可以显著减少训练时间。
Google DeepMind 研究表明，RMSNorm 可以替代 LayerNorm 而不损失性能，特别是在 低精度训练（FP16, BF16） 场景下。

5. RMSNorm 在大模型中的应用

5.1 LLaMA

Meta 公司的 LLaMA（Large Language Model Meta AI）使用 RMSNorm 代替 LayerNorm，主要是为了：

提高推理速度
减少计算开销
适应低精度计算（FP16, BF16）

5.2 Gemma

Google Gemma 2 模型也采用了 RMSNorm：

提升 Transformer 层的归一化效率
在 Llama2 结构基础上优化
适用于推理速度优化

6. 总结

✅ RMSNorm vs. LayerNorm

归一化方法	是否计算均值	是否计算方差	计算复杂度	适用场景
LayerNorm	✅ 需要计算	✅ 需要计算	( O(d) + O(d) )	NLP, Transformer, GPT
RMSNorm	❌ 不计算	✅ 仅计算平方均值	( O(d) )	NLP, 低精度推理