RMSNorm（RMS归一化）介绍

最新推荐文章于 2025-04-04 16:14:45 发布

菠萝哥~

最新推荐文章于 2025-04-04 16:14:45 发布

阅读量6.6k

点赞数 20

分类专栏：机器学习 NLP LLM 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/2301_79093491/article/details/143437326

版权

NLP 同时被 3 个专栏收录

11 篇文章

订阅专栏

LLM

11 篇文章

订阅专栏

机器学习

9 篇文章

订阅专栏

1、概述

RMSNorm（Root Mean Square Layer Normalization，均方根归一化）是一种用于深度学习模型的归一化技术，特别适用于Transformer等架构。它作为LayerNorm（层归一化）的替代方案，旨在简化归一化过程，降低计算复杂度，同时保持或提升模型的性能。

2、RMSNorm的动机

在深度学习中，归一化技术被广泛用于稳定和加速模型训练。LayerNorm在Transformer模型中得到了广泛应用，它通过对每个样本的特征维度进行归一化，减少了内部协变量偏移。然而，LayerNorm需要计算输入特征的均值和方差，这增加了计算复杂度和开销。

RMSNorm的提出是为了消除对 均值计算 的依赖，仅通过输入特征的 均方根(RMS) 进行归一化，从而简化计算，提高效率。

3、RMSNorm的工作原理

RMSNorm通过计算输入向量的均方根，对其进行归一化处理。与LayerNorm不同，RMSNorm不进行均值的减法操作。

4、数学公式

给定输入向量 $\mathbf{x} \in$ $\mathbb{R}^d$ ，其中 d 是特征维度，RMSNorm的计算过程如下：

4.1. 计算均方根（RMS）：
$\text{RMS}(\mathbf{x}) = \sqrt{ \frac{1}{d} \sum_{i=1}^{d} x_i^2 }$
4.2. 归一化输入向量：
$\hat{\mathbf{x}} = \frac{\mathbf{x}}{\text{RMS}(\mathbf{x})}$

4.3. 应用缩放和偏移参数：
$\text{RMSNorm}(\mathbf{x}) = \gamma \odot \hat{\mathbf{x}} + \beta$
其中：

$\gamma \in$ $\mathbb{R}^d$ ：可学习的缩放参数（与输入维度相同）。
$\beta \in$ $\mathbb{R}^d$ ：可学习的偏移参数（与输入维度相同）。
$\odot$ ：表示元素级的乘法操作。

5、RMSNorm与LayerNorm的比较

LayerNorm：
- 计算均值和方差：
  $\mu = \frac{1}{d} \sum_{i=1}^{d} x_i \\$
  $\sigma = \sqrt{ \frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2 }$
- 归一化操作：
  
  $\hat{\mathbf{x}} = \frac{\mathbf{x} - \mu}{\sigma}$
RMSNorm：
- 不计算均值，仅计算均方根（RMS）。
- 归一化操作不减去均值，直接除以均方根。