归一化原来这么重要！深入浅出详解Transformer中的Normalization

最新推荐文章于 2025-04-15 11:54:45 发布

PaperWeekly

最新推荐文章于 2025-04-15 11:54:45 发布

阅读量5.7k

点赞数 6

文章标签：算法 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125862985

版权

本文深入探讨了Transformer中的归一化技术，从函数的等高线理论出发，解释了为什么特征归一化是重要的。讨论了等高线与梯度下降的关系，指出输入特征尺度不一可能导致训练收敛速度变慢。常见的特征归一化方法，如min-max normalization、mean normalization、standard normalization和unit length scaling被介绍，并提供了实现细节。在深度神经网络中，Batch Normalization和Layer Normalization被用来缓解内部协变量偏移问题，提高训练效率。最后，文章对比了Batch Normalization与Layer Normalization的优缺点，以及在Transformer中为何选择Layer Normalization。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 李国趸

单位 | 浙江大学

研究方向 | 少样本学习

为了讲清楚 Transformer 中的归一化细节，我们首先需要了解下，什么是归一化，以及为什么要归一化。本文主要解决这两个问题：

什么是归一化？
为什要归一化？

从函数的等高线说起

1.1 函数的等高线是什么

讨论一个二元损失函数的情况，即损失函数只有两个参数：。

下图就是这个损失函数的图像，等高线就是函数 在参数平面 上的投影。
等高的理解：在投影面上的任意一个环中，所有点的函数值都一样。
等高的理解：在函数曲面上存在一个环，环上所有点的函数值一样，即距离投影平面的距离都一样。

具体看这个参数平面的话，绘制等高线图是：

任意一个环上的不同参数取值，其函数值都一样。
可以看到，当时，函数值 = 5，即全局最小点。

1.2 梯度与等高线的关系

假设存在一个损失函数，在空间中是一个曲面，当其被一个平面，c 为常数所截后，得到的曲线方程是：

曲线在 xoy 平面上的投影是一个平面曲线，即，即损失函数在 xoy 平面的某一条等高线，在这条等高线上，所有函数值均为。

在这条等高线上，任意一点的切线斜率为。

由隐函数存在定理：

可知：

任意一点的法线由于和切线垂直，所以斜率相乘为 -1，则法线斜率为：

又由梯度的定义：

梯度向量的斜率，即正切值= ，可以看到恰好等于法线的斜率，因此：

梯度的方向和等高线上的切线时时垂直。

1.3 从等高线看为什么特征归一化

采用梯度下降算法时，因为梯度的方向和等高线的切线是垂直的，所以沿着梯度反方向迭代时，实际就是垂直于等高线一步步迭代。如下图所示，这是两种不同的等高线采用梯度下降算法时的迭代情况。很明显，左图也就是等高线呈现正圆形时能够有最少的迭代步数，因此收敛速度更快。然而在有些情况下，等高线是椭圆形的，会有更多的迭代步数才能到达函数最低点，收敛变慢。

那么，什么时候会出现这种椭圆形的等高线情况呢？我们对线性回归和逻辑回归分别进行分析。

以线性回归为例，假设某线性回归模型为：

目标函数为（忽略偏置）：

从上式可以看出，由于，那么当产生相同的增量时，后者能产生更大的函数变化值，从而产生椭圆形的环状等高线。本质上，这是因为输入的特征的尺度（即取值范围）不一样！

因此，在线性回归中若各个特征变量之间的取值范围差异较大，则会导致目标函数收敛速度慢等问题，需要对输入特征进行归一化，尽量避免形成椭圆形的等高线。

以逻辑回归为例，由于逻辑回归中特征组合的加权和还会作用上 sigmoid 函数，影响收敛的因素，除了梯度下降算法的效率外，更重要的是最后的输出 z 的大小的影响。

从上图可以看出，当z的值小于 -5 左右时，函数值约等于 0，当 z 的值大于 5 左右时，函数值约等于 1。这两种情况下面，梯度趋近于 0，使得参数无法得到更新。因此，对于逻辑回归来说，主要影响的是特征组合加权和后的 sigmoid 输出，而特征的输入范围又会影响最终的 sigmoid 输出，影响模型的收敛性，所以要对输入特征进行归一化，避免最后的输出处于梯度饱和区。

1.4 总结

总结来说，输入特征的尺度会影响梯度下降算法的迭代步数以及梯度更新的难度，从而影响训练的收敛性。

因此，我们需要对特征进行归一化，即使得各个特征有相似的尺度。

常见的特征归一化

上文我们讲了特征归一化，就是要让各个特征有相似的尺度。相似的尺度一般是讲要有相似的取值范围。因此我们可以通过一些方法把特征的取值范围约束到一个相同的区间。另一方面，这个尺度也可以理解为这些特征都是从一个相似的分布中采样得来。因此我们还可以通过一些方法使得不同特征的取值均符合相似的分布。

这里我们介绍一些常见的特征归一化方法的细节，原理和实现。