每天一个知识点——Normalization

来自文家市的那个小孩

已于 2023-08-10 11:48:47 修改

阅读量983

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理 Normalization

于 2023-08-10 11:42:43 首次发布

本文链接：https://blog.csdn.net/kavin_star/article/details/132193749

版权

自然语言处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

这里结合大模型的学习，主要分析Layer Norm、RMS Norm和Deep Norm的异同，与此同时，究竟是在之前执行Normalization（Pre-Norm）还是之后执行（Post-Norm），也是一个比较喜欢拿来讨论的知识点。

一、为什么要做Normalization？

ICS问题出现的根本原因在于神经网络每层之间，无法满足基本假设"独立同分布"。深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化，通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。为了训好模型，我们需要非常谨慎地去设定学习率、初始化权重、以及尽可能细致的参数更新策略。

ICS（ Internal Covariate Shift）问题导致的后果：

上层参数需要不断适应新的输入数据分布，降低学习速度;
下层输入的变化可能趋向于变大或者变小，导致上层落入饱和区，使得学习过早停止;
每层的更新都会影响到其它层，因此每层的参数更新策略需要尽可能的谨慎;

二、Pre or Post？

Transformer的block模块里面包含了多处Normalization，具体结构如下：

从图中可以看出，经过多头（multi-head）的self-attention之后结合残差网络，再做一次归一化。简化一下，如下图所示，

Pre-Norm的公式为：

$x_{t+1}=x_t+F_t(Norm(x_t))$

Post-Norm的公式为：

$x_{t+1}=Norm(x_t+F_t(x_t))$

问题一、为什么Pre Norm的效果不如Post Norm？Pre Norm的深度有“水分”！也就是说，一个L层的Pre Norm模型，其实际等效层数不如L层的Post Norm模型，而层数少了导致效果变差了？

原因：

$\begin{aligned} x_{t+1}&=x_t+F_t(Norm(x_t)) \\ &=x_{t-1} + F_{t-1}(Norm(x_{t-1})) + F_t(Norm(x_t)) \\ &=... \\ &=x_0 + F_0(Norm(x_0)) + ... + F_{t-1}(Norm(x_{t-1})) + F_t(Norm(x_t)) \end{aligned}$

所以在Pre Norm中多层叠加的结果更多是增加宽度而不是深度，层数越多，这个层就越“虚”。说白了，Pre Norm结构无形地增加了模型的宽度而降低了模型的深度，而我们知道深度通常比宽度更重要，所以是无形之中的降低深度导致最终效果变差了！

post-norm和pre-norm其实各有优势，post-norm在残差之后做归一化，对参数正则化的效果更强，进而模型的鲁棒性也会更好；pre-norm相对于post-norm，因为有一部分参数直接加在了后面，不需要对这部分参数进行正则化，正好可以防止模型的梯度爆炸或者梯度消失，因此，这里笔者可以得出的一个结论是如果层数少post-norm的效果其实要好一些，如果要把层数加大，为了保证模型的训练，pre-norm显然更好一些。

问题二：为什么Layer Normalization要加在F的前面，而不是F的后面呢？

因为做完Layer Normalization之后的数据不能和平常的数据加在一起，如果这样做的话残差中从上一层出来的信息会占很大比重，这显然并不合理。