NLP经典论文：Layer Normalization 笔记

最新推荐文章于 2024-03-26 14:38:35 发布

电信保温杯

最新推荐文章于 2024-03-26 14:38:35 发布

阅读量1.9k

点赞数 2

分类专栏：论文笔记文章标签：自然语言处理人工智能深度学习

本文链接：https://blog.csdn.net/sinat_39448069/article/details/121779888

版权

论文笔记专栏收录该内容

32 篇文章 11 订阅

订阅专栏

论文

NLP论文笔记合集（持续更新）

原论文：《Layer Normalization》

CV经典论文：Batch Normalization 笔记

介绍

2016-07发表的文章，提出了 layer normalization 方法。batch normalization 是一种减少训练时间的方法，详细参考CV经典论文：Batch Normalization 笔记。在NLP任务中，如果将该方法应用于RNN网络，则需要为每一个时间步训练 batch normalization 的参数。但这样会出现问题，因为输入的句子长度并不固定，使得基于数据集计算用于 normalization 的均值 $\mu$ 和方差 $\sigma$ ，在实际中效果并不好，而且预测时，对于输入句子长度比训练时要长的情况，在长了的句段，RNN在该时间步上也没有用于normalization 的均值和方差。为解决这个问题，该文章提出了 layer normalization 方法。

模型结构

来源：mingo_敏 https://blog.csdn.net/shanglianlm/article/details/85075706

图中 C 代表句子长度 seqlen，H,W 代表 embedding 的维度，N 代表 batch-size。

batch normalization 和 layer normalization 的相同点

batch normalization 和 layer normalization 都是先通过计算均值 $\mu$ 和方差 $\sigma$ 来 normalize 输入 $\rm x\in R^{ seqlen \times emb}$ ，再将 normalized 输入 $\rm \hat{x}$ 传入仿射函数： $\rm y =\gamma x + \beta$ ，其中自适应增益 $\gamma$ 和偏置 $\beta$ 是需要学习的2个参数。

normalization + 仿射的计算如下：
$\mu \leftarrow \frac{1}{m}\sum\limits_{i=1}^mx_i \quad\quad\quad\quad\quad// \text{均值}$ $\sigma^2 \leftarrow \frac{1}{m}\sum\limits_{i=1}^m(x_i-\mu)^2 \quad\quad\quad\quad\quad// \text{方差}$ $\hat{x}_i \leftarrow \frac{x_i-\mu}{\sqrt{\sigma^2+\epsilon}} \quad\quad\quad\quad\quad// \text{normalize}$ $y_{i} = \gamma \hat{x}_i+\beta \quad\quad\quad\quad\quad// \text{缩放和平移}$ $\epsilon$ 是一个加在方差上的常数，不需要学习，一般设为极小的值。

在RNN中，结构可参考NLP经典论文：Sequence to Sequence、Encoder-Decoder 、GRU 笔记，一层的隐藏单元数量为 $H$ ，对于 batch normalization 和 layer normalization 来说，需要学习的 $\gamma$ 和 $\beta$ 的参数数量都为 $H$ 个。

在 Transformer 中，结构可参考NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记，layer normalization 层需要学习的 $\gamma$ 和 $\beta$ 的参数数量都为 $dim_{embedding}$ 个。

batch normalization 和 layer normalization 的不同点

他们不同的地方在于计算均值 $\mu$ 和方差 $\sigma$ 的方式不一样。batch normalization 按照绿色箭头方向计算，共计算得到 $seqlen \times dim_{embedding}$ 个均值 $\mu$ 和方差 $\sigma$ ，这些值会保留在网络当中用于预测；layer normalization 则按照红色箭头方向计算，共计算得到 $batch\text{-}size \times seqlen$ 个均值 $\mu$ 和方差 $\sigma$ ，这些值不会会保留在网络当中，在预测时会重新计算。

文章部分翻译

Abstract

（注：summed input 指的是 $y = g (W x + b)$ 中的 $W x$ ，其中 $x$ 是该层的输入， $g(\cdot)$ 是激活函数。）

训练最先进的深度神经网络在计算上非常高成本的。减少训练时间的一种方法是 normalize 神经元的激活。最近引入的一种称为 batch normalization 的技术，使用 mini-batch 训练样例对一个神经元的 summed input 的分布，计算均值和方差，然后使用均值和方差 normalize 每个训练样例对该神经元的 summed input。这大大缩短了前馈神经网络的训练时间。然而，batch normalization 的效果取决于 mini-batch size，如何将其应用到RNN中也并不显而易见。在本文中，我们从单个训练样例在一个层中对所有神经元的 summed inputs，计算出用于 normalization 的均值和方差，来将 batch normalization 转换为 layer normalization。与 batch normalization 一样，我们也为每个神经元提供其自身的自适应偏置和增益，这些偏置和增益应用于 normalization 之后，于非线性激活之前。与 batch normalization 不同，layer normalization 在训练和测试时执行完全相同的计算。通过在每个时间步分别计算 normalization 统计量，也可以直接应用于RNN。layer normalization 对于稳定循环网络中的隐藏状态的动态过程非常有效。实验上，我们表明，与先前发布的技术相比，layer normalization 可以显著减少训练时间。

1 Introduction

在计算机视觉[Krizhevsky et al.，2012]和语音处理[Hinton et al.，2012]的各种监督学习任务中，使用某种形式的随机梯度下降训练的深度神经网络已被证明大大优于以前的方法。但是最先进的深层神经网络通常需要很多天的训练。通过在不同机器上计算不同训练样例子集的梯度或将神经网络本身拆分到多台机器上，可以加快学习速度[Dean等人，2012]，但这可能需要大量通信和复杂软件。随着并行化程度的增加，它也会导致训练收益的迅速减少。正交方法是修改在神经网络前向传递中执行的计算，以使学习更容易。最近，提出了 batch normalization [Ioffe和Szegedy，2015]，通过在深度神经网络中加入额外的 normalization 阶段来减少训练时间。normalization 使用训练数据中的平均值和标准偏差对每个 summed input 进行 normalization。使用 batch normalization 训练的前馈神经网络，即使使用简单的SGD也能更快地收敛。除了训练时间的改进外，batch 的统计量的随机性在训练期间也起到了正则化的作用。

尽管 batch normalization 很简单，但它需要 summed input 的统计量的运行平均值。在具有固定深度的前馈网络中，每个隐藏层很容易存储各自的统计量。然而，在循环神经网络（RNN）中，循环神经元的 summed input 通常随序列长度的变化而变化，因此对RNN应用 batch normalization 似乎需要不同时间步的不同统计信息。此外，batch normalization 不能应用于在线学习任务，也不能应用于 mini-batch 必须很小的超大分布式模型。

本文介绍了一种简单的 normalization 方法——layer normalization，以提高各种神经网络模型的训练速度。与 batch normalization 不同，该方法直接从隐层神经元的 summed inputs 估计 normalization 统计量，因此 normalization 不会在训练样例之间引入任何新的依赖关系。我们证明了 layer normalization 对于RNN非常有效，并且改进了现有几种RNN模型的训练时间和泛化性能。

2 Background

前馈神经网络是从输入样例 $\mathrm{x}$ 到输出向量 $y$ 的非线性映射。考虑深度前馈神经网络中的第 $l$ 个隐藏层，并且让 $a^l$ 为该层中对所有神经元的 summed inputs 的矢量表示。通过线性投影计算 summed inputs，加权矩阵 $W^l$ 和自底向上输入 $h^l$ 如下所示： $a^l_i={w^l_i}^\top h^l \quad\quad h_i^{l+1}=f(a_i^l+b_i^l)$ 其中 $f(\cdot)$ 是对应元素逐个相乘的非线性函数， $w^l_i$ 是第 $i$ 个隐藏单元的传入权重， $b_i^l$ 是标量偏置参数。使用基于梯度的优化算法学习神经网络中的参数，梯度通过反向传播计算。

（注：我们将训练过程中深层网络内部节点分布的变化称为 Internal Covariate Shift。）

深度学习的挑战之一是，一层中权重的梯度高度依赖于前一层神经元的输出，特别是当这些输出以高度相关的方式变化时。batch normalization [Ioffe和Szegedy，2015]是为了减少这种不希望得到的“covariate shift”。该方法 normalize 了训练样例中每个隐藏单元的 summed inputs。具体地说，对于第 $l$ 层中的第 $i$ 个 summed input，batch normalization 方法根据其在数据分布下的方差重新缩放 summed input $\bar{a}_i^l=\frac{g_i^l}{\sigma _i^l}(a_i^l-\mu _i^l)\quad\quad \mu_i^l=\underset{\mathbf{x}\sim P(\mathbf{x})}{\mathbb{E}}[a_i^l]\quad\quad \sigma _i^l=\sqrt{\underset{\mathbf{x}\sim P(\mathbf{x})}{\mathbb{E}}[(a_i^l-\mu _i^l)^2]}\quad\quad(2)$ 其中， $\bar{a}_i^l$ 是第 $l$ 层中的第 $i$ 个隐藏单元的 normalized summed input， $g_i$ 是在非线性激活函数之前缩放 normalized 激活的增益参数。注：期望值是在整个训练数据集分布下的。准确计算公式（2）中的期望值通常是不切实际的，因为它需要使用当前这组权重的整个训练数据集的向前传播。相反，使用当前 mini-batch 的实验样本估算 $\mu$ 和 $\sigma$ 。这就限制了 mini-batch 的大小，很难应用于循环神经网络。

3 Layer normalization

我们现在考虑 layer normalization 方法，其目的是克服 batch normalization 的缺点。

请注意，一层输出的变化往往会导致下一层的 summed inputs 发生高度相关的变化，特别是那些使用ReLU的单元，它的输出可能发生很大变化。这表明，可以通过固定各层内 summed inputs 的平均值和方差来减少“covariate shift”问题。因此，我们计算同一层中所有隐藏单元的 layer normalization 统计量，如下所示： $\mu^l =\frac{1}{H}\sum\limits_{i=1}^Ha_i^l\quad\quad \sigma^l =\sqrt {\frac{1}{H}\sum\limits_{i=1}^H(a_i^l-\mu^l)^2}\quad\quad (3)$ 其中 $H$ 表示层中隐藏单元的数量。等式（2）和等式（3）之间的区别在于，在 layer normalization 下，层中的所有隐藏单元共享相同的归一化项 $\mu$ 和 $\sigma$ ，但不同的训练样例具有不同的 normalization 项。与 batch normalization 不同，layer normalization 不会对 mini-batch 的大小施加任何约束，它可以用于 batch size 为1的纯在线系统。

3.1 Layer normalized recurrent neural networks

最近的 sequence to sequence 模型[Sutskever等人，2014]利用紧凑的循环神经网络来解决自然语言处理中的序列预测问题。在NLP任务中，对于不同的训练样例，有不同的句子长度是很常见的。这在RNN中很容易处理，因为在每个时间步使用相同的权重。但是，当我们以明显的方式对RNN应用 batch normalization 时，我们需要为序列中的每个时间步计算和存储单独的统计信息。如果测试序列比任何训练序列都长，这是有问题的。layer normalization 没有这样的问题，因为它的 normalization 项只依赖于当前时间步对于层的 summed inputs。它也只有一组在所有时间步上共享的增益和偏置参数。

在标准RNN中，根据当前输入 $x^t$ 和先前隐藏状态向量 $h^{t−1}$ 计算循环层中的 summed inputs，计算为 $a^t=W_{hh}h^{t−1}+W_{xh}x^t$ 。该层使用类似于等式（3）的额外归一化项重新中心化与缩放其激活： $\mathrm{h}^t=f\Big [\frac{\mathrm{g}}{\sigma^t}\odot(\mathrm{a}^t-\mu^t)+\mathrm{b}\Big ]\quad\quad \mu^t=\frac{1}{H}\sum\limits_{i=1}^Ha_i^t\quad\quad \sigma^t =\sqrt {\frac{1}{H}\sum\limits_{i=1}^H(a_i^t-\mu^t)^2}\quad\quad (4)$ 其中 $W_{hh}$ 是循环的 hidden-to-hidden 的权重， $W_{xh}$ 是自底向上 input-to-hidden 的权重。 $\odot$ 是两个向量之间的元素相乘。 $\mathrm{b}$ 和 $\mathrm{g}$ 定义为与 $\mathrm{h}^t$ 尺寸相同的偏置和增益参数。

在标准RNN中，循环单元的 summed inputs 的平均幅度在每个时间步都有增长或收缩的趋势，导致梯度爆炸或消失。在 layer normalized RNN中，normalization 项使得在一个层中的对所有 summed inputs 的重新缩放保持不变，从而产生更稳定的 hidden-to-hidden 的动态过程。

5 Analysis

在本节中，我们将研究不同 normalization 方案的不变性。

5.1 Invariance under weights and data transformations

提出的 layer normalization 与 batch normalization 和权重 normalization 有关。尽管它们的 normalization 标量的计算方式不同，但这些方法可以概括为通过两个标量 $\mu$ 和 $\sigma$ 对神经元的总输入 $a_i$ 进行 normalization。在 normalization 后，他们还学习每个神经元的自适应偏置 $b$ 和增益 $g$ 。 $h_i = f(\frac{g_i}{\sigma_i} (a_i-\mu_i) + b_i)$ 注意，对于 layer normalization 和 batch normalization， $\mu$ 和 $\sigma$ 根据公式2和3计算。在权重 normalization 中， $\mu$ 为0， $\sigma = \Vert w\Vert _2$ 。
在这里插入图片描述
表1突出显示了三种 normalization 方法的不变性结果。

Weight re-scaling and re-centering：首先，观察在 batch normalization 和权重 normalization 下，对单个神经元传入权重 $w_i$ 的任何重新缩放对神经元的 normalized summed inputs 没有影响。精确地说，在 batch normalization 和权重 normalization 下，如果权重向量按 $\delta$ 缩放，那么两个标量 $\mu$ 和 $\sigma$ $a_i$ 也将按 $\delta$ 缩放。normalized summed inputs 在缩放前后保持不变。因此，batch normalization 和权重 normalization 对权重的重新缩放是不变的。另一方面，layer normalization 对于单个权重向量的单独缩放不是不变的。相反，layer normalization 对整个权重矩阵的缩放是不变的，对权重矩阵中所有传入权重的平移量是不变的。假设有两组模型参数 $\theta$ ， $\theta'$ ，其权重矩阵为 $W$ 和 $W^{'}$ 是不一样的， $W^{'}$ 通过比例因子 $\delta$ 缩放并且所有传入权重也被一个常数向量 $\gamma$ 平移，即 $W'=\delta W+ 1\gamma ^{\top}$ . 在 layer normalization 下，两个模型有效地计算相同的输出： $\mathrm{h}' = f(\frac{\mathrm{g}}{\sigma'} (W'\mathrm{x}-\mu') + \mathrm{b}) = f(\frac{\mathrm{g}}{\sigma'} ((\delta W+ 1\gamma ^{\top})\mathrm{x}-\mu') + \mathrm{b}) \\ = f(\frac{\mathrm{g}}{\sigma} (W\mathrm{x}-\mu) + \mathrm{b}) =h.$ 请注意，如果 normalization 仅应用于权重之前的输入，那么模型将不会对权重的重新缩放和重新居中保持不变。

Data re-scaling and re-centering：通过证实神经元的 summed inputs 在变化下保持不变，我们可以证明所有的 normalization 方法对重新缩放数据集是不变的。此外，layer normalization 对于单个训练样例的重新缩放是不变的，因为等式（3）中的 normalization 标量 $\mu$ 和 $\sigma$ $a_i$ 仅依赖于当前输入数据。让 $\mathrm{x}'$ 是一个新的数据点，通过 $\delta$ 重新缩放 $\mathrm{x}$ 获得。那么我们有， $h_i' = f(\frac{g_i}{\sigma'} (w_i^{\top} \mathrm{x}'-\mu') + b_i) = f(\frac{g_i}{\delta \sigma} (\delta w_i^{\top} \mathrm{x}-\delta \mu) + b_i) =h_i$ 很容易看出，在 layer normalization 下，重新缩放单个数据点不会改变模型的预测。与 layer normalization 中权重矩阵的重新中心化类似，我们还可以证明 batch normalization 对数据集的重新中心化是不变的。

5.2 Geometry of parameter space during learning

我们研究了模型预测在参数重新中心化和缩放下的不变性。然而，在不同的参数化下，学习的行为可能会非常不同，即使模型表达了相同的底层功能。在本节中，我们将通过参数空间的几何和流形来分析学习行为。我们证明了 normalization 标量 $\sigma$ 可以隐式地降低学习率，使学习更加稳定。

5.2.1 Riemannian metric

统计模型中的可学习参数形成一个光滑流形，由模型的所有可能输入输出关系组成。对于输出为概率分布的模型，度量此流形上两点的分隔的自然方法是其模型输出分布之间的 Kullback-Leibler 散度。在 KL 散度度量下，参数空间是黎曼流形。

黎曼流形的曲率完全由其黎曼度量所获得，黎曼度量的二次型表示为 $ds^2$ 。这是参数空间中某一点在切线空间中的无穷小距离。直观地说，它沿切线方向测量参数空间中模型输出的变化。之前曾研究过 KL 下的黎曼度量[Amari，1998]，并使用 Fisher 信息矩阵证明其在二阶泰勒展开下具有良好的近似性：
在这里插入图片描述
其中， $\delta$ 是参数的微小变化。上面的黎曼度量给出了参数空间的几何视图。下面对黎曼度量的分析为 normalization 方法如何帮助训练神经网络提供了一些见解。

5.2.2 The geometry of normalized generalized linear models

我们将几何分析的重点放在广义线性模型上。以下分析的结果可以很容易地应用于理解深度神经网络，该网络具有 Fisher 信息矩阵的块对角近似，其中每个块对应于单个神经元的参数。

广义线性模型（GLM）可被视为使用权重向量 $w$ 和偏置标量 $b$ 对指数族的输出分布进行参数化。为与前面章节一致，GLM 的对数似然可使用 summed inputs $a$ 写成如下：
在这里插入图片描述
式中， $f(\cdot)$ 是神经网络中模拟非线性的传递函数， $f'(\cdot)$ 是传递函数的导数， $\eta (\cdot)$ 是实值函数， $(\cdot)$ 是对数配分函数。 $\phi$ 是缩放输出方差的常数。假设 $H$ 维输出向量 $\mathrm{y}=[y_1，y_2，···，y_H]$ 使用 $H$ 个独立的 GLM 和 $\log P(\mathrm{y}|\mathrm{x};W,\mathrm{b})=\sum_{i=1}^H \log P(y_i |\mathrm{x};w_i,b_i)$ 建模。设 $W$ 为权重矩阵，其行为单个 GLM 的权重向量， $\mathrm{b}$ 表示长度 $H$ 的偏置向量， $\rm vec (\cdot)$ 表示 Kronecker 向量算子。多维 GLM 关于其参数 $\theta =[w_1^{\top},b_1,\cdots,w_H^{\top},b_H]^{\top} = \mathrm{vec}([W,\mathrm{b}]^{\top})$ 的 Fisher 信息矩阵只是数据特征和输出协方差矩阵的预期 Kronecker 乘积：
在这里插入图片描述
我们通过将 normalization 方法获得多个 normalized GLM，该方法通过 $\mu$ 和 $\sigma$ 应用于原始模型中的 summed inputs $a$ 。在不丧失一般性的情况下，我们将 $\bar{F}$ 表示为 normalized 多维GLM下的 Fisher 信息矩阵，带有额外增益参数 $\theta = \mathrm{vec}([W,\mathrm{b}]^{\top})$ :
在这里插入图片描述
Implicit learning rate reduction through the growth of the weight vector：请注意，与标准 GLM 相比，沿权重向量 $w_i$ 方向的块 $\bar{F}_{ij}$ 由增益参数和 normalization 标量 $\sigma_i$ 缩放。如果权重向量 $w_i$ 的范数增长两倍大，即使模型的输出保持不变，Fisher 信息矩阵也将不同。沿 $w_i$ 方向的曲率将变为1/2倍，因为 $\sigma_i$ 也将是两倍大。因此，对于 normalized 模型中相同参数的更新，权重向量的范数有效地控制了权重向量的学习率。在学习过程中，很难改变范数较大的权重向量的方向。因此，normalization 方法对权重向量具有隐含的“提前停止”效应，并有助于稳定学习，使其趋于收敛。

Learning the magnitude of incoming weights：在标准化模型中，传入权重的大小由增益参数显式参数化。在学习过程中，我们比较了在 normalized GLM 中更新增益参数和在原始参数化下更新等效权重的大小之间模型输出的变化。沿 $\bar{F}$ 中增益参数的方向可获得传入权重大小的几何视图。我们表明，标准 GLM 沿输入权重大小的黎曼度量通过其输入的范数进行缩放，而 batch normalized 和 layer normalized 模型的增益参数的学习仅取决于预测误差的大小。因此，在标准化模型中学习传入权重的大小比在标准模型中对输入及其参数的缩放更具鲁棒性。详细推导见附录。

Supplementary Material

Application of layer normalization to each experiment

本节描述了如何将 layer normalization 应用到每一篇论文的实验中。为了便于记法，我们将 layer normalization 定义为具有两组自适应参数（增益 $\alpha$ 和偏差 $\beta$ ）的函数映射 $LN:R^D \rightarrow R^D$ 。
$LN(\mathrm{z}:\alpha,\beta)=\frac{\mathrm{z}-\mu}{\sigma}\odot \alpha+\beta$ $\mu =\frac{1}{D}\sum\limits_{i=1}^Dz_i,\quad\quad \sigma =\sqrt {\frac{1}{D}\sum\limits_{i=1}^D(z_i-\mu)^2},$ 其中， $z_i$ 是向量 $\mathrm{z}$ 的第 $i$ 个元素。

pytorch API:

tensorflow API

电信保温杯

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
NLP经典论文：Layer Normalization 笔记

NLP经典论文：Layer Normalization 笔记论文模型结构相关视频相关的笔记相关代码pytorchtensorflowkeraspytorch API:tensorflow API论文NLP论文笔记合集（持续更新）原论文：模型结构相关视频相关的笔记相关代码pytorchtensorflowkeraspytorch API:tensorflow API...
复制链接

扫一扫