【论文】LayerNorm

最新推荐文章于 2024-07-12 21:09:48 发布

大白羊_Aries

最新推荐文章于 2024-07-12 21:09:48 发布

阅读量1.2k

点赞数 1

分类专栏： MILVLG 文章标签：机器学习概率论深度学习

本文链接：https://blog.csdn.net/qq_38204302/article/details/120182232

版权

MILVLG 专栏收录该内容

41 篇文章 1 订阅

订阅专栏

【论文】Ba J L, Kiros J R, Hinton G E. Layer normalization[J].（pdf）

我们在 BatchNorm 的分析中也指出 BatchNorm 存在两个问题，一是小批量采样太小会导致结果不稳定，二是对于 RNN 网络 BatchNorm 并不适合

于是，本文提出了 『层归一化』，一种独立于 batch_size 的算法，所以无论样本数多少都不会影响参与 LayerNorm 计算的数据

Layer normalization

设 $H$ 是某一层中的隐藏结点的数量， $l$ 表示层数，我们可以计算 LayerNorm 的归一化统计量 $\mu^l$ 和 $\sigma^l$ ，如下 $\mu^l=\frac{1}{H}\sum_{i=1}^Ha_i^l \\ \sigma^l=\sqrt{\frac{1}{H}\sum_{i=1}^H(a^l-\mu^l)^2}$

其中 $a^l$ 表示一个中间输出结果的总和，这个总和可以通过权重矩阵 $W^l$ 和隐藏层全部输入 $h^l$ 组成的一个线性变化计算得到，具体可以参考下面 $a_i^l={w_i^l}^Th^l\\ h^{l+1}_i=f(a_i^l+b_i^l)$

$f$ 被视为一个非线性激活， $i$ 表示该层中的第 $i$ 个神经元。其实说简单点， $a^l$ 就表示层输入经过权重矩阵变换后的值

注意上面的统计量和样本数没有关系，而是和隐藏层的结点数有关，我们甚至可以使 batch_size = 1

于是，我们可以根据商量的统计量进行归一化处理， $\hat a^l=\frac{a^l-\mu^l}{\sqrt{(\sigma^l)^2+\varepsilon}}$

这是一个非常有意思的事情，我们对归一化的角度变了，BatchNorm 是按照小批量采样的结果进行归一化，而在 LayerNorm 中我们则按照一层神经元变换的结果进行归一化
在这里插入图片描述

同样，在 LayerNorm 中我们也需要一组参数来保证归一化操作不会破坏之前的信息。在 LayerNorm 中这组参数叫做增益（gain）和偏置（bias），同 BatchNorm 中的 $\gamma$ 和 $\beta$

还是假设激活函数为 $f$ ，最终 LayerNorm 的输出为 $h^l=f(g^l\odot \hat a^l+b^l )$ ，整理一下公式于是有 $h^l=f\left (\frac{g}{\sqrt{(\sigma^l)^2+\varepsilon}}\odot(a^l-\mu^l)+b\right )$

Layer normalized recurrent neural networks

在 RNN 中，我们可以非常简单的在每个时间片中使用 LayerNorm，而且在任何时间片我们都能保证归一化统计量是关于 $H$ 个结点信息的统计。对于 RNN 时刻 $t$ 时的结点，其输入是 $t - 1$ 时刻的隐层状态 $h^{t-1}$ 和 $t$ 时刻的输入数据 $x_t$ ，于是有 $a^t=W_{hh}h^{t-1}+W_{xh}x^t$ 接着我们便可以在 $a^t$ 上采取和前面完全相同的归一化过程
$h^t=f\left [\frac{g}{\sigma^t}\odot(a^t-\mu^t)+b\right ] \\ \mu^t=\frac{1}{H}\sum_{i=1}^Ha_i^t \\ \sigma^t=\sqrt{\frac{1}{H}\sum_{i=1}^H(a_i^t-\mu^t)^2}$

大白羊_Aries

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【论文】LayerNorm

【论文】Ba J L, Kiros J R, Hinton G E. Layer normalization[J].（pdf）我们在 BatchNorm 的分析中也指出 BatchNorm 存在两个问题，一是小批量采样太小会导致结果不稳定，二是对于 RNN 网络 BatchNorm 并不适合于是，本文提出了『层归一化』，一种独立于 batch_size 的算法，所以无论样本数多少都不会影响参与 LayerNorm 计算的数据Layer normalization设 HHH 是某一层中的隐藏结点.
复制链接

扫一扫

专栏目录